Accesos directos a las distintas zonas del curso
Ir a los contenidos
Ir a menú navegación principal
Ir a menú pie de página
Subject's code : 31101254
Definiciones preliminares.
Interés y aplicaciones.
Este primer tema es introductorio, motiva al estudio de la asignatura e introduce los conceptos básicos que se desarrollarán a continuación.
¿Qué es un corpus?
Tipos de anotación
Tipos de corpus
Ejemplos de corpus
En este capítulo se proporciona una introducción a las compilaciones de textos o corpus utilizados en el procesamiento del lenguaje natural. Estos textos pueden estar o no anotados con información lingüística. Se describen distintos tipos de corpus y anotaciones, y se presentan ejemplos.
Introducción
Lenguajes de anotaciones. XML
Generalidades
Componentes de un documento XML
Modelado de datos
Fundamentos de las DTD
Corrección de un documento XML
Estándares de anotaciones en XML
TEI
XCES
En este capítulo se proporciona una introducción sobre los tipos de anotaciones más comunes en corpus textuales. Este tipo de anotaciones facilitan diversas tareas relacionadas con la minería de textos. El lenguaje más común utilizado hoy en día para anotar corpus es XML. Se proporciona una introducción que podrán saltarse aquellos alumnos que ya dispongan de conocimientos al respecto.
A continuación se presentan dos de los estándares XML más utilizados por la comunidad científica así como por profesionales. Uno es muy general, TEI, y el otro, XCES, más específico de las anotaciones con información lingüística. Ambos se utilizan en Ingeniería Lingüística y en aplicaciones de Procesamiento de Lenguaje Natural.
Por último, se presenta una arquitectura de anotaciones que cada vez se utiliza más, las anotaciones stand-off en XML, que permite superar algunas de las limitaciones intrínsecas de XML y facilitar el procesamiento de textos anotados. Se añade información sobre las tecnologías XML que permiten implementar esta arquitectura, genéricamente se denominan XLink. Aquellos alumnos familiarizados con ellas podrán revisar los ejemplos que se proporcionan sin necesidad de repasarlas.
Motivación
Herramientas matemáticas
Nociones de teoría de la probabilidad
Introducción a la Teoría de la Información
Modelos Ocultos de Markov y Etiquetado Léxico
Modelos de Markov Ocultos (HMMs)
Etiquetado Léxico
Algoritmo de Viterbi
HMMs: entrenamiento
Gramáticas probabilísticas y Análisis sintáctico
Gramáticas probabilísticas (PCFGs)
Análisis sintáctico con PCFGs
Analizador tipo chart
En este capítulo se proporciona una introducción dos de los modelos estadísticos más utilizados en el procesamiento del lenguaje natural: Los modelos de Markov ocultos y las gramáticas probabilísticas. Estos modelos se aplican a dos problemas fundamentales del procesamiento del lenguaje: el etiquetado léxico y el análisis sintáctico. El etiquetado léxico consiste en asignar a cada palabra la categoría que le corresponde (verbo, nombre, etc.) resolviendo los casos ambiguos. El análisis sintáctico consiste en buscar la estructura en la que se organizan las partes de una oración.
Introducción.
Modelos de representación vectorial.
Antecedentes.
Modelo de espacio vectorial (VSM) y Latent Semantic Indexing (LSI).
Funciones de pesado (term weighting functions).
Funciones locales y globales.
Selección y reducción de rasgos (feature selection).
Truncado (stemming) y lematización.
Eliminación de stop-words.
Funciones de selección de rasgos.
En este capítulo se proporciona una introducción a la representación automática de textos. En general, ésta deberá ser fiel, en primer lugar, al contenido del documento, incluyendo la información necesaria para poder extraer el conocimiento útil que se espera obtener y, a la vez, deberá adecuarse a las especificaciones de los algoritmos que se empleen a continuación.
Sea cual sea el modelo de representación que se quiera emplear, casi todos ellos coinciden en considerar la palabra como elemento fundamental. Así, en ultima instancia, una representación será un conjunto de cadenas que, de una u otra forma, representen el contenido del documento a representar. Se proporciona una introducción a los modelos de representación vectoriales, muy utilizados en sistemas de Recuperación de Información, Clasificación y Clustering de documentos.
A continuación, se presentan funciones de ponderación empleadas para calcular la importancia o relevancia de una cadena en el contenido de un texto. Estas funciones pueden emplear parámetros diferentes según los casos; desde la frecuencia de aparición en el documento o en la colección, hasta probabilidades condicionadas en problemas de clasificación automática.
Por último, se introducen aspectos relacionados con la selección de rasgos (conjunto de cadenas con el que se va a representar) como elementos de transformación de una información que inicialmente es de caracter cualitativo.
Métodos de clustering
No jerárquicos
Jerárquicos
Otros
Trabajos comparativos
Herramientas
Se trata de un tema introductorio a una particular manera de organización de objetos, el clustering o agrupación automática. En este caso nos referimos al clustering de documentos, por lo que el contenido se particulariza a este tipo concreto de objetos. Se revisan las principales familias de algoritmos de clustering analizando sus características. Por último, se presentan estudios comparativos entre diferentes tipos de algoritmos y algunas herramientas de clustering de libre distribución.
Clasificación automática de documentos
Aprendizaje automático.
Tipos de clasificación automática.
Single label / multilabel
Document pivoted / category pivoted
Hard / ranking
Fast-feature / full-feature
Lean / rich categories
Técnicas de clasificación automática supervisada.
Naïve Bayes
Árboles de decisión.
Clasificadores basados en reglas.
Máquinas de vectores de soporte (Support Vector Machines).
Técnicas de clasificación semisupervisada.
Autoentrenamiento (bootstrapping)
Máquinas de vectores de soporte semisupervisadas (S3VM).
Algoritmo de expectacion-maximización (EM)
Evaluación de sistemas de clasificación automática de documentos.
Exactitud (Accuracy).
Precisión (Precision) y cobertura (Recall).
En este capítulo se proporciona una introducción a la clasificación automática de documentos dentro del Aprendizaje Automático. En este contexto, y dependiendo de si se dispone o no de datos etiquetados para realizar la tarea de aprendizaje, se distingue entre aprendizaje supervisado y semisupervisado.
Se describen los diferentes tipos de clasificación automática, así como las principales técnicas tanto en el aprendizaje supervisado como semisupervisado. Por último, se presentan las funciones de evaluación más usadas dentro de los sistemas de clasificación automática de documentos.