El objetivo del curso es proporcionar al alumno una visión global de las técnicas y tecnologías involucradas en el descubrimiento de información en textos.
El aprendizaje está diseñado para permitir que el alumno adquiera una serie de destrezas y competencias que se enumeran a continuación:
Saber lo que es un corpus y conocer los criterios por los que se clasifican, los tipos de anotaciones más comunes y los estándares utilizados.
Conocer los modelos de representación comúnmente utilizados, así como los métodos de selección y reducción del número de rasgos.
Saber distinguir los diversos niveles de información lingüística que se pueden utilizar en la representación de textos y las notaciones utilizadas para su descripción.
Saber qué se entiende por minería de textos y conocer las principales técnicas y tecnologías implicadas.
Saber qué es la clasificación automática de textos y sus características y tipos.
Conocer diversos tipos de técnicas de aprendizaje automático que se pueden utilizar en la clasificación automática de textos.
Conocer los modelos estadísticos más utilizados en el procesamiento del lenguaje.
Saber utilizar las herramientas disponibles de clasificación automática de textos y tener criterios para seleccionar las más adecuadas.
Saber qué es el clustering de textos y sus características y tipos.
Conocer diversos tipos de algoritmos de clustering.
Saber utilizar las herramientas disponibles de clustering de textos y tener criterios para seleccionar las más adecuadas.
Conocer algoritmos de etiquetado léxico y análisis sintáctico.