Logo de la UNED

DESCUBRIMIENTO DE INFORMACIÓN EN TEXTOS

Cod.31101076
CONTENIDOS DE LA ASIGNATURA

Estructura y el contenido teórico de la asignatura se detalla a continuación:

Tema 1.- Introducción: interés y definiciones preliminares.
Tema 2.- Corpus: definiciones y tipología
Tema 3.- Estándares de anotaciones
Tema 4.- Modelos estadísticos para la caracterización de textos: Etiquetado léxico y sintáctico.
Tema 5.- Representación de textos: Modelos y funciones de pesado y reducción de rasgos.
Tema 6.- Técnicas de minería de textos. Clustering
Tema 7.- Técnicas de minería de textos. Clasificación automática.

Objetivos por tema y orientaciones breves:

Tema 1. Introducción: interés y definiciones preliminares.

  • Objetivos: El objetivo global del tema es presentar al alumno aquellos conceptos y conocimientos preliminares sin los que no podría ubicar los contenidos de la asignatura. Se pretende, además, justificar el interés de la asignatura, motivar al alumno en su estudio y presentar las posibles aplicaciones de los contenidos.
  • Orientaciones: Dentro de las actividades de aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema.

Tema 2. Corpus: definiciones y tipología.

  • Objetivos: Se pretenden presentar las diversas definiciones de corpus existentes desde diversos puntos de vista, además de clasificarlos de acuerdo a diversos criterios comúnmente utilizados en la bibliografía.
  • Orientaciones:Dentro de las actividades de aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema. Se presentarán y facilitará el acceso a numerosos ejemplos de tipos de corpus.

Tema 3. Estándares de anotaciones.

  • Objetivos: Se pretende presentar el concepto de anotación, los tipos de anotaciones y los estándares de anotaciones en XML.
  • Orientaciones: Dentro de las actividades de aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema. Se presentarán y facilitará el acceso a numerosos ejemplos de tipos de corpus con anotaciones, en particular XML.

Tema 4. Modelos estadísticos para la caracterización de textos: Etiquetado léxico
y sintáctico.

  • Objetivos: Dar a conocer al alumno los modelos estadísticos más utilizados en el procesamiento del lenguaje natural, tales como los Modelos de Markov Ocultos y las Gramáticas probabilísticas. También se darán a conocer algoritmos basados en estos modelos para abordar problemas específicos de PLN.
  • Orientaciones: Dentro de las actividades de representación y aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema. Se presentarán y facilitará el acceso a ejemplos y herramientas para el etiquetado léxico y el análisis sintáctico.
Tema 5: Representación de textos: Modelos y funciones de pesado y de reducción
de rasgos.
  • Objetivos: Se presentarán los modelos de representación más utilizados. Además se estudiarán los métodos de selección y reducción de rasgos más comunes en textos.
  • Orientaciones: Dentro de las actividades de representación y aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema. Se presentarán y facilitará el acceso a ejemplos y herramientas para la selección de rasgos.
Tema 6: Técnicas de minería de textos. Clustering.
  • Objetivos: Se presentará el campo de la minería de textos ubicando el clustering o agrupamiento automático en él. Se presentarán las principales técnicas y algoritmos de clustering, así como las técnicas que se suelen utilizar en su evaluación.
  • Orientaciones: Dentro de las actividades de aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema. Se presentarán y facilitará el acceso a ejemplos y herramientas para clustering.
Tema 7: Técnicas de minería de textos. Clasificación automática.
  • Objetivos: Se presentará el campo de la minería de textos ubicando la clasificación automática en él. Se presentarán las principales técnicas y algoritmos de aprendizaje aplicados a clasificación, así como las técnicas que se suelen utilizar en su evaluación.
  • Orientaciones: Dentro de las actividades de aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema. Se presentarán y facilitará el acceso a ejemplos y herramientas para la clasificación automática.

Las actividades prácticas programadas son:

  • Corpus. Tipologías.
  • Extracción de información lingüística a partir de anotaciones. Estándares de anotaciones. Salidas de herramientas de uso frecuente.
  • Representaciones de diversos tipos de documentos. Uso de metainformación.
  • Clustering: algoritmos partitivos y jerárquicos.
  • Clasificación automática: aprendizaje supervisado y semisupervisado.

Otras actividades programadas se irán generando de forma dinámica en el curso virtual.