Accesos directos a las distintas zonas del curso

Ir a los contenidos

Ir a menú navegación principal

Ir a menú pie de página

ACCESO INTELIGENTE A LA INFORMACIÓN

Curso 2017/2018 / Cod.31101019

ACCESO INTELIGENTE A LA INFORMACIÓN

CONTENIDOS DE LA ASIGNATURA

Estructura y contenido teórico

Tema 1: Recuperación de Información Multilingüe.

  1. Necesidad del acceso multilingüe a la información
    • Diferencia entre IR monolingüe e IR multilingüe
  2. Recursos para la Recuperación de Información dependientes del idioma:
    • Lematizadores.
    • Stemmers.
    • Segmentación de compuestos y palabras.
  3. Traducción de Consultas, el problema de la Fusión Documental:
    • Diccionarios bilingües, diccionarios con información gramatical.
    • Estructuración de la consulta según la traducción.
    • Idiomas pivote.
    • Utilización de corpora paralelos/comparables.
    • Programas de traducción automática.
    • Tesauros.
    • Múltiples idiomas: el problema de la fusión documental.
  4. Traducción de Documentos, otros enfoques al problema:
    • Traducción de los documentos vs. traducción de las consultas.
    • Traducciones bidireccionales.
    • Representación conceptual.
  5. Sistemas interactivos de búsqueda de información multilingüe.
  6. Evaluación
    • CLEF y otros foros de evaluación
    • Consideraciones de evaluación (medidas, colecciones, etc)


Tema 2: Extracción de Información.

  1. Definición:
    • Perspectiva histórica y objetivos
    • Reconocimiento de información relevante
  2. Arquitectura de los sistemas de Extracción de Información:
    • Preprocesado y análisis de los documentos.
    • Reconocimiento de patrones y entidades
    • Resolución de co-referencias.
    • Generación de la salida esperada.
  3. Aprendizaje Máquina aplicado a la Extracción de Información:
    • Aprendizaje de reglas para la extracción de información.
    • Aprendizaje estadístico.
  4. Extracción de Información Multilingüe:
    • Reconocedores del idioma.
    • Traducción de la información extraída vs. traducción de los documentos:
    • Sistemas de extracción de información translingües.
  5. Ejemplos de Sistemas de Extracción de Información:
    • Freeling
    • Annie
    • Stanford NER
  6. Evaluación:
    • foros de evaluación (MUC, ACE, TAC)
    • consideraciones de evaluación (medidas, colecciones, etc)


Tema 3: Extracción Automática de Resúmenes y Síntesis de Información.

  1. Definición.
  2. Tipos de resumen: consideraciones sobre el texto a procesar y los objetivos del resumen:
    • Resumen mono/multi-documento
    • Resumen genérico vs. orientado a consulta
    • Resumen informativo vs. indicativo
    • Resumen multi-evento vs. mono-evento
  3. Caracterización de fragmentos relevantes:
    • Localización y longitud del fragmento.
    • Presencia de términos relevantes
    • Expresiones indicativas de relevancia
    • Nombres propios.
  4. Técnicas de resumen basadas en coherencia y cohesión:
    • Conceptos de cohesión y coherencia.
    • Aplicación de la cohesión y la coherencia en la generación automática de resúmenes.
    • Aplicación combinada de cohesión y coherencia.
  5. Resumen multidocumento y síntesis de información:
    • Características del resumen multi-documento frente a mono-documento.
    • Síntesis de Información frente a resumen multi-documento.
  6. Resúmenes multilingües:
    • Diversas aproximaciones al problema.
  7. Evaluación de resúmenes
    • Evaluación basada en la coherencia o en la información contenida.
    • Evaluación mediante resúmenes de referencia.
    • Evaluación en relación a los documentos de partida.
    • Consideraciones de evaluación (medidas, colecciones, etc)


Tema 4: Sistemas de Búsqueda Automática de Respuestas.

  1. Búsqueda de Respuestas vs. Recuperación de Información:
    • Evolución de la Recuperación de Información hacia la Búsqueda de Respuestas.
  2. Arquitectura básica de un sistema de Búsqueda de Respuestas:
    • Análisis de la pregunta.
    • Selección de documentos.
    • Extracción de respuestas.
    • Validación de respuestas.
  3. Clasificación de Sistemas de búsqueda automática de respuestas:
    • Nivel de utilización de técnicas de PLN.
    • Taxonomía de Moldovan.
    • Situación actual de la investigación en este campo.
  4. Tipos de preguntas y respuestas:
    • Clasificación de los diferentes tipos y subtipos de preguntas.
  5. La barrera del idioma en la Búsqueda de Respuestas:
    • El track QA@CLEF: búsqueda translingüe de respuestas.
    • Diferentes enfoques al problema.
  6. Interacción con el usuario:
    • Sistemas de ayuda para la búsqueda de respuestas.
    • Comparación entre sistemas automáticos de búsqueda de respuestas y asistentes interactivos de ayuda a la búsqueda de respuestas.
  7. Ejemplos de Sistemas de Búsqueda de Respuestas.
    • Watson de IBM en el desafío Jeopardy!
  8. Evaluación:
    • Conferencias TREC, CLEF y NTCIR.
    • Consideraciones de evaluación (medidas, colecciones, etc)

Objetivos por tema y orientaciones breves


Tema 1: Recuperación de Información Multilingüe.

El objetivo global del tema es introducir al estudiante en el tema de investigación sobre Recuperación de Información Multilingüe, introduciendo en primer lugar los aspectos monolingües del problema y extendiendo éstos a entornos multilingües e interactivos.

Este objetivo global puede descomponerse en los siguientes objetivos más concretos:

  • O.1.1: Conocer el problema de la Recuperación de Información e identificar los problemas específicos que se presentan en un entorno multilingüe.
  • O.1.2: Conocer las diferentes aproximaciones para resolver el problema de la Recuperación de Información Multilingüe e identificar las ventajas e inconvenientes de cada uno de ellos.
  • O.1.3: Identificar los problemas adicionales que se presentan cuando el problema se aborda desde un punto de vista interactivo y conocer las principales aproximaciones realizadas para resolverlos.

Dentro de las actividades de aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema.


Tema 2: Extracción de Información.

El objetivo global del tema es introducir al estudiante en el problema de la Extracción de Información, estudiando su perspectiva histórica desde la serie de Conferencias MUC y analizando las diferentes partes del problema tanto en entornos monolingües como multilingües.

 

Este objetivo global puede descomponerse en los siguientes objetivos más concretos:

  • O.2.1: Conocer el problema de la Extracción de Información Recuperación de Información desde la perspectiva histórica de las conferencias MUC (Message Understanding Conference).
  • O.2.2: Identificar las diferentes fases del proceso de extracción de información y conocer las principales aproximaciones para afrontarlos.
  • O.2.3: Identificar los problemas específicos de la Extracción de Información cuando se extiende a un entorno multilingüe y conocer las aproximaciones para resolverlos.
  • O.2.4: Examinar las técnicas de Aprendizaje Automático que se han empleado para resolver el problema de la Extracción de Información.

Dentro de las actividades de aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema.


Tema 3: Extracción Automática de Resúmenes y Síntesis de Información.

El estudiante deberá aprender las principales técnicas empleadas para la Extracción Automática de Resúmenes, así como diferenciar este problema del de la Síntesis de Información.

 

Este objetivo global puede descomponerse en los siguientes objetivos más concretos:

  • O.3.1: Estudiar diferentes técnicas para la localización de fragmentos relevantes del documento y conocer cómo se mide la relevancia de los mismos.
  • O.3.2: Conocer los conceptos de cohesión y coherencia aplicados al problema. Estudiar las diversas técnicas que aplican dichos conceptos.
  • O.3.3: Saber identificar las diferencias entre la Síntesis de Información y los Resúmenes Multi-Documento.
  • O.3.4: Conocer los problemas que se plantean cuando el problema estudiado se lleva a un entorno multilingüe.
  • O.3.5: Estudiar las medidas que se han probado para evaluar la calidad de los resúmenes automáticos, principalmente en las Conferencias DUC (Document Understanding Conference).

Dentro de las actividades de aprendizaje se especifican las lecturas más adecuadas para cada uno de los objetivos del tema.


Tema 4: Sistemas de Búsqueda Automática de Respuestas.

Introducir al estudiante en los Sistemas Autmáticos de Búsqueda de Respuesta, conociendo la problemática que se plantea tanto en entornos multilingües como interactivos.

 

Este objetivo global puede descomponerse en los siguientes objetivos más concretos:

  • O.4.1: Conocer cómo se produjo la evolución de la Recuperación de Información hacia la Búsqueda de Respuestas.
  • O.4.2: Conocer la arquitectura básica de un Sistema Automático de Búsqueda de Respuestas, estudiar las diferentes clasificaciones de éstos.
  • O.4.3: Estudiar los problemas específicos de la Búsqueda de Respuestas en entornos multilingües y conocer los diferentes enfoques empleados para resolverlos.
  • O.4.4: Considerar los Sistemas de Búsqueda de Respuestas como asistentes interactivos para el usuario. Comparar dichos asistentes con los Sistemas Automáticos.
 

Actividades y plan de trabajo

Actividades a realizar

Las tareas que se deberán realizar en esta asignatura tienen tanto que ver con la asimilación de los conocimientos propios de la materia, como con el desarrollo de la capacidad para investigar. Estarán indicadas en el entorno virtual de la asignatura.

 

Plan de trabajo

  • Tema 1 (15 horas) Semanas 1-4. Estudio de materiales de referencia y ejercicios relacionados con la consulta bibliográfica.
  • Tema 2 (15 horas) Semanas 4-8. Estudio de materiales de referencia y ejercicios relacionados con la consulta bibliográfica.
  • Tema 3 (20 horas) Semanas 9-12. Estudio de materiales de referencia y ejercicios relacionados con la consulta bibliográfica.
  • Tema 4 (25 horas) Semanas 13-16. Estudio de materiales de referencia y ejercicios relacionados con la consulta bibliográfica.
  • Trabajo individual (50 horas). Semanas 16-23.