Logo de la UNED

PROCESAMIENTO DEL LENGUAJE NATURAL

Cod.31101269
CONTENIDOS DE LA ASIGNATURA

Estructura y contenido teórico

Tema 1. Introducción

Se identifican algunos de los problemas más importantes que se plantean en el estudio y tratamiento computacional del lenguaje natural, y se da una breve descripción histórica del desarrollo de esta disciplina.


Tema 2. Autómatas finitos, procesamiento de unidades morfológico-léxicas, N-gramas

Se fijan los conceptos de expresiones regulares y los operadores asociados además de autómatas finitos y lenguajes regulares. Se introduce además el concepto de morfología en inglés y, mediante lecturas complementarias, morfología castellana. El tema aborda a continuación las técnicas de procesamiento morfológico basadas en lexicones, transductores y la aproximación de stemming. Finalmente se estudian los N-gramas.


Tema 3. Etiquetado sintáctico

En este tema se establece un puente entre los niveles léxico y sintáctico. Se describe la taxonomía de palabras aplicables a diferentes lenguas, y las diferentes técnicas de etiquetado sintáctico existentes.


Tema 4. Gramáticas de contexto libre para el análisis de lenguaje natural

Se introducen las estructuras de la oración, incluyendo los conceptos de constituyente, sintagmas nominales y verbales, oraciones coordinadas, y su representación mediante gramáticas de contexto libre.


Tema 5. Parsing

Este tema se centra en las técnicas fundamentales de análisis sintáctico: descendente ("top-down" ) y ascendente ( "bottom-up").


Tema 6. Unificación de rasgos

Se describe el análisis sintáctico mediante la unificación de rasgos, su implementación y el diseño de restricciones de unificación.


Tema 7. Semántica y análisis semántico

Este tema aborda en general las diferentes técnicas de procesamiento a nivel semántico del lenguaje. Se introducen los conceptos de nivel semántico, predicados de primer orden y análisis semántico dirigido por sintaxis, entre otros. Incluye además el nivel léxico semántico en el que se describen relaciones semánticas entre palabras, y bases de datos léxico semánticas.


Tema 8. Discurso, extracción de información y resúmenes

Este tema incluye el estudio de conceptos básicos de nivel de discurso como son la segmentación y resolución de correferencias. Finalmente nos centraremos en dos tipos de aplicaciones que son hoy día muy utilizadas: la extracción de información y los resúmenes, para estudiar la clase de problemas que se plantean y el alcance de las técnicas para tratarlos. A partir de esta base, se propone un trabajo personal de carácter teórico y práctico, que pone en juego los conocimientos adquiridos en la asignatura.

Objetivos por tema y orientaciones breves

Tema 1. Introducción

Objetivos: Entender el procesamiento de lenguaje natural desde una perspectiva global.

Orientaciones:Lectura del capítulo 1 del libro base y bibliografía complementaria.


Tema 2:Autómatas finitos, procesamiento de unidades morfológico-léxicas, N-gramas

Objetivos: Refrescar los conocimientos sobre expresiones regulares y autómatas finitos. Aprender los conceptos fundamentales del análisis morfológico y las técnicas algorítmicas que permiten implementarlo.

Orientaciones:Lectura del capítulo 2 del libro base (debe suponer un refresco de conceptos conocidos) estudio del capítulo 3 (3.1 a 3.8, 3.9 solo la introducción), 4 (hasta el 4.8 inclusive), y lecturas complementarias. Para la puesta en práctica de estas técnicas se pondrá a disposición del alumno un entorno de prácticas en donde se proponen: una serie de ejercicios prácticos para familiarizarse con los transductores, un glosario de términos y conceptos relacionados con el análisis morfológico y una pequeña práctica. Además, se pondrá a disposición del alumno sitios WEB en donde testear analizadores existentes.


Tema 3: Etiquetado sintáctico

Objetivos: Asimilar los conceptos de etiquetado sintáctico y las dos técnicas básicas de etiquetado: por reglas y técnicas estocásticas.

Orientaciones:Capítulo 5 (hasta el 5.7) del libro base y lecturas complementarias para el etiquetado en castellano. Con caracter opcional se recomienda estudiar el capítulo 6


Tema 4: Gramáticas de contexto libre

Objetivos: Repaso de conceptos relativos a las gramáticas de contexto libre y estructuras de la oración.

Orientaciones:Capítulo 12 (hasta 12.7) del libro base y referencias a herramientas accesibles vía WEB.


Tema 5: Parsing

Objetivos: Estudio a fondo de las técnicas de análisis sintáctico.

Orientaciones:Capítulo 13 del libro y bibliografía complementaria


Tema 6: Estructuras de rasgos y unificación.


Objetivos: Comprender en profundidad el concepto de unificación y su aplicación en el procesamiento de lenguaje.

Orientaciones: Capítulo 15 (hasta 15.5) del libro base Para este capítulo vamos a utilizar la herramienta PC-PATR que es una implementación de PATR-II. En el entorno de prácticas se incluye un pequeño manual que describe la herramienta y el formalismo. Así mismo se incluyen como ejemplos 4 gramáticas de sucesivo nivel de complejidad.


Tema 7: Semántica y análisis semántico

Objetivos: Conocer las diferentes técnicas de procesamiento a nivel semántico del lenguaje y los recursos léxico semánticos.

Orientaciones: Capítulos 17, 18, 19 (hasta 19,4) y 20.1 del libro base. Los conocimientos adquiridos en este tema serán también puestos en práctica mediante la realización de ejercicios en un entorno WEB, para lo que será necesario a su vez el acceso a bases de datos léxico semánticas.


Tema 8: Nivel de discurso, tareas de extracción de información y resúmenes

Objetivos: Estudio de conceptos básicos de nivel de discurso, y de las tareas mencionada

Orientaciones: Epígrafes de los capítulos 21.1, 21.4, 22.1, 22.2, 22.3.3, 23.3, 23.4,23.5, 23.6, y 23.7 del libro base.

Actividades prácticas programadas

Aplicación de técnicas de análisis morfológico y sintáctico mediante un entorno WEB.Realización de 3 resúmenes orientados por unas cuestiones. Desarrollo de un proyecto que se definirá sobre la base de los conocimientos adquiridos en los temas teóricos utilizando un entorno de aplicacines PLN.


Plan de trabajo

  • Tema 1. Introducción: 3 horas (semana 1)
    Tema 2: Autómatas finitos, procesamiento de unidades morfológico-léxicas: 6 horas (semanas 2, 3 y 4)
  • Ejercicios de análisis morfológico: 10 horas.
  • Temas 3: Etiquetado 3 horas (semana 5)
  • Entrega del resumen conrrespondiente a temas 2 y 3, y ejercicios de morforlogía. El plazo de entrega se notificará en el entorno.
  • Temas 4 y 5 : Gramáticas de contexto libre y parsing: 8 horas (semanas 6 y 7)
  • Tema 6: Estructuras de rasgos y unificación: 4 horas (semana 8)
  • Tema 7: Semántica y análisis semántico: 12 horas (semanas 9, 10 y 11)
  • Ejercicios de análisis sintáctico y semántico: 30 horas. El plazo de realización de los ejercicios de sintaxis y semántica y la entrega del resumen correspondiente a los temas 4, 5, 6 y 7 se notificará en el entorno.
  • Tema 8: Nivel de discurso y aplicaciones de extracción y resumen: 8 horas (semana 12 y 13)
  • Proyecto: 66 horas (semanas 14-22)