Accesos directos a las distintas zonas del curso

Ir a los contenidos

Ir a menú navegación principal

Ir a menú pie de página

MINERÍA DE LA WEB

Curso 2017/2018 / Cod.31101023

MINERÍA DE LA WEB

CONTENIDOS DE LA ASIGNATURA

Tema 1. Introducción

Problemas que surgen al interactuar con la web. Breve definición de Minería de la web y de Crawling, Búsqueda en web, Minería de contenido de la web (minería de texto), Minería de uso de la web, Minería de estructura de la web, Dinámica de la web.

Tema 2. Crawling, filtrado e indexación

Qué es un crawler.  Problemas que intenta resolver un crawler. Problemas con los que se encuentra un crawler (técnicos, legales, etc.) Etapas del crawling. Otras áreas de investigación relacionadas con el Crawling.

Tema 3. Consulta y búsqueda en web

Características propias de la web que afectan a la búsqueda. Tipos de información a considerar en la búsqueda en web (Contenido textual, Información en los enlaces, Estructura de enlace entre páginas, etc.). Proceso de indexación de la información en web.  Interfaces, browsing y visualización de la búsqueda. Metabúsqueda. Agentes web.

Tema 4. Minería de textos

Qué es un corpus. Creación de corpus. Posibles usos y utilidad de un corpus. Creación de corpus a partir de la web. Ejemplos de algunos corpus y su finalidad. Extracción de Información textual (Automatic Information Extraction). Arquitectura de un sistema de EI. Extracción de terminología (Automatic Terminology Extraction). Extracción de terminología a partir de la web. Problemática asociada al lenguaje natural. Similitud, clasificación, clustering.

Tema 5. Minería de uso de la web

Definición y objetivos de minería de uso de la web. Etapas de procesamiento (Preprocesamiento, Inferencia de patrones, Análisis de patrones). Herramientas existentes. Técnicas de aprendizaje aplicadas a minería de uso. Sitios web adaptativos.

Tema 6. Minería de estructura de la web

Definición y objetivos de la minería de estructura de la web. Definición, modelado y uso de las nociones de Autoridad (authoritative page), prestigio, Centralidad y Co-cita. Ranking de páginas web basado en enlaces: PageRank y HITS. Análisis de comunidades en la web. Otras aplicaciones de la minería de estructura.

Tema 7. Dinámica de la web

Definición y objetivos del estudio de la dinámica de la  web. Características de la web susceptibles de estudio. Ley de Zipf, "power laws" en la web. Tamaño y tendencia de crecimiento de la web. Web pública y web oculta. Idiomas en la web. Dominios en la web. Estudios sobre la web española.