Accesos directos a las distintas zonas del curso

Ir a los contenidos

Ir a menú navegación principal

Ir a menú pie de página

MOTORES DE BÚSQUEDA WEB

Curso 2017/2018 / Cod.31101042

MOTORES DE BÚSQUEDA WEB

CONTENIDOS DE LA ASIGNATURA

Estructura y contenido teórico

1. Características de la búsqueda de información en la WWW
- Topología de la WWW: Hubs, autoridades, islas, Internet Invisible,
etc.
- Necesidades de información y búsquedas web: perfil de usuarios.
- Formas básicas de búsqueda: navegación y consulta. Directorios web
versus motores de búsqueda.

2. Arquitectura básica de un motor de búsqueda.
- Crawling, Indexación, Procesado de la consulta, Recuperación,
Presentación de resultados.
- Arquitectura hardware/software.

3. Motores de búsqueda pre-Google: recuperación basada en contenidos.
- Modelos tradicionales de recuperación de información (modelo booleano,
modelo de espacio vectorial, modelos probabilísticos).
- Limitaciones de los modelos RI en la web: pertinencia versus autoridad,
vulnerabilidad a la manipulación externa (spamdexing).

4. Motores de búsqueda actuales (generalistas): recuperación basada en autoridad.
- Autoridad absoluta: Algoritmos PageRank y HITS.
- Autoridad relativa a un tema/consulta: Hilltop, Topic Distillation.
- El motor de búsqueda Google: evolución de Pagerank (historia de URLs y enlaces, análisis de patentes de Google, Local Rank, Google Sandbox, etc), sistemas de publicidad contextual (adwords, adsense), vulnerabilidad.
- Otros motores de búsqueda generalistas.

Objetivos por tema y orientaciones breves

1. Características de la búsqueda de información en la WWW

Objetivos:
El objetivo principal del tema es que el alumno comprenda cuál es la funcionalidad de un sistema de búsqueda en la Web. Se puede dividir en subobjetivos de esta manera:
O.1.1 Comprender la estructura y naturaleza de la Web, y la importancia de los sistemas de búsqueda de información en este medio.
O.1.2 Conocer las necesidades típicas que se resuelven mediante buscadores Web.
O.1.3 Conocer los mecanismos básicos que utilizan los usuarios al buscar información en la Web.

2. Arquitectura básica de un motor de búsqueda.

Objetivos:
En este tema, el alumno debe familiarizarse con los componentes básicos de cualquier motor de búsqueda, y comprender cuáles son las implicaciones de manejar un volumen de datos inmenso para obtener respuestas en fracciones de segundo. Este objetivo se puede dividir en:
O.2.1 Conocer y comprender la funcionalidad de los componentes básicos de un motor de búsqueda.
O.2.2. Conocer y comprender la arquitectura típica hardware/software que soporta esa funcionalidad, y los problemas derivados de la escala a la que trabaja un buscador Web.

3. Motores de búsqueda pre-Google: recuperación basada en contenidos.

Objetivos:
Conocer el corpus teórico conocido como "Information Retrieval" (recuperación de información), cómo se ha utilizado en los motores de búsqueda Web, y qué limitaciones tiene en un entorno Web. Se puede dividir en:
O.3.1. Conocer los modelos tradicionales de recuperación de información.
O.3.2. Saber cómo se han aplicado a la búsqueda web, qué limitaciones tienen, y qué otras aplicaciones de estos modelos son factibles en la Web (como, por ejemplo, la inserción de publicidad contextual).

4. Motores de búsqueda actuales (generalistas): recuperación basada en autoridad.

Objetivos:
Conocer los principios teóricos y prácticos sobre los que se fundamentan los motores de búsqueda Web actuales, en particular:
O.4.1 Conocer y ser capaz de comparar los algoritmos más relevantes para calcular la autoridad de una página Web a partir de la estructura de hipervínculos de la Web (PageRank, HITS).
O.4.2 Conocer sus limitaciones, las variantes propuestas, y ser capaz de realizar análisis críticos sobre esas propuestas alternativas.
O.4.3 Conocer cómo se aplica lo anterior a los principales buscadores (Google, Yahoo, MSN, Ask), y en particular sobre Google.

5. Temas avanzados.

Objetivos:
En este tema se estudian las tendencias de la nueva generación de motores de búsqueda, con el objetivo de que el alumno sea capaz de diagnosticar los retos técnicos por resolver y proponer soluciones relativamente novedosas:
O.5.1. Conocer las corrientes de investigación más recientes en el campo de los buscadores Web.
O.5.2. Tener una panorámica de los nuevos servicios relacionados con la búsqueda en la Web.
O.5.3. Ser capaz de proponer temas relevantes sobre los que realizar el trabajo individual de la asignatura.

Actividades y plan de trabajo

1. Actividades prácticas programadas

Las tareas que se asignan en esta asignatura tienen tanto que ver con la asimilación de los conocimientos propios de la materia, como con el desarrollo de la capacidad para investigar.
Algunos de los tipos de tareas que se proponen son:

-Lectura y análisis de un artículo de investigación, contestando a preguntas como: ¿Se trata de un artículo de teoría, metodología, experimentación o aplicación? ¿Cuáles son sus aportaciones originales? ¿Cuáles son los argumentos/resultados esenciales que conducen a sus conclusiones?
-Evaluación simulada de un artículo, calificando de forma razonada su originalidad, su impacto potencial en el área, la pertinencia y completitud de las referencias bibliográficas, la calidad del trabajo (argumentos, metodología, diseño experimental, etc., la calidad de la presentación (organización, claridad expositiva, etc.). Discusión en grupo (tres alumnos) para alcanzar una única evaluación consensuada, estableciendo una figura de meta-revisor encargado de coordinar la discusión y redactar la evaluación final.
-Estudio del impacto de un artículo: ¿Cuáles son los aspectos del artículo por los que es referenciado? ¿Coinciden con los aspectos sobre los que los autores habían hecho énfasis, o son aspectos inicialmente marginales? ¿Se ha hecho algún avance sustancial respecto a las conclusiones del artículo? ¿Se han refutado las conclusiones del artículo, se han corroborado, se ha profundizado en ellas, se han propuesto vías alternativas?
-Actualización de un artículo de revisión del estado del arte, sintetizando los avances más significativos posteriores a la publicación de la revisión inicial.
Propuesta de "lecturas recomendadas" para un tema, consensuando una lista razonada a partir del debate entre todos los alumnos de la asignatura.
-Evaluación comparada de servicios de búsqueda Web alternativos, utilizando tanto la revisión bibliográfica como la experimentación directa.
-Diseño e implementación de un servicio de búsqueda Web con algún componente novedoso, partiendo de herramientas de código abierto (como Lucene) o servicios Web (como las API de Google, Yahoo, etc).

2  Otras actividades prácticas programadas

Se irán anunciando de forma dinámica en el entorno virtual.

3  Plan de trabajo

-Tema 1 (15 horas) Semanas 1-3. Estudio de materiales de referencia y ejercicios relacionados con la consulta bibliográfica.

-Tema 2 (15 horas) Semanas 4-5. Estudio de materiales de referencia y ejercicios relacionados con la consulta bibliográfica.

-Tema 3 (20 horas) Semanas 6-8. Estudio de materiales de referencia y ejercicios relacionados con la consulta bibliográfica.

-Tema 4 (25 horas) Semanas 9-12. Estudio de materiales de referencia y ejercicios relacionados con la consulta bibliográfica.

-Tema 5 (25 horas) Semanas 13-16. Estudio de materiales de referencia y ejercicios relacionados con la consulta bibliográfica. Determinación del trabajo individual en coordinación con el equipo docente.

Trabajo individual (50 horas). Semanas 16-23.