Logo de la UNED

MINERÍA DE DATOS

Cod.31101061
EVALUACIÓN DE LOS APRENDIZAJES

 

La evaluación de los aprendizajes se realizará mediante la corrección de las siguientes actividades, que el alumno deberá entregar en plazo. La evaluación de dichas actividades corresponde al 80% de la nota final.  Recordamos de nuevo un aspecto fundamental: en las actividades no se trata de generar resultados sino de analizarlos a la luz de los conceptos fundamentales del área. Además, se tendrá en cuenta la participación del alumno en los foros, planteando cuestiones avanzadas y sobre todo generando discusión y proponiendo hipótesis de análisis sobre las prácticas. Este tipo de participación en los foros constituye el 10% de la nota final, siempre y cuando tenga lugar durante el periodo lectivo del curso. Finalmente, el 10% restante se puede obtener realizando un trabajo de investigación bibliográfica avanzada sobre algún tema acordado con el equipo docente.

Se considerará que el estudiante se ha presentado a la convocatoria sólo si ha entregado todas las prácticas, en cuyo caso se procederá a la corrección. Para aprobar la asignatura se han de haber aprobado todas y cada una de las prácticas (calificación superior a 5 sobre 10).

 

Actividades prácticas programadas

 

Tema 1

 

Sin actividades.

 

Tema 2:

 

Actividad 2.1: Ejercicios de simulación

 

El estudiante generará un conjunto de datos artificial compuesto por 100 instancias caracterizadas por una variable relevante en sentido fuerte, tres variables relevantes en sentido débil y una variable totalmente irrelevante. Esta última se puede generar mediante números aleatorios extraídos de una distribución de probabilidad uniforme o normal (gaussiana). Como indicación sugerimos extender el ejemplo XOR a tres dimensiones. A continuación, aplicará diferentes técnicas de selección de variables disponibles en weka (un mínimo de tres de filtrado, el análisis de componentes principales y la técnica de envoltura, WrapperSubsetEval, con BayesNet como clasificador y empleando todos los valores por defecto, salvo el número máximo de padres que se debe modificar a 3).

 

Entregables:

 

El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4 a una cara con los siguientes apartados:

 

1.Descripción del experimento.

 

2.Tabla de resultados obtenidos para las 5 aproximaciones.

 

3.Discusión de los resultados.

 

Actividad 2.2: Estudio de bibliografía avanzada

 

En esta actividad el alumno deberá elegir uno de los artículos del especial del Journal of Machine Learning Research sobre "Variable and Feature Selection" (http://jmlr.csail.mit.edu/papers/special/feature03.html).

 

La lista de artículos del número especial es la siguiente:

 

1.Distributional Word Clusters vs. Words for Text Categorization (Kernel Machines Section). Ron Bekkerman, Ran El-Yaniv, Naftali Tishby, Yoad Winter.

 

2.Extensions to Metric Based Model Selection.Yoshua Bengio, Nicolas Chapados.

 

3.Dimensionality Reduction via Sparse Support Vector Machines. Jinbo Bi, Kristin Bennett, Mark Embrechts, Curt Breneman, Minghu Song.

 

4.Benefitting from the Variables that Variable Selection Discards. Rich Caruana, Virginia R. de Sa.

 

5.A Divisive Information Theoretic Feature Clustering Algorithm for Text Classification. Inderjit S. Dhillon, Subramanyam Mallela, Rahul Kumar.

 

6.An Extensive Empirical Study of Feature Selection Metrics for Text Classification. George Forman.

 

7.Sufficient Dimensionality Reduction. Amir Globerson, Naftali Tishby.ç

 

8.Grafting: Fast, Incremental Feature Selection by Gradient Descent in Function Space. Simon Perkins, Kevin Lacker, James Theiler.

 

9.Variable Selection Using SVM based Criteria. Alain Rakotomamonjy.

 

10.Overfitting in Making Comparisons Between Variable Selection Methods. Juha Reunanen.

 

11.MLPs (Mono Layer Polynomials and Multi Layer Perceptrons) for Nonlinear Modeling. Isabelle Rivals, Léon Personnaz.

 

12.Ranking a Random Feature for Variable and Feature Selection. Hervé Stoppiglia, Gérard Dreyfus, Rémi Dubois, Yacine Oussar.

 

13.Feature Extraction by Non Parametric Mutual Information Maximization.Kari Torkkola.

 

14.Use of the Zero Norm with Linear Models and Kernel Methods. Jason Weston, André Elisseef, Bernhard Schölkopf, Mike Tipping.

 

Algunos de los artículos de la lista anterior presuponen conocimientos sobre técnicas que se describirán en detalle en el tema 3. Los alumnos que opten por este tipo de artículos deberán hacer el esfuerzo adicional de adelantarse al temario y estudiar la técnica en cuestión antes de comentar el artículo. Por ello, recomendamos una lectura de todos los abstracts o resúmenes y una selección cuidadosa del artículo sobre el que tratará el entregable.

 

Entregables:

 

El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4 a una cara con los siguientes apartados:

 

1.Una justificación breve sobre los motivos para la elección del artículo.

 

2.Un resumen de la aportación novedosa frente a trabajos anteriores citados en el propio artículo. ¿Qué ventajas comparativas presenta la contribución?

 

3.Un estudio sobre el ámbito de aplicabilidad de las conclusiones obtenidas (para qué tipo de datos/algoritmos está especialmente indicado, limitaciones, en qué situaciones está contraindicado...).

 

4.Un estudio de la bibliografía reciente del autor y el área. El estudiante puede hacer el estudio comenzando con una búsqueda por autor en el servidor citeseer (http://citeseer.ist.psu.edu/). Con los resultados, deberá realizar una selección de publicaciones relacionadas con el tema de la selección de atributos y, en particular, con la aproximación elegida, y analizar su impacto medido por el número de citaciones. Finalmente, el informe deberá recoger publicaciones de otros autores relacionadas con el artículo original, de publicaciones de relevancia y los mayores índices de citación encontrados.

 

Bibliografía asociada:

 

-Sistemas Basados en el Conocimiento II. Introducción a la Neurocomputación. Disponible en: http://www.ia.uned.es/asignaturas/sbc2/sbc2/libro/book.pdf

 

-JMLR Special Issue on Variable and Feature Selection. Artículos disponibles en http://jmlr.csail.mit.edu/papers/special/feature03.html

 

-Kohavi, R. & John, G.H., Wrappers for Feature Subset Selection (1997). Disponible en: http://citeseer.ist.psu.edu/13663.html

 

-Para las definiciones estadísticas comunes o de teoría de la información (información mutua, ganacia de información o entropía cruzada) se pueden consultar las entradas correspondientes de la enciclopedia matemática on-line Mathworld http://mathworld.wolfram.com de la wikipedia, http://en.wikipedia.org/

 

Tema 3

 

Se propone realizar un conjunto de actividades prácticas relacionadas con la resolución de diferentes tipos de problemas de minería de datos. El alumno se familiarizará así con el uso de las distintas técnicas estudiadas en este tema. Para ello, se utilizará Weka, un entorno que proporciona una interfaz gráfica desde la cual se puede acceder a una colección de algoritmos estándares de aprendizaje automático para tareas de data mining. Además, soporta también herramientas para procesado y visualización de datos. Finalmente, una característica destacable de Weka es que es de uso libre y código abierto (open source) bajo licencia GNU y está desarrollada enteramente en Java (multiplataforma). El conjunto de prácticas a realizar están contenidas en un documento accesible y descargable desde el curso de la asignatura ubicado en la plataforma aLF y giran en torno a los siguientes contenidos:

 
 

Actividad 3.1: Redes Neuronales I. Clasificación

 

Actividad 3.2: Redes Neuronales II. Mapas Autoorganizados.

 

Actividad 3.3: Máquinas de Vectores Soporte.

 

Actividad 3.4:Clustering: Algoritmo K-medias.

Tema 4

 

Actividad 4.1: Ejercicios de simulación

 

El estudiante utilizará weka para generar 10 particiones de 10 bloques del conjunto de datos "iris.arff" proporcionado junto con el software de la Universidad de Waikato. Para cada partición, deberá realizar un experimento de validación cruzada con un clasificador basado en redes bayesianas y otro en árboles de decisión, y deberá ordenar los resultados de mayor a menor en una lista. Deberá promediar los resultados de cada experimento y, con las dos listas ordenadas de los promedios (una para los clasificadores bayesianos y otra para los árboles de decisión), deberá realizar un test t de Student que determine si existen diferencias estadísticas entre los resultados obtenidos.

 

Entregables:

 

El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4 a una cara con los siguientes apartados:

 

1.Descripción del experimento.

 

2.Tablas ordenadas de cada uno de los 10 experimentos de validación cruzada para cada clasificador.

 

3.Valores promediados de la tabla anterior.

 

4.Cálculo de la tasa media de error y su varianza para cada clasificador y resultado del test de Student.

 

La distribución t de Student se puede obtener de muchas fuentes. En particular, el estudiante puede hallarla implementada en la librería gsl de GNU para c/c++.

 

Actividad 4.2: Estudio de bibliografía avanzada

 

En esta actividad el alumno debe leer el texto "ROC graphs: Practical considerations for Researchers". En él se expone una aproximación alternativa/complementaria a la forma habitual de evaluar los modelos (a través de la tasa de errores de clasificación, la suma cuadrática de los errores de regresión o medidas equivalentes) denominada AUC (Area Under Curve). La curva a la que hace referencia el nombre es la Receiver Operating Characteristic Curve y el mismo artículo expone sus fundamentos (procedentes de Teoría de la Señal) y la forma de calcularla.

 

Entregables:

 

El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4 a una cara con los siguientes apartados:

 

1.Un resumen de los principios del análisis AUC/ROC

 

2.Un análisis de las diferencias con el método clásico de estimar el error de clasificación/regresión. Ventajas/inconvenientes de cada aproximación.

 

3.Un estudio de la bibliografía reciente del autor y el área. El estudiante puede hacer el estudio comenzando con una búsqueda por autor en el servidor citeseer. Con los resultados, deberá realizar una selección de publicaciones relacionadas con el tema de los análisis AUC/ROC y analizar su impacto medido por el número de citaciones. Finalmente, el informe deberá recoger publicaciones de otros autores relacionadas con el artículo original, de publicaciones de relevancia y los mayores índices de citación encontrados.

 

Bibliografía asociada

 

-Sistemas Basados en el Conocimiento II. Introducción a la Neurocomputación. Disponible en: http://www.ia.uned.es/asignaturas/sbc2/sbc2/libro/book.pdf

 

-Fawcett, T. (2003). ROC Graphs: Notes and practical considerations for researchers. Tech Report HPL-2003-4, HP Laboratories. Disponible en: http://www.hpl.hp.com/personal/Tom Fawcett/papers/ROC101. pdf

 

-Bouckaert, R. (2004). Estimating Replicability of Classifier Learning Experiments, ICML, Disponible en: http://www.aicml.cs.ualberta.ca/_ban_04/icml/pages/papers/61.pdf

 

-Para el test pareado de Student se puede consultar el texto .Estadística. Modelos y Métodos"de Daniel Peña Sánchez de Rivera. o las entradas correspondientes de la enciclopedia matemática on-line Mathworld http://mathworld.wolfram.com/Pairedt-Test.html o de la wikipedia, http://en.wikipedia.org/wiki/Student's_t-test.

Actividad 2.3: Ejercicio de simulación

* Se recomienda que la realización de esta actividad se lleve a cabo tras haber estudiado los temas 3 y 4.

Local Linear Embedding y Diffusion Maps son técnicas de reducción de la dimensionalidad (compresión de datos) alternativas al Análisis de Componentes Principales. En esta práctica, vamos a aplicar dichas técnicas a datos de muy alta dimensionalidad para proyectar las instancias en espacios de pocas dimensiones. Vamos a evaluar el resultado de dicha reducción en un problema de regresión.

El estudiante deberá aplicar la técnica de Componentes Principales, Local Linear Embedding y Diffusion Maps al conjunto de datos denominado Kurucz. Dicho conjunto de datos contiene espectros sintéticos de estrellas obtenidos para diferentes temperaturas. El problema consiste en utilizar dichos datos para entrenar un modelo de regresión que prediga temperaturas a partir de espectros. El estudiante tendrá que comparar (mediante validación cruzada) la validez de dichos modelos entrenados a partir de la variables seleccionadas con las tres técnicas.

Los procesos de selección de variables deberán realizarlos mediante el programa R. Se puede encontrar una descripción de las técnicas Local Linear Embedding y Diffusion Maps en las lecciones 14 y 15 del curso de Cosma Shalizi del departamento de Estadística de la Universidad Carnegie Mellon. Dichas lecciones se encuentran en la carpeta de la actividad.

 

Para la aplicación del LLE, el estudiante encontrará el código R en la misma lección 14 antes citada. Para la aplicación de los Mapas de difusión, el estudiante puede emplear la función diffuse del paquete diffusionMap

 El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4 a una cara con los siguientes apartados:

  1. Descripción de las técnicas LLE y Diffusion Maps. La descripción (que no podrá ser copiada textualmente de ninguna fuente) deberá demostrar que el alumno ha entendido los fundamentos y principios de las metodologías.
  2. Gráficas que representen la temperatura de un modelo en función de dos variables. Si, por ejemplo, tomamos el análisis de componentes principales, habría que representar la primera componente frente a la segunda componente y dibujar cada punto (estrella) utilizando un código de color para la temperatura. La escala de color debe formar parte de la gráfica. Sólo habrá que representar todos los pares posibles de las tres primeras variables nuevas.
  3. Gráficas que representen la temperatura de un modelo en función de dos variables de metodologías distintas. Por ejemplo, la primera componente de LLE frente a la primera componente de los mapas de difusión. Habrá que dibujar cada punto (estrella) utilizando un código de color para la temperatura. La escala de color debe formar parte de la gráfica. Restrínjanse a las  tres primeras variables nuevas.
  4. Resumir y discutir los resultados de experimentos de validación cruzada de una regresión respecto a la temperatura. Es decir, el estudiante tendrá que entrenar un modelo de regresión mediante Máquinas de Vectores Soporte por cada conjunto de variables: componentes principales, LLE y Diffusion Maps. Para ello, deberá buscar el kernel (y el conjunto de parámetros que lo describen) óptimo. Tendrá que evaluar la funcionalidad en cada caso y comparar los distintos resultados. Para construir el modelo el estudiante podrá utilizar weka.
 

Tema 5

 

Actividad 5.1. [OPTATIVA] La metodología CRISP-DM

 

Visitar la página web relativa al proyecto CRISP-DM. Descargar y leer el documento relativo al modelo y guía de referencia de este estándar.

 

http://www.crisp-dm.org/index.htm

 

Entregables:

 

El alumno deberá realizar un conjunto de transparencias (tipo Powerpoint) en el que se resuma los fundamentos y las distintas fases de esta metodología.

 

Actividad 5.2.  MD y escalabilidad: estudio de bibliografía avanzada

 

Realizar un análisis de cuáles de los algoritmos de minerías de datos estudiados a lo largo de este curso escalan bien a medida que se incrementa el volumen de datos.

 

Entregables:

 

El estudiante deberá entregar un trabajo de entre 3 y 6 páginas A4 en donde se realice un análisis y resumen del comportamiento de distintos algoritmos ante el problema de la escalabilidad (ver referencia [Han et al-96] como punto de partida,) y de las distintas estrategias utilizadas en el campo de la minería de datos para abordarlo de forma eficiente (utilizar la referencia [Provost&Kolluri-99] como punto de partida).

 

Actividad 5.3. [OPTATIVA] Minería de datos distribuida: Estudio de bibliografía avanzada

 

La mayoría de las técnicas de minería de datos vistas a lo largo de este curso aplican a ficheros de datos planos o bases de datos relacionales. Sin embargo, tal y como se ha estudiado en el presente tema, debido a la existencia de datos heterogéneos, de múltiples fuentes o almacenes de datos, y de la interconectividad con la web, ha cobrado recientemente importancia una nueva aproximación: la minería de datos distribuida.

 

Entregables:

 

Aunque este tipo de minería es un campo relativamente nuevo, se propone hacer una búsqueda bibliográfica sobre tipos de arquitecturas utilizadas para abordar la minería de datos distribuida y sobre las distintas técnicas que ésta utiliza. Realizar un informe sobre el estado actual del tema. Un punto de partida podría ser la referencia [Park&Kargupta-02]. También dispone en http://www.cs.umbc.edu/hillol/DDMBIB/ de un repositorio de bibliografía relacionada con este tema.

 

Actividad 5.4 [OPTATIVA]. Difusión y uso de la MD: Estudio de bibliografía avanzada

 

Un asunto importante a la hora de utilizar la información resultante de aplicar un programa de minería de datos es el de cómo integrar sus salidas en otro tipo de herramientas. Por ejemplo, cómo hacer un uso eficiente de los patrones o modelos aprendidos durante el proceso de minería en herramientas de toma de decisión. Según lo estudiado en este tema, existen distintas estrategias que abordan esta cuestión (reglas de actividad (triggers), integración de los modelos aprendidos en el sistema de gestión de base de datos, la utilización de estándares para el intercambio de modelos o el uso de protocolos basados en XML).

 

Entregables:

 

Se propone al alumno analizar en más profundidad alguna de estas soluciones y crear un documento de 3 a 6 páginas A4 en el que se recoja sus características, su operativa, ámbito de aplicación y grado de aceptación.

 

Actividad 5.5. [OPTATIVA] Aplicaciones de la MD

 

La formación de un especialista en minería de datos debería no sólo atender a la evolución de sus distintos aspectos teóricos, sino complementarla continuamente con la consulta de ejemplos de aplicación. El conocimiento de lo ya solucionado puede ser de gran ayuda a la hora de abordar nuevos problemas en contextos similares. El alumno puede consultar alguno de los siguientes libros, donde se recopila información de soluciones de problemas abordados mediante minería de datos en diferentes campos.

 

-CRM y marketing [Berry&Linof-00]

 

-Telecomunicaciones [Mattison-97]

 

-Aplicaciones de ingeniería y científicas [Grossman et al-01]

 

-Medicina [Krzysztof-01, IBM-01]

 

-Finanzas, gubernamentales, seguros, etc. [Klösgen&Zytkow-02]

 

-Evidentemente, el abanico de referencias es muchísimo más extenso. Sólo en Internet se puede bucear en un amplio repertorio de trabajos publicados que están relacionados con aspectos prácticos y aplicados de la minería de datos.

 

Actividad 5.6. [OPTATIVA]La MD: cuestiones éticas y legales

 

En el contexto de las cuestiones éticas y legales surgidas por el potencial buen uso o mal uso de la minería de datos, se propone al alumno que dé un vistazo a las dos directivas encargadas de regular, tanto a nivel nacional como europeo, el tema de la protección de datos personales. Se recogen aquí dos enlaces desde donde puede consultarse:

 

-La Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal:

 

-http://civil.udg.es/normacivil/estatal/persona/PF/Lo15-99.htm

 

-La Directiva 95/46/EC, del Parlamento Europeo, de 23 de noviembre de 1995, conocida como European Data Protection Directive:

 

-http://www.cdt.org/privacy/eudirective/EU_Directive_.html

 

Bibliografía asociada:

 

[Berry&Linof-00] Berry, M., Linoff, G., Mastering Data Mining: The Art and Science of Customer Relationship Management. John Wiley, 2000.

 

[Grossman et al-01] Grossman, R., Kamath, C., Kegelmeyer, W., Kumar, V., Namburu, R. (eds.). Data Mining for Scientific and Engineering Applications, Kluwer, September, 2001.

 

[Han et al-96] J. Han, Y. Fu, W. Wang, J. Chiang, W. Gong, K. Koperski, D. Li, Y. Lu. DBMiner: A System for Mining Knowledge in Large Relational Databases, in E. Simoudis, J. Han, U. Fayyad, (eds.). Proc. Intl. Conf. on Data Mining and Knowledge Discovery, pp. 250-255, AAAI Press, 1996.

 

[IBM-01] IBM Redbooks Mining Your Own Business in Health Care Using DB2 Intelligent Miner for Data, IBM Corp, 2001.

 

[Klösgen&Zytkow-02] W. Kloesgen, JM Zytkow (Eds.), Handbook of data Mining and Knowledge Discovery. Oxford University Press, 2002.

 

[Krzysztof-01] Krzysztof J. (ed.), Medical Data Mining and Knowledge Discovery. Physica-Verlag, Springer, New York, 2001.

 

[Mattison-97] R. Mattison, Data Warehousing and Data Mining for Telecommunications. Artech House Computer Science Library, 1997

 

[Provost&Kolluri-99] F. Provost, V. Kolluri. A survey of methods for scaling up inductive algorithms. Data Mining and Knowledge Discovery, 3(2), pp. 131-169, 1999.

 

[Park& Kargupta-02] B. Park and H. Kargupta. Distributed Data Mining: Algorithms, Systems, and Applications. In Nong Ye, editor, Data Mining Handbook, pages 341-358. IEA, 2002