Accesos directos a las distintas zonas del curso
Ir a los contenidos
Ir a menú navegación principal
Ir a menú pie de página
Subject's code : 31110094
En este tema se repasarán los conceptos básicos de Inferencia Bayesiana vistos con anterioridad en la asignatura de Modelado Estadístico de Datos y se profundizará en algunos de ellos con ejemplos tomados del primer tema del texto base.
Este tema debe seguirse mediante el estudio del capítulo 1 del texto base, en particular de las secciones 1.1, 1.2, 1.3, 1.5 y 1.8.
Una correspondencia parcial se puede encontrar en el texto Bayes Rules! capítulos 1 y 2.
La sección 1.1 adelanta algunas de las ventajas de la inferencia Bayesiana en relación con su interpretación por parte de los científicos de datos. El autor no entra en cuestiones relativas a los fundamentos o en conflicto entre las prácticas fecuentistas y Bayesianas (con las que el estudiante probablemente no esté familiarizado) pero apunta a algunos de estos aspectos.
La sección 1.2 presenta la notación y nomenclatura que se utilizará durante el curso. El estudiante deberá prestar especial atención a los siguientes puntos:
La seccción 1.3 introduce la notación utilizada en el texto para conceptos probabilísticos. El estudiante debe asegurarse de que entiende los siguientes conceptos:
La sección 1.5 plnatea cuestiones fundamentales alrededor del concepto de probabilidad y de las posibles interpretaciones que le se dan en contextos puramente Bayesianos y frecuentistas. Explicita las asunciones implícitas en el texto base y expone ejemplos en los que las interpretaciones frecuentistas presentan problemas de aplicación. En particular, expone por qué la probabilidad se puede entender como una medida de la incertidumbre acerca del resultado de un suceso aleatorio.
La sección 1.8 resume algunos resultados clásicos de teoría de la probabilidad que resultarán de utilidad en capítulos posteriores de la asignatura. En particular, se repasa
Ésta será nuestra primera toma de contacto con los modelos jerárquicos Bayesianos. En este tema veremos cómo gracias a los modelos jerárquicos podremos, entre otras cosas, disminuir la dependencia de los resultados de nuestra inferencia de la elección de los priors haciendo a estos últimos sujetos de la propia inferencia.
Del capítulo 1 del texto base saltamos al capítulo 5 (secciones 5.1, 5.2, 5.3, 5.4, 5.5, 5.6 y 5.7). No todas las secciones son de igual importancia. Las más importantes son las secciones 5.1, 5.2, 5.4 y 5.5.
La sección 5.1 plantea un ejemplo paradigmático (incidencia de tumores en ratas) que se utilizará más adelante para ilustrar las ventajas del modelado jerárquico. En él se propone utilizar resultados de experimentos históricos para definir una distribución a priori para los parámetros del experimento que constituye el objeto de la inferencia. Se discuten también las ventajas e inconvenientes del análisis y se da una indicación de cómo se modelarán el proceso de generación de los datos de manera jerárquica en la sección 5.3.
La sección 5.2 se vuelve sobre un concepto que ya se introdujo en el primer tema: el de intercambiabilidad. La intercambiabilidad es un requisito no sólo de los modelos jerárquicos pero especialmente de ellos cuando las observaciones están agrupadas. Se estudia de nuevo su significado, su relación con la independencia e identidad de distribuciones y el teorema de de Finetti. También se explican casos en los que la intercambiabilidad es condicional al valor de variables complementarias (intercambiabilidad parcial o condicional). En estos casos se puede añadir un nuevo nivel en el modelo jerárquico que agrupe experimentos que sí són intercambiables o, alternativamente, se pueden modelar conjuntamente las observaciones y las variables complementarias.
Una vez que se ha aclarado el concepto de intercambiabilidad, se procede a formular la definición de un modelo jerárquico simple (de dos niveles) y se discute brevemente la definición del hiperprior y las dos distribuciones a posteriori de interés en este tipo de problemas como el de los tumores en ratas.
La sección 5.3 trata sobre modelos jerárquicos conjugados. Aunque son muy importantes porque facilitan enormemente la inferencia, no son aplicables en la mayoría de casos prácticos. Cuando no es adecuado o posible construir un modelo conjugado, se debe recurrir a técnicas computacionales como las descritas en el tema 4 de esta asignatura (capítulos 11 y 12 del texto base). La complejidad matemática de la sección es algo más elevada que la de secciones anteriores y no se espera de los/las estudiantes que sean capaces de crear este tipo de modelos; sólo que sean capaces de describir qué es un modelo conjugado. Por lo tanto, se recomienda una lectura superficial y sin entrar en los detalles más matemáticos de los ejemplos. El contenido de esta sección no será materia de evaluación en la prueba presencial salvo la definición de lo que es un modelo conjugado y los tres pasos que conducen a la solución analítica. En particular, no es necesario seguir en detalle el desarrollo matemático del modelo conjugado jerárquico para el problema de la incidencia de tumores en ratas.
La secciones 5.4 y 5.5 están íntimamente relacionadas. En la primera se realiza un desarrollo completo de un modelo bayesiano jerárquico normal en el las observaciones están distribuidas según distribuciones gaussianas (de varianza conocida) por grupos y los parámetros de dichas gaussianas también se asumen distribuidos según una normal. Se discuten las alternativas de no pooling, complete pooling y el caso intermedio que representa el modelado jerárquico.
A continuación se desarrollan las expresiones para la distribución a posteriori (conjunta) de parámetros e hiperparámetros, la distribución a posteriori condicional de las medias de cada grupo dados los hiperpárametros, y la distribución a posteriori marginal de los hiperparámetros. Esta última distribución se puede factorizar como el producto de dos distribuciones. Los siguientes apartados proceden a calcular analíticamente ambos factores.
En el caso del modelo normal discutido en esta sección se puede calcular analíticamente la distribución a posteriori del hiperparámetro media dado el hiperparámetro varianza (el primero de los dos factores mencionados al final del párrafo anterior), y eso es precisamente lo que se hace en el epígrafe Posterior distribution of µ given τ. Finalmente sólo resta por calcular la distribución a posteriori del hiperparámetro varianza.
La sección 5.4 finaliza con la discusión de (i) la definición del prior para el hiperparámetro varianza y (ii) el cálculo de las distribuciones predictivas a posteriori.
La sección 5.5 consiste en la aplicación del modelo jerárquico normal a un problema que se ha ocnvertido en un clásico: el problema de las 8 escuelas.
La sección 5.6 trata sobre la utilización de los modelos bayesianos jerárquicos para realizar tareas de meta-análisis entendidas como un análisis que estudia la posibilidad de comparar o integrar diferentes fuentes de datos (experimentos, estudios...) en un proceso de inferencia unificada. Aunque representa una de las aplicaciones más útiles de los modelos jerárquicos Bayesianos, la limitada extensión de esta asignatura impide un estudio más en profundidad de las tareas de meta-análisis y esta sección no será materia de evaluación en la prueba presencial.
Finalmente, la sección 5.7 describe y discute varias elecciones posibles para las distribuciones a priori de varianzas en modelos jerárquicos. Cuando los/las estudiantes se enfrenten a la construcción de modelos jerárquicos se encontrarán frecuentemente en la situación de elegir este tipo priors porque las distribuciones normales son ubicuas en la Naturaleza bien por derecho propio, bien como aproximación asintótica en situaciones con gran cantidad de datos. En este caso, recomendamos que el/la estudiante conozca al menos el concepto de calibración, las propuestas de la sección y sus propiedades generales.
Una aproximación más práctica al contenido de este capítulo se puede encontrar en los capítulos 5, 15 y 16 del texto complementario Bayes rules!
En este tema abordaremos la cuestión fundamental de cómo comprobar que la inferencia que hemos realizado es confiable y que el modelo sobre el que hemos realizado la inferencia describe correctamente los datos. Por otra parte, estudiaremos como comparar modelos alternativos para un mismo conjunto de observaciones.
Para el estudio de este tema el/la estudiante debe leer las secciones 7.1 a 7.4 del tema 7 del texto base. Todas ellas son relevantes y constituyen materia de evaluación en la prueba presencial.
En la sección 7.1 se comienza explicando por qué son útiles las medidas de exactitud predictiva (para qué sirven) y cómo se pueden definir (algunas definiciones comunes). Se definen los conceptos de
A continuación se aborda el problema de la evaluación de la exactitud predictiva de un modelo ajustado (fitted). Se presenta el problema/sesgo de optimismo cuando se utilizan los mismos datos que se usaron para obtener la distribución a posteriori en la evaluación de la exactitud predictiva.
En la sección 7.2 se discuten diferentes aproximaciones para disminuir el impacto de los sesgos asociados a la evaluación de la exactitud predictiva sobre los mismos datos que se emplearon en el ajuste del modelo (within-sample). Estas medidas son útiles por sí mismas (para estimar la bondad del modelo) pero también para comparar/seleccionar entre modelos alternativos. En particular, se discuten correcciones a la estimación optimista (within-sample) como AIC, WAIC o DIC y alternativas parcialmente externas basadas en lo que se conoce como validación cruzada.
La sección 7.3 se aplican las técnicas descritas previamente al caso de las 8 escuelas y se discute el sesgo de selección que se traduce en expectativas optimistas del error predictivo cuando se selecciona entre un número elevado de modelos. Es espacialmente interesante el apartado final en el que se reconocen las limitaciones de las técnicas presentadas.
La sección 7.4 presenta una alternativa a la evaluación/comparación de modelos basada en la exactitud predictiva: los factores de Bayes. Los factores de Bayes constituyen una metodología estrictamente Bayesiana pero que presenta sus propias lmitaciones. En primer lugar se presenta la metodología para, a continuación, describir dos ejemplos en los que la aplicación proporciona resultados adecuados (el primero) o con propiedades no deseadas (el segundo).
Los contenidos de este tema no están agrupados en ningún capítulo del libro Bayes Rules! sino que se extienden a lo largo de varias subsecciones denominadas Model evaluation (& selection).
Los modelos multiparamétricos y especialmente los jerárquicos presentan desafíos y dificultades que habitualmente obligan a la estimación aproximada (no analítica) de las distribuciones a posteriori de los parámetros involucrados. Para ello se han desarrollado en los últimos años técnicas muy sofisticadas que quedan fuera del alcance de esta asignatura, pero cuyos fundamentos se hayan en una serie de técnicas más sencillas que explorremos aquí.
Es importante enfatizar que el texto base contiene material más avanzado que el que constituye este tema y que, por muy interesante que sea, debemos dejar fuera por razones de carga de trabajo.
Para el estudio de este tema el/la estudiante debe leer las secciones 11.1 a 11.5. Las secciones 12.4 y 13.7 representan ejemplos avanzados (y extraordinariamente útiles en muchos casos de interés) pero quedan fuera de las materias de examen. Recomendamos a aquellas/aquellos estudiantes que puedan y estén interesados que lean aunque sea superficialmente los fundamentos de ambas técnicas (Hamiltonian MonteCarlo e Inferencia Variacional), pero el equipo docente es consciente de que no es posible su estudio (ni siquiera la lectura de las secciones correspondientes) sin exceder los créditos de la asignatura. Por lo tanto, no se espera dicha lectura ni, obviamente serán objeto de examen.
Una aproximación más práctica al contenido de este capítulo se puede encontrar en los capítulos 6,7 y 8 del texto complementario Bayes rules!
En este último tema se estudiará una implementación del ejemplo de las ocho escuelas (descrito en el texto base) con la librería TensorFlow Probability entendida como entorno de especificación de modelos para inferencia probabilística.
Para la realización de la práctica de evaluación continua (PEC) será necesario implementar un modelo jerárquico bayesiano para el problema descrito en el enunciado que se puede encontrar en la carpeta de Documentos públicos. La implementación deberá realizarse mediante la librería TensorFlow Probability siguiendo el modelo descrito en el repositorio de github
https://github.com/tensorflow/probability/blob/master/tensorflow_probability/examples/jupyter_notebooks/Eight_Schools.ipynb
y descargado en la carpeta de la PEC. El notebook contiene una implementación del ejemplo de las ocho escuelas, utilizado en repetidas ocasiones en el texto base. Se puede adaptar directamente el notebook para resolver el problema propuesto en el enunciado. Si una/un estudiante necesita un texto introductorio, podemos sugerir Probabilistic Programming and Bayesian Methods for Hackers
cuyo repositorio github se puede encontrar aquí