OPTIMIZACIÓN CONVEXA EN CIENCIA DE DATOS

Curso 2023/2024/Subject's code21520086

Subject's guides

Curso 2023/2024

MATRÍCULA ABIERTA grado,máster, selectividad y más

OPTIMIZACIÓN CONVEXA EN CIENCIA DE DATOS

Subject's code : 21520086

NAME SUBJECT	OPTIMIZACIÓN CONVEXA EN CIENCIA DE DATOS
CODE	21520086
SESSION	2023/2024
DEGREE IN WHICH IT IS OFFERED	MÁSTER UNIVERSITARIO EN MATEMÁTICAS AVANZADAS
TYPE	CONTENIDOS
ECTS	7,5
HOURS	187.5
PERIOD	SEMESTRE 1
OFFER LANGUAGES	CASTELLANO

PRESENTACIÓN Y CONTEXTUALIZACIÓN

Aunque el término << ciencia de datos >> no empezó a emplearse hasta la década de los ochenta del siglo pasado, veinte años antes el matemático John Tukey había expuesto en su artículo fundacional The Future of Data Analysis una descripción de la disciplina, que incluiría, << entre otras cosas: procedimientos para analizar datos, técnicas para interpretar los resultados de tales procedimientos, formas de planificar la recopilación de datos para hacer su análisis más fácil, más preciso o más exacto, y toda la maquinaria y los resultados de la estadística (matemática) que se aplican al analizar datos >>

Si añadimos la disponibilidad de ingentes cantidades de datos, el enorme aumento de la potencia computacional y las prácticamente ilimitadas capacidades para la transferencia y almacenamiento que se han producido en los últimos cincuenta años, podremos hacernos una idea de lo que significa << ciencia de datos >>.

En el mencionado artículo, Tukey dedica un apartado a responder a la pregunta << ¿Por qué la optimización?>> (el apartado anterior se titula << Los peligros de la optimización >>, pero nos interesa bastante menos comentarlo, si queremos dar valor al contenido de esta asignatura). Es natural y deseable, dice, que un matemático optimice: así, centra la atención en un pequeño subconjunto de todas las posibilidades que, a menudo, conducen a principios generales y alienta a afinar los conceptos, particularmente cuando los óptimos intuitivamente erróneos se consideran como razones para reexaminar conceptos y criterios. Para Tukey, el peligro solo aparece cuando los resultados se toman demasiado en serio. La solución de un problema de optimización sería más una guía que una respuesta.

Entendiendo así la importancia de la optimización, sin tomar sus resultados demasiado en serio, ¿por qué poner el énfasis en la optimización convexa (la que tiene función objetivo y restricciones convexas, en nuestro caso, siempre en dimensión finita)? Tenemos razones intrínsecas (como la elegancia de los resultados matemáticos), extrínsecas (por ejemplo, muchos problemas de aprendizaje automático requieren la minimización de funciones convexas, como pueden ser las normas) o, lo que es más importante, razones puramente prácticas (aunque no encontraremos normalmente soluciones cerradas, como en el ajuste por mínimos cuadrados, existen algoritmos eficientes para resolver la gran mayoría de los problemas convexos).

En este último sentido, sería como aquel que busca alrededor de una farola sus llaves perdidas cuando se acerca un vecino a ayudarle y, al no hallarlas, le pregunta si está seguro de haberlas perdida ahí, a lo que le responde el primero que no, que las ha perdido en el parque, pero que las busca bajo la farola porque ahí hay luz y en el parque no. Lo que ocurre es que, en nuestro caso, la calle parece estar plagada de pequeñas linternas, que podemos encontrar gracias a la luz de la farola y con las que podremos ir a buscar las llaves al parque. Es decir, no podemos olvidar el papel que pueden desempeñar los métodos de la optimización convexa en los problemas no convexos, bien aplicados localmente, en combinación con otros procedimientos o bien para hallar soluciones heurísticas o acotaciones de las soluciones.

Para hacernos una idea del tipo de problemas que se tratan en esta asignatura, supongamos que queremos diseñar un algoritmo que permita distinguir fotografías de perros de fotografías de gatos. Un enfoque simple e ingenuo, hasta cierto punto, consistiría en considerar cada fotografía como una matriz (bidimensional, si es en escala de grises o de más dimensiones, si la fotografía es a color); extraeríamos, un poco a ciegas, N características de cada una de esas matrices correspondientes a una gran cantidad de fotos, ya clasificadas como de perros o de gatos (por decir algo, pensemos en la media de los valores de sus celdas, las medias de los valores de sus columnas, la desviación típica de esos valores, etc.). De esa manera, obtendríamos de cada foto un vector de un espacio N dimensional. Si encontramos un hiperplano de ese espacio N dimensional (a fin de cuentas, un vector N dimensional) que separe los puntos correspondientes a perros de los puntos correspondientes a gatos, tendremos un procedimiento muy eficiente para clasificar una nueva fotografía: se convierte en vector N dimensional la nueva fotografía y se introduce en la ecuación del hiperplano (solo sumas y multiplicaciones), de manera que el resultado positivo corresponderá a << perro >> y el negativo, a << gato >>.

Simplificando mucho, el proceso de cálculo del hiperplano sería el aprendizaje y se puede formular como un problema de optimización convexa.

La asignatura de Optimización Convexa en Ciencia de datos puede resultar interesante para los graduados en Matemáticas que, queriendo profundizar en sus conocimientos de análisis convexo, se sientan inclinados hacia la matemática aplicada (por ejemplo, para analistas de datos). Pero también, resultará muy útil para los ingenieros y graduados en otras diciplinas científico-tecnológicas que trabajen o deseen trabajar en analítica de datos y no se conformen con implementar paquetes informáticos preprogramados sin comprender lo que hacen, sus posibilidades y limitaciones.

De todo lo anterior se deduce que Optimización Convexa en Ciencia de datos desempeña un papel básico en la especialidad Matemática Aplicada del Máster en Matemáticas Avanzadas. Aunque podemos hallar vínculos con todas las asignaturas de la especialidad, la dependencia más robusta se da con las dos asignaturas que mejor la complementan Optimización en Espacios de Banach e Introducción Métodos Numéricos en Problemas Variacionales, ambas asignaturas de optimización no lineal en dimensión infinita.

Además de la adquisición de unos conocimientos básicos de análisis convexo, se pretende que, al completar el curso, el estudiante sea capaz de seguir mejorando su competencia matemática de forma autónoma y continuada, consultando, tanto textos escritos, como bases de datos en línea. Se procurará generar en los alumnos una actitud positiva hacia la mejora e innovación de los métodos matemáticos que se aplican en la investigación aplicada y en el ejercicio profesional.

MATRICÚLATE

OFERTA COMPLETA DE ESTUDIOS