Las diferentes técnicas para trabajar con datos, como el aprendizaje automático o la visualización, requieren el conocimiento de técnicas de programación y agrupación de datos. Estas técnicas deben de permitir un uso y almacenamiento eficiente de los datos con el propósito de poder escalar adecuadamente según aumenta el volumen de información a tratar.
Por otro lado, muchas de las técnicas de manipulación de datos actuales se aplican a través de librerías ampliamente utilizadas dada su eficiencia y facilidad de uso. La mayoría de estas librerías trabajan sobre estructuras utilizadas por todo científico de datos, que debe conocer la forma de crearlas, manipularlas, realizar consultas sobre ellas, importar y exportar información de las mismas, etc.
Esta asignatura se centra en preparar al estudiante para comprender y programar las técnicas que se le expondrán en otras asignaturas del máster. Para ello, empezaremos por introducir y ver la relevancia de la programación en entornos de datos utilizando el lenguaje Python. A continuación, mostraremos las principales técnicas de agrupación de datos dentro de los paquetes numpy y pandas, que son los más ampliamente utilizados en dicho lenguaje. Seguidamente, veremos distintas formas de optimizar el código y el uso de memoria, así como su impacto en el tiempo de ejecución final de los programas. Finalmente, veremos algunos ejemplos de análisis numérico a través de librerías que los implementan directamente. Todo este trabajo se hará basándose en ejemplos que faciliten el aprendizaje.
Contextualización:
La asignatura Programación en Entornos de Datos se trata de una asignatura de 4 créditos ECTS, obligatoria, impartida en el primer semestre del Máster Universitario en Ingeniería de Datos. La asignatura proporciona a los estudiantes los conocimientos básicos de programación necesarios para cursar otras asignaturas del máster.