Accesos directos a las distintas zonas del curso
Ir a los contenidos
Ir a menú navegación principal
Ir a menú pie de página
Subject's code : 28070060
Se introducirá el ecosistema Big Data de herramientas para el procesamiento paralelo de datos masivo y su programación distribuida. Ventajas y desventajas de las herramientas del ecosistema.
En concreto, estan previstos los siguientes contenidos:
Introducción a Big Data y Hadoop.
Programación MapReduce.
Programación MapReduce con lenguajes de alto nivel: Hive y Pig.
Herramientas de serialización/deserialización e inyección/extracción de datos.
Se verán técnicas de procesamiento masivo de datos en memoria en tiempo real: componentes y configuración.
Introducción e instalación de Apache Spark.
Programación de aplicaciones en Spark.
Librerías/Componentes de Spark.
Configuración, monitorización y optimización de Spark.
El tema versará sobre la gestión de la información en tiempo real mediante arquitecturas específicas y los eventos generados por las mismas. Análisis de los resultados de salida posibles.
Introducción a las arquitecturas de procesamiento de streams: Lambda y Kappa.
Componentes tecnológicos de adquisición y transmisión/distribución de eventos:Kafka.
Procesamiento de Streams: Spark Streaming.
El tema tratará sobre servicios en la nube para el almacenamiento y procesamiento paralelo de datos masivos. También se explicarán ejemplos de algoritmos paralelizables en entornos industriales: desarrollo de optimizaciones para la obtención de conclusiones.