Desarrollador de Big Data Hadoop y Spark - eLearning
450,00 EUR
- 30 hours
Este curso de certificación en Big Data Hadoop está diseñado para proporcionarte un conocimiento profundo del marco de trabajo de big data utilizando Hadoop y Spark. En este curso práctico de big data, ejecutarás proyectos reales basados en la industria utilizando los talleres integrados de Simplilearn. Prerrequisitos: Se recomienda que tengas conocimiento de: - Core - Java SQL
Programa del curso
Introducción a Big Data y Hadoop
Lección 01
- Introducción a Big Data y Hadoop
- Introducción a Big Data
- Análisis de Grandes Datos
- ¿Qué es Big Data?
- Las cuatro V de Big Data
- Estudio de caso del Banco Real de Escocia
- Desafíos del Sistema Tradicional
- Sistemas Distribuidos
- Introducción a Hadoop
- Componentes del Ecosistema de Hadoop Parte Uno
- Componentes del Ecosistema de Hadoop Parte Dos
- Componentes del Ecosistema de Hadoop Parte Tres
- Distribuciones Comerciales de Hadoop
- Demostración: Recorrido por Simplilearn Cloudlab
- Conclusiones Clave
- Verificación de ConocimientosArquitectura de Hadoop Almacenamiento Distribuido (HDFS) y YARN
Lección 02
- Arquitectura de Hadoop Almacenamiento Distribuido (HDFS) y YARN
- Qué es HDFS
- Necesidad de HDFS
- Sistema de Archivos Regular vs HDFS
- Características de HDFS
- Arquitectura y Componentes de HDFS
- Implementaciones de Clúster de Alta Disponibilidad
- Espacio de Nombres del Sistema de Archivos de Componentes de HDFS
- División de Bloques de Datos
- Topología de Replicación de Datos
- Línea de Comandos de HDFS
- Demostración: Comandos Comunes de HDFS
- Proyecto Práctico: Línea de Comandos de HDFS
- Introducción a Yarn
- Caso práctico de Yarn
- Yarn y su Arquitectura
- Gestor de Recursos
- Cómo Opera el Gestor de Recursos
- Maestro de Aplicaciones
- Cómo Yarn Ejecuta una Aplicación
- Herramientas para Desarrolladores de Yarn
- Demostración: Recorrido del Clúster Parte Uno
- Demostración: Recorrido del Clúster Parte Dos
- Puntos Clave Verificación de Conocimientos
- Proyecto Práctico: Arquitectura de Hadoop, Almacenamiento Distribuido (HDFS) y YarnIngesta de datos en sistemas de Big Data y ETL
Lección 03
- Ingestión de datos en sistemas de Big Data y Etl
- Visión general de la ingestión de datos (primera parte)
- Ingestión de Datos - Segunda Parte
- Apache Sqoop
- Sqoop y sus Usos
- Procesamiento de Sqoop
- Proceso de Importación de Sqoop
- Conectores Sqoop
- Demostración: Importación y Exportación de Datos de MySQL a HDFS
- Proyecto Práctico: Apache Sqoop
- Apache Flume
- Modelo Flume
- Escalabilidad en Flume
- Componentes en la Arquitectura de Flume
- Configuración de los Componentes de Flume
- Demostración: Ingesta de Datos de Twitter
- Apache Kafka Agregación de la actividad de los usuarios usando Kafka
- Modelo de Datos Kafka
- Particiones
- Arquitectura de Apache Kafka
- Demostración: Configuración de Kafka Cluster
- Ejemplo de API del lado del productor
- API del lado del consumidor
- Ejemplo de API del lado del consumidor
- Conexión a Kafka
- Demostración: Creación de una canalización de datos de Kafka de ejemplo utilizando el productor y el consumidor
- Puntos clave
- Comprobación de conocimientos
- Proyecto práctico: Ingestión de Datos en Sistemas Big Data y ETLMarco de Procesamiento Distribuido MapReduce y Pig
Lección 04
- Procesamiento distribuido en Mapreduce Framework y Pig
- Procesamiento distribuido en Mapreduce
- Ejemplo de recuento de palabras
- Fases de Ejecución de Mapas
- Ejecución de Mapas Distribuida en un Entorno de Dos Nodos
- Trabajos Mapreduce
- Interacción del Trabajo Mapreduce en Hadoop
- Configuración del Entorno para el Desarrollo de Mapreduce
- Conjunto de Clases
- Creación de un Nuevo Proyecto
- Mapreduce Avanzado
- Tipos de Datos en Hadoop
- Formatos de Salida en Mapreduce
- Uso de Caché Distribuida
- Uniones en MapReduce
- Uniones replicadas
- Introducción a Pig
- Componentes de Pig
- Modelo de Datos de Pig
- Modos Interactivos de Pig
- Operaciones Pig
- Diversas Relaciones Realizadas por los Desarrolladores
- Demostración: Análisis de datos de registro web mediante Mapreduce
- Demo: Analyzing Sales Data and Solving Kpis Using Pig Proyecto Práctico: Apache Pig- Demostración: Wordcount
- Puntos clave
- Comprobación de conocimientos
- Proyecto Práctico: Procesamiento distribuido - Mapreduce Framework y PigApache Hive
Lección 05
- Apache Hive
- Hive SQL sobre Hadoop MapReduce
- Arquitectura Hive
- Interfaces para ejecutar consultas Hive
- Ejecución de Beeline desde la línea de comandos
- Metastore Hive
- Hive DDL y DML
- Creación de una Nueva Tabla
- Tipos de Datos Validación de Datos
- Tipos de Formato de Fichero
- Serialización de Datos
- Tabla Hive y Esquema Avro
- Optimización de Hive Particionamiento Bucketing y Muestreo
- Tabla no particionada
- Inserción de Datos
- Particionamiento Dinámico en Hive
- Creación de Buckets
- ¿Qué Hacen los Buckets?
- Análisis de Hive UDF y UDAF
- Otras Funciones de Hive
- Demostración Análisis en tiempo real y filtrado de datos
- Demostración Problemas del mundo real
- Demostración Representación e importación de datos mediante Hive
- Puntos clave
- Comprobación de conocimientos
- Proyecto Práctico: Apache HiveBases de datos NoSQL HBase
Lección 06
- Bases de datos NoSQL HBase
- Introducción a NoSQL
- Demostración Ajuste de Yarn
- Visión general de Hbase
- Arquitectura de Hbase
- Modelo de datos
- Conexión a HBase
- Proyecto Práctico: HBase Shell
- Puntos clave
- Comprobación de conocimientos
- Proyecto Práctico: Bases de datos NoSQL - HBaseFundamentos de la Programación Funcional y Scala
Lección 07
- Fundamentos de la Programación Funcional y Scala
- Introducción a Scala
- Demostración: Instalación de Scala
- Programación Funcional
- Programando con Scala
- Demostración: Literales Básicos y Programación Aritmética
- Demostración: Operadores Lógicos
- Inferencia de Tipos, Clases, Objetos y Funciones en Scala
- Demostración: Inferencia de Tipos, Funciones Anónimas y Clase
- Colecciones
- Tipos de Colecciones
- Demostración: Cinco Tipos de Colecciones
- Demostración: Operaciones en Listas Scala REPL
- Demostración: Características de Scala REPL
- Conclusiones Clave
- Verificación de Conocimientos
- Proyecto Práctico: Apache HiveApache Spark, el framework de Big Data de próxima generación
Lección 08
-Apache Spark: marco de trabajo de próxima generación para Big Data
- Historia de Spark
- Limitaciones de Mapreduce en Hadoop
- Introducción a Apache Spark
- Componentes de Spark
- Aplicación del Procesamiento en Memoria
- Ecosistema Hadoop vs Spark
- Ventajas de Spark
- Arquitectura de Spark
- Spark Cluster en el Mundo Real
- Demo: Ejecución de programas Scala en Spark Shell
- Demo: Configuración del entorno de ejecución en IDE
- Demo: Spark Web UI
- Puntos clave
- Comprobación de conocimientos
- Proyecto Práctico: Apache Spark: Marco de trabajo de próxima generación para Big DataSpark Core Procesamiento RDD
Lección 09
- Introducción a Spark RDD
- RDD en Spark
- Creación de RDD en Spark
- Emparejar RDD
- Operaciones RDD
- Demo: Exploración detallada de la transformación en Spark usando ejemplos de Scala
- Demo: Spark Action Exploración detallada usando Scala
- Caché y Persistencia
- Niveles de Almacenamiento
- Linaje y DAG
- Necesidad de DAG
- Depuración en Spark
- Particionamiento en Spark
- Programación en Spark
- Shuffling en Spark
- Sort Shuffle Agregación de Datos con RDD Emparejados
- Demostración: Aplicación Spark con datos escritos en HDFS y Spark UI
- Demo: Cambio de los parámetros de la aplicación Spark
- Demostración: Manejo de diferentes formatos de archivo
- Demo: Spark RDD con una aplicación del mundo real
- Demo: Optimización de Spark Jobs
- Puntos clave
- Comprobación de conocimientos
- Proyecto Práctico: Spark Core Processing RDDProcesamiento de DataFrames con Spark SQL
Lección 10
- Spark SQL Procesamiento de DataFrames
- Introducción a Spark SQL
- Arquitectura de Spark SQL
- Marcos de datos
- Demostración: Manejo de Varios Formatos de Datos
- Demostración: Implementación de varias operaciones de marcos de datos
- Demostración: UDF y UDAF
- Interoperación con RDD
- Demo: Procesamiento de marcos de datos mediante consultas SQL
- RDD vs Dataframe vs Dataset
- Proyecto Práctico: Procesamiento de Dataframes
- Puntos clave
- Comprobación de conocimientos
- Proyecto Práctico: Spark SQL - Procesamiento de DataframesModelando Big Data con Spark MLib
Lección 11
- Modelado de Big Data con Spark Mlib
- Rol del Científico de Datos y del Analista de Datos en Big Data
- Análisis en Spark
- Aprendizaje Automático
- Aprendizaje Supervisado
- Demostración: Clasificación con SVM Lineal
- Demostración: Regresión Lineal con Estudios de Casos del Mundo Real
- Aprendizaje No Supervisado
- Demostración: Agrupamiento No Supervisado con K-medias
- Aprendizaje por Refuerzo
- Aprendizaje Semi-supervisado
- Visión General de Mlib
- Pipelines de Mlib
- Puntos Clave
- Verificación de Conocimientos
- Proyecto Práctico: Spark Mlib - Modelando Big Data con SparkFrameworks de Procesamiento de Flujos y Spark Streaming
Lección 12
- Visión general de transmisión en vivo
- Procesamiento en tiempo real de grandes volúmenes de datos
- Arquitecturas de procesamiento de datos
- Demostración: Procesamiento de datos en tiempo real con Spark Streaming
- Demostración: Escritura de una aplicación de Spark Streaming
- Introducción a DStreams
- Transformaciones en DStreams
- Patrones de diseño para el uso de Foreachrdd
- Operaciones de estado
- Operaciones de ventaneo
- Operaciones de unión Stream-dataset Join
- Demostración: Ventaneo en el procesamiento de datos en tiempo real de fuentes de transmisión
- Demostración: Procesamiento de datos de Twitter en tiempo real
- Spark Streaming estructurado
- Caso práctico: Transacciones bancarias
- Modelo de arquitectura de Streaming estructurado y sus componentes
- Sumideros de salida
- APIs de Streaming estructurado
- Construcción de columnas en Streaming estructurado
- Operaciones con ventanas en tiempo de evento
- Casos prácticos
- Demostración: Pipeline de transmisión en vivo
- Proyecto práctico: Spark Streaming
- Conclusiones clave
- Revisión de conocimientos
- Proyecto práctico: Marcos de procesamiento de flujo y Spark StreamingSpark GraphX
Lección 13
- Spark GraphX
- Introducción a Graph
- GraphX en Spark
- Operadores de GraphX
- Operadores de Join
- Sistema Paralelo de GraphX
- Algoritmos en Spark
- API de Pregel
- Caso práctico de GraphX
- Demostración: Predicado de Vértice en GraphX
- Demostración: Algoritmo de Page Rank
- Puntos Clave
- Verificación de Conocimientos
- Proyecto Práctico: Asistencia para el Proyecto de Spark GraphX
Resultados del aprendizaje
En este Curso de Desarrollador de Hadoop y Spark en Big Data, aprenderás a:
Ecosistema Hadoop
Aprende a navegar por el ecosistema de Hadoop y comprende cómo optimizar su uso
Ingesta de datos
Ingesta datos utilizando Sqoop, Flume y Kafka.
Hive
Implementa particionamiento, almacenamiento en buckets e indexación en Hive
Apache Spark
Trabaja con RDD en Apache Spark
Transmisión de datos
Procesa datos de transmisión en tiempo real y realiza operaciones de DataFrame en Spark utilizando consultas SQL
Implementación
Implementar Funciones Definidas por el Usuario (UDF) y Funciones de Atributos Definidas por el Usuario (UDAF) en Spark
Proyectos Finales del Curso
Proyecto 1: Análisis del historial de las reclamaciones de seguros
Utiliza las características de Hadoop para predecir patrones y compartir información valiosa para una compañía de seguros de coche. Este proyecto utiliza datos de la Bolsa de Valores de Nueva York desde 2010 hasta 2016, recopilados de más de 500 empresas cotizadas. El conjunto de datos consiste en los precios intradía y el volumen negociado de cada empresa cotizada. Los datos se utilizan tanto en proyectos de aprendizaje automático como en análisis exploratorios con el fin de automatizar el proceso de comercio y predecir los ganadores o perdedores del próximo día de negociación. El alcance de este proyecto se limita al análisis exploratorio de datos.
Proyecto 2: Análisis de Comentarios en la Evaluación de Empleados
El equipo de Recursos Humanos está revisando las redes sociales para recopilar comentarios y sentimientos de empleados actuales y anteriores. Esta información se utilizará para obtener información práctica y tomar medidas correctivas para mejorar la relación entre empleador y empleado. Los datos se obtienen mediante web scraping de Glassdoor y contienen reseñas detalladas de 67 mil empleados de Google, Amazon, Facebook, Apple, Microsoft y Netflix.
Proyecto 3: Agrupamiento K-Means para el Dominio de las Telecomunicaciones
LoudAcre Mobile es un proveedor de servicios de telefonía móvil que ha lanzado una nueva campaña de red abierta. Como parte de esta campaña, la empresa ha invitado a los usuarios a quejarse de las torres de red de telefonía móvil en su área si están experimentando problemas de conectividad con su red móvil actual. LoudAcre ha recopilado el conjunto de datos de los usuarios que se han quejado.
Proyecto 4: Análisis de Mercado en el Sector Bancario
Nuestro cliente, una institución bancaria portuguesa, realizó una campaña de marketing para convencer a posibles clientes de invertir en una promoción de depósito a plazo bancario. Las presentaciones de la campaña de marketing se realizaron mediante llamadas telefónicas. Sin embargo, a menudo el mismo cliente era contactado más de una vez. Tienes que realizar el análisis de marketing de los datos generados por esta campaña, teniendo en cuenta las llamadas redundantes.
Desarrollador de Big Hadoop y Spark - eLearning
Público Objetivo y Requisitos Previos
Público objetivo
- Profesionales de análisis
- Profesionales senior de TI
- Profesionales de pruebas y mainframes
- Profesionales de la gestión de datos
- Profesionales de inteligencia empresarial
- Gerentes de proyecto
- Graduados que buscan comenzar una carrera en análisis de grandes datos
Requisitos previos:
Se recomienda que tenga conocimientos de:
- Core
- Java SQL
¿Necesitas una solución corporativa o integración de LMS?
¿No encontraste el curso o programa que encajaría para tu empresa? ¿Necesitas integración con un LMS? ¡Escríbenos! ¡Resolveremos todo!