Webinar GRATUITO: Haz que la previsión en PRINCE2 sea realmente útil. Inscríbase ahora en nuestra página web.

Desarrollador de Big Data Hadoop y Spark - eLearning

450,00 EUR

  • 50 hours
eLearning

El Curso de Desarrollador de Hadoop y Spark en Big Data está diseñado para proporcionarte una comprensión profunda de los fundamentos de Apache Spark y el marco de Hadoop, dotándote de las habilidades necesarias para sobresalir como Desarrollador de Big Data. A través de este programa, obtendrás conocimiento práctico del ecosistema de Hadoop y su integración con Spark, lo que te permitirá procesar y analizar conjuntos de datos masivos de manera eficiente. Aprende cómo los múltiples componentes de Hadoop, como HDFS y MapReduce, se integran perfectamente en el ciclo de procesamiento de big data, preparándote para el éxito en el mundo impulsado por los datos de hoy.

Características clave

Idioma

El curso y el material están en inglés

Nivel

Intermedio para aspirantes a ingeniero de datos

Acceso

Acceso de 1 año a la plataforma de eLearning de estudio autodirigido 24/7

11 horas de contenido en video

con 50 horas de estudio recomendadas

Prácticas

Prueba de simulación, Laboratorio virtual y Proyecto final del curso

No hay examen

No hay examen para el curso pero el estudiante recibirá un certificado de finalización de la capacitación

Hero

Resultados de aprendizaje

En este Curso de Desarrollador de Hadoop y Spark en Big Data, aprenderás a:

Ecosistema Hadoop

Aprende a navegar por el ecosistema de Hadoop y comprende cómo optimizar su uso

Ingerir datos

Ingesta de datos utilizando Sqoop, Flume y Kafka.

Colmena

Implementar particionamiento, bucketing e indexación en Hive

Apache Spark

Trabaja con RDD en Apache Spark

Transmisión de datos

Procesar datos de transmisión en tiempo real y realizar operaciones de DataFrame en Spark utilizando consultas SQL

Implementación

Implementar Funciones Definidas por el Usuario (UDF) y Funciones de Atributos Definidas por el Usuario (UDAF) en Spark

Cronograma del curso

Hero
  1. Introducción a Big Data y Hadoop

    Lección 01

    - Introduction to Big Data and Hadoop
    - Introduction to Big Data
    - Big Data Analytics
    - What is Big Data?
    - Four vs of Big Data
    - Case Study Royal Bank of Scotland
    - Challenges of Traditional System
    - Distributed Systems
    - Introduction to Hadoop
    - Components of Hadoop Ecosystem Part One
    - Components of Hadoop Ecosystem Part Two
    - Components of Hadoop Ecosystem Part Three
    - Commercial Hadoop Distributions
    - Demo: Walkthrough of Simplilearn Cloudlab
    - Key Takeaways
    - Knowledge Check

  2. Arquitectura de Hadoop Almacenamiento Distribuido (HDFS) y YARN

    Lección 02

    - Hadoop Architecture Distributed Storage (HDFS) and YARN
    - What is HDFS
    - Need for HDFS
    - Regular File System vs HDFS
    - Characteristics of HDFS
    - HDFS Architecture and Components
    - High Availability Cluster Implementations
    - HDFS Component File System Namespace
    - Data Block Split
    - Data Replication Topology
    - HDFS Command Line
    - Demo: Common HDFS Commands
    - Practice Project: HDFS Command Line
    - Yarn Introduction
    - Yarn Use Case
    - Yarn and its Architecture
    - Resource Manager
    - How Resource Manager Operates
    - Application Master
    - How Yarn Runs an Application
    - Tools for Yarn Developers
    - Demo: Walkthrough of Cluster Part One
    - Demo: Walkthrough of Cluster Part Two
    - Key Takeaways Knowledge Check
    - Practice Project: Hadoop Architecture, distributed Storage (HDFS) and Yarn

  3. Ingesta de Datos en Sistemas de Big Data y ETL

    Lección 03

    - Data Ingestion Into Big Data Systems and Etl
    - Data Ingestion Overview Part One
    - Data Ingestion Overview Part Two
    - Apache Sqoop
    - Sqoop and Its Uses
    - Sqoop Processing
    - Sqoop Import Process
    - Sqoop Connectors
    - Demo: Importing and Exporting Data from MySQL to HDFS
    - Practice Project: Apache Sqoop
    - Apache Flume
    - Flume Model
    - Scalability in Flume
    - Components in Flume’s Architecture
    - Configuring Flume Components
    - Demo: Ingest Twitter Data
    - Apache Kafka Aggregating User Activity Using Kafka
    - Kafka Data Model
    - Partitions
    - Apache Kafka Architecture
    - Demo: Setup Kafka Cluster
    - Producer Side API Example
    - Consumer Side API
    - Consumer Side API Example
    - Kafka Connect
    - Demo: Creating Sample Kafka Data Pipeline Using Producer and Consumer
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Data Ingestion Into Big Data Systems and ETL

  4. Marco de Procesamiento Distribuido MapReduce y Pig

    Lección 04

    - Distributed Processing Mapreduce Framework and Pig
    - Distributed Processing in Mapreduce
    - Word Count Example
    - Map Execution Phases
    - Map Execution Distributed Two Node Environment
    - Mapreduce Jobs
    - Hadoop Mapreduce Job Work Interaction
    - Setting Up the Environment for Mapreduce Development
    - Set of Classes
    - Creating a New Project
    - Advanced Mapreduce
    - Data Types in Hadoop
    - Output formats in Mapreduce
    - Using Distributed Cache
    - Joins in MapReduce
    - Replicated Join
    - Introduction to Pig
    - Components of Pig
    - Pig Data Model
    - Pig Interactive Modes
    - Pig Operations
    - Various Relations Performed by Developers
    - Demo: Analyzing Web Log Data Using Mapreduce
    - Demo: Analyzing Sales Data and Solving Kpis Using Pig Practice Project: Apache Pig

    - Demo: Wordcount
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Distributed Processing - Mapreduce Framework and Pig

  5. Apache Hive

    Lección 05

    - Apache Hive
    - Hive SQL over Hadoop MapReduce
    - Hive Architecture
    - Interfaces to Run Hive Queries
    - Running Beeline from Command Line
    - Hive Metastore
    - Hive DDL and DML
    - Creating New Table
    - Data Types Validation of Data
    - File Format Types
    - Data Serialization
    - Hive Table and Avro Schema
    - Hive Optimization Partitioning Bucketing and Sampling
    - Non-Partitioned Table
    - Data Insertion
    - Dynamic Partitioning in Hive
    - Bucketing
    - What Do Buckets Do?
    - Hive Analytics UDF and UDAF
    - Other Functions of Hive
    - Demo: Real-time Analysis and Data Filtration
    - Demo: Real-World Problem
    - Demo: Data Representation and Import Using Hive
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Apache Hive

  6. Bases de datos NoSQL HBase

    Lección 06

    - NoSQL Databases HBase
    - NoSQL Introduction
    - Demo: Yarn Tuning
    - Hbase Overview
    - Hbase Architecture
    - Data Model
    - Connecting to HBase
    - Practice Project: HBase Shell
    - Key Takeaways
    - Knowledge Check
    - Practice Project: NoSQL Databases - HBase

  7. Fundamentos de la Programación Funcional y Scala

    Lección 07

    - Basics of Functional Programming and Scala
    - Introduction to Scala
    - Demo: Scala Installation
    - Functional Programming
    - Programming With Scala
    - Demo: Basic Literals and Arithmetic Programming
    - Demo: Logical Operators
    - Type Inference Classes Objects and Functions in Scala
    - Demo: Type Inference Functions Anonymous Function and Class
    - Collections
    - Types of Collections
    - Demo: Five Types of Collections
    - Demo: Operations on List Scala REPL
    - Demo: Features of Scala REPL
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Apache Hive

  8. Apache Spark, el framework de Big Data de próxima generación

    Lección 08

    - Apache Spark Next-Generation Big Data Framework
    - History of Spark
    - Limitations of Mapreduce in Hadoop
    - Introduction to Apache Spark
    - Components of Spark
    - Application of In-memory Processing
    - Hadoop Ecosystem vs Spark
    - Advantages of Spark
    - Spark Architecture
    - Spark Cluster in Real World
    - Demo: Running a Scala Programs in Spark Shell
    - Demo: Setting Up Execution Environment in IDE
    - Demo: Spark Web UI
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Apache Spark Next-Generation Big Data Framework

  9. Procesamiento del Núcleo de Spark RDD

    Lección 09

    - Introduction to Spark RDD
    - RDD in Spark
    - Creating Spark RDD
    - Pair RDD
    - RDD Operations
    - Demo: Spark Transformation Detailed Exploration Using Scala Examples
    - Demo: Spark Action Detailed Exploration Using Scala
    - Caching and Persistence
    - Storage Levels
    - Lineage and DAG
    - Need for DAG
    - Debugging in Spark
    - Partitioning in Spark
    - Scheduling in Spark
    - Shuffling in Spark
    - Sort Shuffle Aggregating Data With Paired RDD
    - Demo: Spark Application With Data Written Back to HDFS and Spark UI
    - Demo: Changing Spark Application Parameters
    - Demo: Handling Different File Formats
    - Demo: Spark RDD With Real-world Application
    - Demo: Optimizing Spark Jobs
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Spark Core Processing RDD

  10. Procesamiento de DataFrames con Spark SQL

    Lección 10

    - Spark SQL Processing DataFrames
    - Spark SQL Introduction
    - Spark SQL Architecture
    - Dataframes
    - Demo: Handling Various Data Formats
    - Demo: Implement Various Dataframe Operations
    - Demo: UDF and UDAF
    - Interoperating With RDDs
    - Demo: Process Dataframe Using SQL Query
    - RDD vs Dataframe vs Dataset
    - Practice Project: Processing Dataframes
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Spark SQL - Processing Dataframes

  11. Modelado de BigData con Spark MLib

    Lección 11

    - Modelado de Big Data con Spark Mlib
    - Rol del Científico de Datos y del Analista de Datos en Big Data
    - Análisis en Spark
    - Aprendizaje Automático
    - Aprendizaje Supervisado
    - Demostración: Clasificación de SVM Lineal
    - Demostración: Regresión Lineal con Estudios de Casos del Mundo Real
    - Aprendizaje No Supervisado
    - Demostración: Agrupamiento No Supervisado K-medias
    - Aprendizaje por Refuerzo
    - Aprendizaje Semi-supervisado
    - Visión General de Mlib
    - Pipelines de Mlib
    - Puntos Clave
    - Verificación de Conocimientos
    - Proyecto Práctico: Spark Mlib - Modelado de Big Data con Spark

  12. Frameworks de Procesamiento de Flujo y Spark Streaming

    Lección 12

    - Streaming Overview
    - Real-time Processing of Big Data
    - Data Processing Architectures
    - Demo: Real-time Data Processing Spark Streaming
    - Demo: Writing Spark Streaming Application
    - Introduction to DStreams
    - Transformations on DStreams
    - Design Patterns for Using Foreachrdd
    - State Operations
    - Windowing Operations
    - Join Operations Stream-dataset Join
    - Demo: Windowing of Real-time Data Processing Streaming Sources
    - Demo: Processing Twitter Streaming Data
    - Structured Spark Streaming-
    - Use Case Banking Transactions
    - Structured Streaming Architecture Model and Its Components
    - Output Sinks
    - Structured Streaming APIs
    - Constructing Columns in Structured Streaming
    - Windowed Operations on Event-time
    - Use Cases
    - Demo: Streaming Pipeline
    - Practice Project: Spark Streaming
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Stream Processing Frameworks and Spark Streaming

  13. Spark GraphX

    Lección 13

    - Spark GraphX
    - Introduction to Graph
    - GraphX in Spark
    - GraphX Operators
    - Join Operators
    - GraphX Parallel System
    - Algorithms in Spark
    - Pregel API
    - Use Case of GraphX
    - Demo: GraphX Vertex Predicate
    - Demo: Page Rank Algorithm
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Spark GraphX Project Assistance

Curso de Big Data Hadoop

Público objetivo

Ideal para una amplia gama de profesionales e individuos que desean avanzar en sus carreras en análisis de grandes datos, ingeniería de datos y ciencia de datos.

Requisitos previos: Se recomienda que tenga conocimientos de Core Java y SQL

Profesionales de analítica

Profesionales senior de TI

Profesionales de pruebas y mainframes

Profesionales de la gestión de datos

Profesionales de inteligencia empresarial

Gerentes de proyecto

Graduados que buscan comenzar una carrera en análisis de grandes datos

Comience ahora

Preguntas Frecuentes

¿Necesitas una solución corporativa o integración de LMS?

¿No encontraste el curso o programa que encajaría para tu empresa? ¿Necesitas integración con un LMS? ¡Escríbenos! ¡Resolveremos todo!