Spark y Python con PySpark en AWS para Big Data

Big Data, Computación Paralela, RDDs, Spark SQL DataFrames y Spark MLlib todo en Python y Jupyter Notebooks

4.56 (498 reviews)
Udemy
platform
Español
language
Other
category
2,263
students
4.5 hours
content
Sep 2020
last update
$44.99
regular price

What you will learn

Sobre el Big Data y la computación paralela

A trabajar con Spark RDDs en pyspark

A trabajar con Spark SQL y sus DataFrames en pyspark

A trabajar con Spark MLlib en pyspark

Description

* Este curso es parte del Data Engineering Bootcamp de Datademia. Visita nuestra web para más información.


Hola y bienvenidos a este curso de Spark y Python con PySpark.

En este curso aprenderás lo que es la computación paralela utilizando Spark y Python con PySpark en un Jupyter notebook que corre en AWS (Amazon Web Services).

Spark es un framework de programación para datos distribuidos y es de los más utilizados para el Big Data hoy en día. En este curso aprenderás a trabajar con Spark y sus RDDs, con Spark SQL y sus DataFrames y aprenderás la sintaxis básica de Spark ML, para algoritmos de aprendizaje automático o Machine Learning.

Este curso está diseñado para cualquier persona que quiera empezar a meterse en el mundo del big data con Spark y Python.

Es un curso totalmente práctico y dinámico en el que empezarás desde cero con Spark.

Empezaremos con una introducción al big data, a la computación paralela y a Apache Spark.

Luego os llevaremos paso a paso para crear una cuenta de AWS, crear una máquina virtual utilizando el sistema de computación EC2 y configurar todo lo necesario para poder utilizar Spark y Jupyter Notebooks en AWS.

En las primeras partes del curso trabajaremos con Spark y su formato RDD (Resilient Distributed Datasets o Datos Distribuidos Resilientes). Luego trabajaremos con Spark SQL y sus DataFrames y acabaremos aprendiendo a implementar un algoritmos de regresión lineal en Spark ML.

Como ves hay mucho temario. Iremos paso a paso explicando primero la teoría y después haciendo casos prácticos.

Mi nombre es Sebastian y he trabajado durante muchos años en diferentes empresas tecnológicas con el Big Data en Barcelona. He trabajado siempre con datos, desde la extracción y manipulación de datos hasta la creación de dashboards y programación de modelos de aprendizaje automático.

Te invito a que veas la presentación completa del curso y las lecciones gratuitas.

Cualquier duda que tengas me puedes contactar por mensaje privado dentro de la plataforma.

Te espero en el curso, un saludo y muchas gracias.

Content

Presentación del curso

Sobre nosotros
Presentación del curso
Plataforma y Recursos

Introducción al Big Data y Apache Spark

Datos Masivos - Big Data
Sistemas de computación paralela
Computación en la nube
Introducción a Apache Spark

Configuración de Spark con AWS

Cuenta AWS (Amazon Web Services)
Creación de una maquina virtual EC2 en AWS
Configuración SSH para Windows
Configuración SSH para Mac
Configuración de Spark en AWS EC2 con Python y Jupyter Notebooks
Configuración Jupyter Notebook en AWS EC2
Configuración Spark

Introducción a Spark

Expresiones Lambda
Introducción a Spark con Python
Transformaciones Spark 1 - filter(), map() y flatMap()
Transformaciones Spark 2 - sample(), distinct() y groupBy()
Transformaciones Spark 3 - union(), intersection(), subtract() y cartesian()
Acciones Spark 1 - Alternativas a collect()
Acciones Spark 2 - reduce(), fold() y aggregate()
Acciones Spark 3 - Acciones para contar elementos
Introducción al Proyecto 1
Pistas para el proyecto
Solución al Proyecto 1

Pair RDDs - RDDs de Clave Valor en Spark

Pair RDDs - RDDs de Clave Valor en Spark
Transformaciones de agregación para pair RDDs en Spark
Transformaciones para claves o valores
Joins en Spark
Otras transformaciones y acciones para pair RDDs en Spark

Spark Avanzado

Persistencia en Apache Spark
Particionado en Apache Spark

Spark SQL

Introducción a Spark SQL
Introducción a Spark SQL DataFrames
Spark SQL Schema
Spark SQL select(), withColumn() y withColumnRenamed()
Spark SQL consultas SQL
Spark SQL filter() / where()
Spark SQL groupBy() y agg()
Spark SQL otras funciones
Spark SQL Valores Nulos
Spark SQL Fecha y Tiempo
Ejercicio
Solución al ejercicio

Introducción a Spark MLLib

Introducción a MLlib
Teoría Regresión Lineal
Teoría Regresión Metricas
Regresión Lineal con Spark
Regresión Lineal con Spark y transformación de datos reales

¡Ya has terminado!

¡Ya has terminado!

Screenshots

Spark y Python con PySpark en AWS para Big Data - Screenshot_01Spark y Python con PySpark en AWS para Big Data - Screenshot_02Spark y Python con PySpark en AWS para Big Data - Screenshot_03Spark y Python con PySpark en AWS para Big Data - Screenshot_04

Reviews

Juan
October 30, 2023
Desafortunadamente las guías de instalación de los ambientes son incorrectas, inexactas u obsoletas. Para terminar el curso hay que ir a google e investigar cómo instalar y configurar los ambientes.
Darwin
August 21, 2023
Me quede en la session 2 porque no estoy dispuesto a gastar mi base gratuita de AWS para instalar un jupiter notebook cosa que ya tengo instalado en mi equipo y aqui no hay instrucciones de configuración en local
Dalvin
August 4, 2023
Explica de manera clara cada tema, solo en la parte de la configuración de spark con aws debería actualizar el como entrar y salir cada vez a jupyter notebook, ya que eso me dio muchos problemas
Marcos
June 16, 2023
Está bien para iniciarse en pyspark, pero el apartado de configuración de la cuenta de AWS no está bien explicado y al final tienes que investigar por tu cuenta para poder configurarla.
Oscar
October 25, 2022
El curso es demasiado básico, me hubiera gustado que se desarrollara un proyecto más complejo. Pero en general, es un muy buen curso para personas que tienen nulo conocimiento sobre Spark.
Erika
September 30, 2022
Me gustó mucho este curso, creo que el instructor explica muy bien desde la instalacion de Spark, cómo funcionan algunos comandos, como usar SQL y ML. Este curso me ha servido para refrescar algunos conocimientos y para adquirir otros más. Estuvo de lujo!!
Ricardo
September 15, 2022
Están bien los conceptos para principiante es evidente que le hace falta una actualización a la parte de AWS pero en general todo en orden y bien explicado .
Nestor
September 12, 2022
Es muy pero muy básico y no está relacionado con su titulo, se apreciaría que hicieran cosas que realmente uno se encontrará en el campo de trabajo
Raúl
August 13, 2022
La instalación muy desactualizada, desesperante lo que hay que liar para poder arreglartelas por tu cuenta y poder avanzar.
Hugo
May 14, 2022
Buen contenido, se presentaron algunos problemas al instalar el ambiente, pero ueron resultos consultando en foros
Sebastian
May 3, 2022
Las explicaciones del profesor muy buenas, sin embargo, creo que se omitio algunos tips de configuración y cuesta mucho llegar a abrir el jupyter notebook, por ejemplo. De todos modos lo recomiendo, más que nada, para los que se están introduciendo en el tema, dado que los conceptos son muy elementales. En general el curso está correcto.
Daniel
March 18, 2022
Excelente profesor!! claro y conciso! ..ya estoy aprovechando el conocimiento adquirido. recomiendo al 100%
Sergio
February 7, 2022
Es un curso que parte desde cero y te aporta una buena base de pyspark. Está muy bien para conocer un poco de todo lo que tiene pyspark, pero no te convierte en un experto, ya que no llega a profundizar tanto ni a utilizar estructuras muy complejas. Aún así, como punto de partida para iniciarte en pyspark, lo recomiendo mucho.
Jhon
January 12, 2022
Muy buen curso, tenia bases en Python y estaba necesitando aprender PySpark urgentemente por mi trabajo y ya tengo conceptos mas aterrizados. GRACIAS POR EXISTIR
Aitor
January 11, 2022
Muy buenas sesiones practicas para una primera introduccion en Spark con Python. Interesante la seccion tambien de Machine Learning.

Charts

Price

Spark y Python con PySpark en AWS para Big Data - Price chart

Rating

Spark y Python con PySpark en AWS para Big Data - Ratings chart

Enrollment distribution

Spark y Python con PySpark en AWS para Big Data - Distribution chart
3184982
udemy ID
5/30/2020
course created date
8/14/2020
course indexed date
Bot
course submited by