PYSPARK: Utilizando SPARK e Python para analisar dados

Trabalhando com SPARK e Python para resolver todos os seus problemas com dados

4.45 (140 reviews)
Udemy
platform
Português
language
Other
category
PYSPARK: Utilizando SPARK e Python para analisar dados
553
students
3 hours
content
Feb 2024
last update
$19.99
regular price

What you will learn

O que é PYSPARK

O que é SPARK

Instalando o SPARK em um ambiente Windows, configurando

Instalando o ANACONDA

Instalando a JDK

Entendendo o ecossistema : Apache Spark + Anaconda + JAVA

Entendendo o conceito de NÓ, CLUSTER

Conhecendo os módulos e pacotes do PYSPARK

O que é SparkContext

Entendo o que é RDD (Resilient Distributed Dataset)

Trabalhando com Spark Dataframe

Compreendendo as diferenças entre transformações e ações, operações com PYSPARK

Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take

Aprendendo o que é uma função Lambda

Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy

Monitoramento de jobs com SPARK UI

O que é SparkSession

Leitura de arquivos externos

SPARK SQL

Leitura de dados em JSON

Why take this course?

Seja muito bem-vindo(a) ao nosso treinamento, ele foi pensado para quem deseja trabalhar com um ferramental extremamente moderno e atual que é utilizado em todas as empresas do mundo, que mescla infraestrutura e software em prol da análise de dados.

Vamos entender que o PySpark é uma API Python para Apache SPARK que é denominado como o mecanismo de processamento analítico para aplicações de processamento de dados distribuídos em larga escala e aprendizado de máquina, ou seja, para grandes volumes de dados.

O uso da biblioteca Pyspark possui diversas vantagens:

• É um mecanismo de processamento distribuído, na memória, que permite o processamento de dados de forma eficiente e de características distribuída.

• Com o uso do PySpark, é possível o processamento de dados em Hadoop (HDFS), AWS S3 e outros sistemas de arquivos.

• Possui bibliotecas de aprendizado de máquina e gráficos.

• Geralmente as aplicações criadas e executadas no PySpark são 100x mais rápidas que outras em sistemas de dados conhecidos.

Toda a execução dos scripts é realizada dentro do Apache Spark, que distribui o processamento dentro de um ambiente de cluster que são interligados aos NÓS que realizam a execução e transformação dos dados.

Vamos trabalhar com os seguintes módulos do PySpark:

PySpark RDD

• PySpark DataFrame and SQL

• PySpark Streaming


Venha conhecer esta tecnologia que está com uma grande demanda em todas as organizações no mundo.

Reviews

Gizelly
March 11, 2023
Sensacional ponto de partida para quem está iniciando esta jornada de aprendizado. Obrigada professor.
Victória
January 4, 2023
É uma boa introdução ao Pyspark, mas caso você já tenha experiência acredito que não seja para você. O professor respode rapidamente as perguntas e tem uma boa didática.
Adriano
November 18, 2022
Excelente conteúdo, muito boa a didática do Prof. Parabéns e obrigado por contribuir com meu aprendizado e tornar democrático o acesso a informação de qualidade.
Daniel
June 9, 2022
Simples de entender. O curso é um ponta pé inicial para o mundo do Spark. O próprio professor deixa isso claro. Em outras palavras, é um curso CONCEITUAL que oferece atividades práticas. Basta o aluno correr atrás para fazer. Com certeza me serviu para tirar minhas dúvidas sobre o Spark e me deixar mais preparado para continuar os estudos a partir da documentação oficial. Obrigado pelo curso, professor!

Charts

Price

PYSPARK: Utilizando SPARK e Python para analisar dados - Price chart

Rating

PYSPARK: Utilizando SPARK e Python para analisar dados - Ratings chart

Enrollment distribution

PYSPARK: Utilizando SPARK e Python para analisar dados - Distribution chart
4213170
udemy ID
7/30/2021
course created date
8/7/2021
course indexed date
Bot
course submited by