Databricks e PySpark: analisando dados

Saiba trabalhar em alto nível na área de dados

4.80 (397 reviews)
Udemy
platform
Português
language
Other
category
Databricks e PySpark: analisando dados
1,669
students
6 hours
content
Feb 2024
last update
$54.99
regular price

What you will learn

Visualização para explorar resultados de consultas de diferentes perspectivas

Construção de gráficos e Dashboards

Unificação de dados em diversos formatos: texto, JSON, PARQUET, dentre outros

Trabalhada por administrador da plataforma, analista de dados, cientista de dados e engenheiro de dados com diversas funcionalidades

Aprendizado processamento distribuído em SPARK

Entendo o que é Databricks File System (DBFS) seu sistema de arquivos

Entendo sobre Cluster

Aprendendo a gerenciar e criar Notebooks em R, SCALA, Python e SQL

Executando scripts multilinguagens

Gerenciando a ingestão de dados e análise de dados, gerando gráficos e dashboards

Construindo na versão community

Trabalhando com a biblioteca dbutils Python

Integrando o Databricks ao Power BI

O que é PYSPARK

O que é SPARK

Instalando o SPARK em um ambiente Windows, configurando

Instalando o ANACONDA

Instalando a JDK

Entendendo o ecossistema : Apache Spark + Anaconda + JAVA

Entendendo o conceito de NÓ, CLUSTER

Conhecendo os módulos e pacotes do PYSPARK

O que é SparkContext

Entendo o que é RDD (Resilient Distributed Dataset)

Trabalhando com Spark Dataframe

Compreendendo as diferenças entre transformações e ações, operações com PYSPARK

Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take

Aprendendo o que é uma função Lambda

Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy

Monitoramento de jobs com SPARK UI

O que é SparkSession

Leitura de arquivos externos

SPARK SQL

Leitura de dados em JSON

Why take this course?

Trazemos para você o que há de mais completo e atual no uso de ferramentas da área de dados nas grandes corporações pelo mundo, o uso do Databricks e do PySpark.

O Databricks é um ecossistema completo que reúne as principais linguagens da era Data Science em um mesmo notebook, isso mesmo, um dos poucos produtos que possui multilinguagem em um mesmo notebook. Você vai trabalhar com Linguagem R, Python, Scala e ainda utilizando comandos em SQL, umas das linguagens de manipulação de dados mais utilizadas no mundo. Além disso, você produzirá gráficos no ambiente do Databricks, que já vem preparado para isso, tudo junto.

Depois mergulharemos com tudo no uso do PySpark. Para quem não conhece, é o uso do PYTHON na estrutura de processamento SPARK, que vem revolucionando o mercado pela sua rapidez na execução de suas rotinas de trabalho. Com PySpark vamos aprender conceitos diferentes,  trabalhar dados estruturados, semi-estruturados e não-estruturados, você terá vários scripts para executar durante o seu aprendizado.

Databricks e Pyspark são destaque na era BIg Data, pois utilizam os conceitos de processamento distribuído e podem ser acessados e utilizados na nuvem, que já é muito comum nas empresas.

Você vai contar com apostila, exercícios resolvidos e desafios para correção, não é o máximo?

Então venha e una-se ao nosso grupo.


Screenshots

Databricks e PySpark: analisando dados - Screenshot_01Databricks e PySpark: analisando dados - Screenshot_02Databricks e PySpark: analisando dados - Screenshot_03Databricks e PySpark: analisando dados - Screenshot_04

Reviews

Paulo
August 21, 2023
Como aluno deste curso, eu consegui entender princípios básicos sobre o pyspark. Consigo perceber sua aplicação em diversos setores. Claramente é necessário muitos exercícios para fixar o aprendizado. Deixo o conselho em fazer uma pequena lista de exercícios (10 exercícios), apenas para orientar os estudos iniciais dos alunos.
João
June 29, 2023
O curso é bem básico, e não gosto muito da ideia de scripts prontos onde só apenas roda os scripts, onde não vemos os erros que podem acontecer e nem uma clara compreensão da escrita do código.
William
April 9, 2023
Até agora tudo certo, avançao no aprendizado acredito que entremos mais no assunto de utilizar uma ou outra linguagem na manipulação de dados
Rafael
April 7, 2023
Parabens pela didatica! Muito bacana a forma que voce tras o conteudo, de uma forma leve e sem complicar, principalmente para quem esta entrando nesse mundo.
Claudio
April 6, 2023
Os cursos do Grimaldo são sempre excelentes. Já avalio logo no início com 5 estrelas, sem medo de errar.
Gabriel
March 17, 2023
Gostei parcialmente. O professor entende bastante do conteúdo, deixou bons ensinamentos. Mas eu preferia ir codando em tempo real, nem que fosse demorar mais as aulas, do que fazer CTRL C e CTRL V. Particularmente prefiro assim.
MARCUS
February 13, 2023
Muito bom.... Atendeu as minhas expectativas. Não é um curso profundo, más é uma ótima base de entrada para as tecnologias databricks e spark/pyspark... O professor explica com muita tranquilidade..... Os recursos de audio, videos, apostila com códigos e slides... são ótimos!!!! Recomendo para todos que estão começando!!! Agradeço ao Professor!!! Fiquem com Deus.
Edilson
October 19, 2022
Curso extremamente prático e muito bem elaborado. O mestre Grimaldo é super didático e possui profundo conhecimento em todos os tópicos apresentados. Gostei bastante do curso e o indico para aqueles que desejam aprender na prática sobre PySpark tanto on premise quanto na nuvem com Databricks que é uma das plataformas mais utilizadas para manipulação de grandes volumes de dados. Nota 5 é pouco para um curso tão bom quanto esse. Parabéns mestre Grimaldo, com certeza farei muitos outros cursos elaborados por você.
Ricardo
May 26, 2022
Superou as minhas expectativas. Excelente didática, excelente material didático. Uma combinação cirúrgica de teoria e prática. Obrigado professor Grimaldo por compartilhar conosco um pouco do seu conhecimento.
Gabriel
February 5, 2022
O curso possui quase 7 horas, sendo q o primeiro bloco é um outro curso todo que tem do Grimaldo na Udemy. Como o primeiro foi muito bom, esperava mais desse. Acredito que mereça uma atualizada, existem muitos assuntos de PySpark que poderiam ter sido abordados
Clovis
November 2, 2021
Conteúdo muito bom, o curso contém uma breve explicação antes de cada tópico em seguida vem a parte prática. Eu consegui fazer quase tudo no Databricks. Para quem vem do mundo SQL sabe que entre as distribuição de bancos de dados sempre tem algo particular de cada distribuição isso vale para o spark (Databricks, EMR e etc).

Charts

Price

Databricks e PySpark: analisando dados - Price chart

Rating

Databricks e PySpark: analisando dados - Ratings chart

Enrollment distribution

Databricks e PySpark: analisando dados - Distribution chart
4232528
udemy ID
8/9/2021
course created date
8/18/2021
course indexed date
Bot
course submited by