Fundamentos de Business Intelligence + Pyspark SPARK
Aprenda tudo sobre Business Intelligence e construa pipelines em Spark com python
What you will learn
Conceitos Básicos de Business Intelligence
Fundamentos de Business Intelligence
O que é um Data Warehouse
O que é Staging Area, ETL, OLAP, Data Mart, Data Mining, Big Data
BI (Business Intelligence) para Concursos
Resolução de 50 questões de BI dos Principais Concursos
Resumo BI em formato PDF com detalhes sobre todos os assuntos
O que é Data Mining
Definição sobre Big Data
O que é PYSPARK
O que é SPARK
Instalando o SPARK em um ambiente Windows, configurando
Instalando o ANACONDA
Instalando a JDK
Entendendo o ecossistema : Apache Spark + Anaconda + JAVA
Entendendo o conceito de NÓ, CLUSTER
Conhecendo os módulos e pacotes do PYSPARK
O que é SparkContext
Entendo o que é RDD (Resilient Distributed Dataset)
Trabalhando com Spark Dataframe
Compreendendo as diferenças entre transformações e ações, operações com PYSPARK
Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take
Aprendendo o que é uma função Lambda
Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy
Monitoramento de jobs com SPARK UI
O que é SparkSession
Leitura de arquivos externos
SPARK SQL
Leitura de dados em JSON
Why take this course?
Agora você estará aprendendo o que realmente interessa na área de dados com o entendimento sobre o mundo do Business Intelligence e tudo que existe sobre o assunto, alinhado a construção de projetos de dados avançados com o uso de Pyspark dentro do SPARK, implantando passo a passo a sua arquitetura.
Iniciaremos nosso treinamento com o RESUMO BI. Um Resumo Completo e Objetivo sobre os Fundamentos de Business Intelligence (BI), é assim que podemos considerar o Resumo BI - Fundamentos de Business Intelligence. Vamos te ajudar a entender os principais conceitos de Business Intelligence como O que é BI, Data Warehouse, OLTP, OLAP, Metadados, Modelagem Dimensional, Data Mining, Big Data, proporcionando a base necessária para oprofissional que quer entrar na áreade BI e ao mesmo tempo servindo de um excelente guia de referência para quem precisa de ummaterial objetivo de BI para concursos.
Depois aprenderemos de forma orquestrada, como funciona o pyspark, que é uma API Python para Apache SPARK que é denominado como o mecanismo de processamento analítico para aplicações de processamento de dados distribuídos em larga escala e aprendizado de máquina, ou seja, para grandes volumes de dados.
O uso da biblioteca Pyspark possui diversas vantagens:
• É um mecanismo de processamento distribuído, na memória, que permite o processamento de dados de forma eficiente e de características distribuída.
• Com o uso do PySpark, é possível o processamento de dados em Hadoop (HDFS), AWS S3 e outros sistemas de arquivos.
• Possui bibliotecas de aprendizado de máquina e gráficos.
• Geralmente as aplicações criadas e executadas no PySpark são 100x mais rápidas que outras em sistemas de dados conhecidos.
Então venha participar deste grupo de profissionais que utilizam estas tecnologias no seu dia a dia.