Databricks Delta Lake + APACHE HOP: Carga e Dados
Unindo as grandes ferramentas de ingestão de dados e operacionalização de dados no Databricks
4.50 (2 reviews)

21
students
10 hours
content
Oct 2024
last update
$19.99
regular price
What you will learn
Entendendo a arquitetura chamada Lakehouse sobre o Data Lake no Databricks
Construindo Delta Lake com processamento em batch, streaming em lote
Controle de transações sobre os dados, como um banco de dados
Trabalhando com características ACID (Atomicidade, Consistência, Isolamento, Durabilidade) ao Delta Lake
Entendendo versionamento dos dados, permite que os dados sejam acessados e revertam para versões anteriores de dados, controle de históricos
Uso das fases de ingestão, refinamento e enriquecimento dos dados
Diferenças das arquiteturas Data Lake x Delta Lake
Aprendendo como otimização dos processos de coleta e tratamento dos dados, reduzindo o tempo de processamento e descartando o que não for útil
Trabalhando a criação de tabelas Delta e como gerar históricos de dados
Trabalhando com cluster, DBFS, Notebook em R, Scala, Pyhton e SQL
Delta Time Travel como retornar versões de dados e comandos de controle
Controle de auditoria, agindo na conformidade de dados quanto de depuração simples para entender como os dados mudaram ao longo do tempo
Executando reversões nos dados, evitando duplicação e realizando refinamento, ajustes, atualizações e exclusões dos dados
Executando scripts batch e streaming
Entendo o que significa checkpoint e controle de gravações dos dados
Trabalhando com Schema Evolution na inclusão de atributos as tabelas delta
O que é Hop Orchestration Platform
Entendendo sobre fluxos de trabalho e pipelines
Entendendo sobre projetos e ambientes
Instalação do APACHE HOP
Criando pipelines com arquivos texto
Realizando tratamento de dados para entendimento do processo de engenharia de dados
O que são transformações, links e ações dentro de um pipeline
Construindo um workflow, orquestrador da sequência das operações
Entendendo o HOP GUI e seus componentes
Entendendo menu barras, principal e perspectivas
Criando sua área de projetos
Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output
Entendendo o que é : View output, Preview output , Debug output
Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exis
Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
Construindo Workflow com execução de pipelines
Entendo o uso de variáveis globais no APACHE HOP
Automatização de pipeline ou workflow pelo HOP-RUN
Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
Instalação de banco de dados Postgresql, usando PGAdmin
O que é Business Intelligence (BI)
O que é Data Warehouse (DW)
Como criar as tabelas staging, dimensão e fato
Construção da carga dim_tempo
Como o APACHE HOP pode se tornar um integrador de dados e construção de projetos de DW
Entendendo o que é HOP projects
Como funciona um pipeline e um workflow
Interface de trabalho do APACHE HOP
Instalação do APACHE HOP e do banco Postgres
Entendendo sobre Modelagem Multidimensional
Preparação de dados e construção de pipelines e workflow das cargas do DW
O que são dimensões Slow Change Dimension 1 e 2
Executando os pacotes via HOP RUN
Construindo o tratamento de dados e ajustes em campos
Identificando as informações inconsistentes e armazenando no DW para ajustes
Related Topics
4926844
udemy ID
10/13/2022
course created date
10/22/2022
course indexed date
Bot
course submited by