Databricks Delta Lake + APACHE HOP: Carga e Dados

Unindo as grandes ferramentas de ingestão de dados e operacionalização de dados no Databricks

4.50 (2 reviews)

Udemy

platform

Português

language

Data Science

What you will learn

Entendendo a arquitetura chamada Lakehouse sobre o Data Lake no Databricks

Construindo Delta Lake com processamento em batch, streaming em lote

Controle de transações sobre os dados, como um banco de dados

Trabalhando com características ACID (Atomicidade, Consistência, Isolamento, Durabilidade) ao Delta Lake

Entendendo versionamento dos dados, permite que os dados sejam acessados e revertam para versões anteriores de dados, controle de históricos

Uso das fases de ingestão, refinamento e enriquecimento dos dados

Diferenças das arquiteturas Data Lake x Delta Lake

Aprendendo como otimização dos processos de coleta e tratamento dos dados, reduzindo o tempo de processamento e descartando o que não for útil

Trabalhando a criação de tabelas Delta e como gerar históricos de dados

Trabalhando com cluster, DBFS, Notebook em R, Scala, Pyhton e SQL

Delta Time Travel como retornar versões de dados e comandos de controle

Controle de auditoria, agindo na conformidade de dados quanto de depuração simples para entender como os dados mudaram ao longo do tempo

Executando reversões nos dados, evitando duplicação e realizando refinamento, ajustes, atualizações e exclusões dos dados

Executando scripts batch e streaming

Entendo o que significa checkpoint e controle de gravações dos dados

Trabalhando com Schema Evolution na inclusão de atributos as tabelas delta

O que é Hop Orchestration Platform

Entendendo sobre fluxos de trabalho e pipelines

Entendendo sobre projetos e ambientes

Instalação do APACHE HOP

Criando pipelines com arquivos texto

Realizando tratamento de dados para entendimento do processo de engenharia de dados

O que são transformações, links e ações dentro de um pipeline

Construindo um workflow, orquestrador da sequência das operações

Entendendo o HOP GUI e seus componentes

Entendendo menu barras, principal e perspectivas

Criando sua área de projetos

Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output

Entendendo o que é : View output, Preview output , Debug output

Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exis

Leitura de dados em uma API: Rest Client, JSON Input, JSON Output

Construindo Workflow com execução de pipelines

Entendo o uso de variáveis globais no APACHE HOP

Automatização de pipeline ou workflow pelo HOP-RUN

Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão

Instalação de banco de dados Postgresql, usando PGAdmin

O que é Business Intelligence (BI)

O que é Data Warehouse (DW)

Como criar as tabelas staging, dimensão e fato

Construção da carga dim_tempo

Como o APACHE HOP pode se tornar um integrador de dados e construção de projetos de DW

Databricks Delta Lake + APACHE HOP: Carga e Dados

What you will learn

Entendendo a arquitetura chamada Lakehouse sobre o Data Lake no Databricks

Construindo Delta Lake com processamento em batch, streaming em lote

Controle de transações sobre os dados, como um banco de dados

Trabalhando com características ACID (Atomicidade, Consistência, Isolamento, Durabilidade) ao Delta Lake

Entendendo versionamento dos dados, permite que os dados sejam acessados e revertam para versões anteriores de dados, controle de históricos

Uso das fases de ingestão, refinamento e enriquecimento dos dados

Diferenças das arquiteturas Data Lake x Delta Lake

Aprendendo como otimização dos processos de coleta e tratamento dos dados, reduzindo o tempo de processamento e descartando o que não for útil

Trabalhando a criação de tabelas Delta e como gerar históricos de dados

Trabalhando com cluster, DBFS, Notebook em R, Scala, Pyhton e SQL

Delta Time Travel como retornar versões de dados e comandos de controle

Controle de auditoria, agindo na conformidade de dados quanto de depuração simples para entender como os dados mudaram ao longo do tempo

Executando reversões nos dados, evitando duplicação e realizando refinamento, ajustes, atualizações e exclusões dos dados

Executando scripts batch e streaming

Entendo o que significa checkpoint e controle de gravações dos dados

Trabalhando com Schema Evolution na inclusão de atributos as tabelas delta

O que é Hop Orchestration Platform

Entendendo sobre fluxos de trabalho e pipelines

Entendendo sobre projetos e ambientes

Instalação do APACHE HOP

Criando pipelines com arquivos texto

Realizando tratamento de dados para entendimento do processo de engenharia de dados

O que são transformações, links e ações dentro de um pipeline

Construindo um workflow, orquestrador da sequência das operações

Entendendo o HOP GUI e seus componentes

Entendendo menu barras, principal e perspectivas

Criando sua área de projetos

Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output

Entendendo o que é : View output, Preview output , Debug output

Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exis

Leitura de dados em uma API: Rest Client, JSON Input, JSON Output

Construindo Workflow com execução de pipelines

Entendo o uso de variáveis globais no APACHE HOP

Automatização de pipeline ou workflow pelo HOP-RUN

Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão

Instalação de banco de dados Postgresql, usando PGAdmin

O que é Business Intelligence (BI)

O que é Data Warehouse (DW)

Como criar as tabelas staging, dimensão e fato

Construção da carga dim_tempo

Como o APACHE HOP pode se tornar um integrador de dados e construção de projetos de DW

Entendendo o que é HOP projects

Como funciona um pipeline e um workflow

Interface de trabalho do APACHE HOP

Instalação do APACHE HOP e do banco Postgres

Entendendo sobre Modelagem Multidimensional

Preparação de dados e construção de pipelines e workflow das cargas do DW

O que são dimensões Slow Change Dimension 1 e 2

Executando os pacotes via HOP RUN

Construindo o tratamento de dados e ajustes em campos

Identificando as informações inconsistentes e armazenando no DW para ajustes