image

Acesse bootcamps ilimitados e +650 cursos pra sempre

60
%OFF
Article image
Regilene Silva
Regilene Silva05/09/2024 14:41
Compartilhe
Microsoft Certification Challenge #3 DP-100Recomendados para vocêMicrosoft Certification Challenge #3 DP-100

Arquitetura Medalhão: um conceito Databricks

  • #Databricks

A arquitetura Medalhão  é um conceito popularizado pela Databricks, uma plataforma que combina o poder de processamento distribuído do Apache Spark com funcionalidades de Data Lakehouse.

Essa arquitetura é usada para estruturar dados de um data lake em camadas, visando melhorar a qualidade e a organização dos dados ao longo do tempo. Essa abordagem se alinha ao conceito de Data Lakehouse, que combina a flexibilidade dos data lakes (armazenamento de grandes volumes de dados não estruturados) com a estruturação de dados de data warehouses.

Saiba mais sobre os conceitos de Data Lake e Data Lakehouse e Data Warehouse.

“Store first, act later,”

Para saber mais sobre como  o modelo de lakehouse une o armazenamento escalável e de baixo custo dos data lakes com o processamento eficiente de transações dos data warehouses leia o guia técnico Understanding ETL -Data Pipelines for Modern Data Architectures, de Matt Palmer(2024, 1° ed).

Bibliografia

A arquitetura Medalhão é profundamente estudada no capítulo 5 - Architecting Your Lakehouse, do livro “Delta Lake: The Definitive Guide Modern Data Lakehouse Architectures with Data Lakes”(2024, 1° ed.), escrito por Denny Lee, Prashanth Babu, Tristen Wentling, and Scott Haines. 


O livro “Delta Lake: Up and Running - Modern Data Lakehouse Architectures with Delta Lake”(2024, 2° ed.) de Bennie Haelen and Dan Davis, no capítulo 1 - The Evolution of Data Architectures,  aborda conceitos essenciais para gestão e análise de dados modernos, especialmente em ambientes Big Data, como Data Warehouse, Data Lake, Data Lakehouse e todo o ecossistema ‘Delta’, trazendo conceito de Arquitetura Medalhão e retomando esse mesmo conceito  mais profundamente no capítulo 10 -. Building a Lakehouse on Delta Lake. O livro é focado nos processos data Ingestion, Data Transformation, Data Orchestration, Pipeline Issues and Troubleshooting e Efficiency e Scalability.


Arquitetura Medalhão

image

A Arquitetura Medalhão processa dados em três camadas distintas de qualidade, garantindo  a preservação de todo o histórico de dados.

Camada Bronze / Bronze Layer : Essa camada recebe dados brutos (raw) e não filtrados, geralmente diretamente das fontes de integração. 

Camada Prata / Silver Layer : Na Silver Layer os dados são filtrados, limpos e ajustados. Nessa camada, nós podemos aplicar pré-processamento, transformação e enriquecimento dos dados

Camada Ouro /  Gold Layer: Na Gold Layer os dados estão geralmente prontos para os stakeholders e alinhados aos Business requirements. Os consumidores da Gold Layer (análises, engenharia) devem consultar as tabelas nessa camada, com pouca necessidade de acessar as tabelas na camada Silver. Geralmente, times que produzem visualizações ou relatórios não acessam outras camadas além da Gold Layer.

Boa semana a todos e bons estudos!

Compartilhe
Recomendados para você
Microsoft AI for Tech - Azure Databricks
Microsoft Certification Challenge #3 DP-100
Decola Tech 2025
Comentários (1)

AR

Andre Regino - 09/11/2024 16:55

Muito bom seu artigo, estamos vivendo isso aqui na pratica. A gente também implemento a camada landing para algumas situações

Recomendados para você