Arquitetura Medalhão: um conceito Databricks
- #Databricks
A arquitetura Medalhão é um conceito popularizado pela Databricks, uma plataforma que combina o poder de processamento distribuído do Apache Spark com funcionalidades de Data Lakehouse.
Essa arquitetura é usada para estruturar dados de um data lake em camadas, visando melhorar a qualidade e a organização dos dados ao longo do tempo. Essa abordagem se alinha ao conceito de Data Lakehouse, que combina a flexibilidade dos data lakes (armazenamento de grandes volumes de dados não estruturados) com a estruturação de dados de data warehouses.
Saiba mais sobre os conceitos de Data Lake e Data Lakehouse e Data Warehouse.
“Store first, act later,”
Para saber mais sobre como o modelo de lakehouse une o armazenamento escalável e de baixo custo dos data lakes com o processamento eficiente de transações dos data warehouses leia o guia técnico Understanding ETL -Data Pipelines for Modern Data Architectures, de Matt Palmer(2024, 1° ed).
Bibliografia
A arquitetura Medalhão é profundamente estudada no capítulo 5 - Architecting Your Lakehouse, do livro “Delta Lake: The Definitive Guide Modern Data Lakehouse Architectures with Data Lakes”(2024, 1° ed.), escrito por Denny Lee, Prashanth Babu, Tristen Wentling, and Scott Haines.
O livro “Delta Lake: Up and Running - Modern Data Lakehouse Architectures with Delta Lake”(2024, 2° ed.) de Bennie Haelen and Dan Davis, no capítulo 1 - The Evolution of Data Architectures, aborda conceitos essenciais para gestão e análise de dados modernos, especialmente em ambientes Big Data, como Data Warehouse, Data Lake, Data Lakehouse e todo o ecossistema ‘Delta’, trazendo conceito de Arquitetura Medalhão e retomando esse mesmo conceito mais profundamente no capítulo 10 -. Building a Lakehouse on Delta Lake. O livro é focado nos processos data Ingestion, Data Transformation, Data Orchestration, Pipeline Issues and Troubleshooting e Efficiency e Scalability.
Arquitetura Medalhão
A Arquitetura Medalhão processa dados em três camadas distintas de qualidade, garantindo a preservação de todo o histórico de dados.
Camada Bronze / Bronze Layer : Essa camada recebe dados brutos (raw) e não filtrados, geralmente diretamente das fontes de integração.
Camada Prata / Silver Layer : Na Silver Layer os dados são filtrados, limpos e ajustados. Nessa camada, nós podemos aplicar pré-processamento, transformação e enriquecimento dos dados
Camada Ouro / Gold Layer: Na Gold Layer os dados estão geralmente prontos para os stakeholders e alinhados aos Business requirements. Os consumidores da Gold Layer (análises, engenharia) devem consultar as tabelas nessa camada, com pouca necessidade de acessar as tabelas na camada Silver. Geralmente, times que produzem visualizações ou relatórios não acessam outras camadas além da Gold Layer.
Boa semana a todos e bons estudos!