O Básico sobre ETL

Pipeline de ETL

Este artigo tem o intuito de prestar alguns esclarecimentos conceituais sobre a construção de um pipeline de ETL, bem como, auxiliar na sua construção. Para tanto, vamos explanar sobre termos como pipeline de dados, ETL, API e outros que aparecerão ao longo deste trabalho. Com isso, pretendemos facilitar o entendimento sobre o desafio Explorando a IA Generativa em um Pipeline de ETL com Python. Essa tarefa faz parte dos cursos da Digital Innovation (DIO) e a cópia da tarefa está disponibilizada no Git Hub.

Vamos começar com pipeline de dados. Pipeline, nesse caso, é uma sequência de instruções, um passo a passo de uma atividade visando a análise de dados. De acordo com AWS (2023) um pipeline de dados verifica, resume e encontra padrões nos dados, visando a tomada de decisões em negócios. Os principais benefícios de um pipeline de dados são limpar e refinar os dados brutos, padronizar formatos, remove redundâncias, automatizam tarefas de transformação de dados, processam mais rapidamente os dados brutos e integram conjuntos de dados de fontes diferentes.

Já a ETL, é uma ferramenta que realiza a integração de dados em três etapas: a extração de dados (Extract), a transformação desses dados (Transform) e o carregamento dos dados obtidos na transformação (Load). Conforme AWS (2023), uma ETL é um tipo especial de pipeline de dados por seguir a sequência determinada por ela e consiste em uma metodologia para carregamento e alimentação de dados para uma determinada estrutura, por exemplo, um Data Warehouse. Um Data Warehouse é um armazém de dados ou repositório de dados, projetado para armazenar dados estruturados e padronizados. A seguir, avançaremos um pouco mais sobre ETL.

A ETL

Agora, falaremos sobre essas três etapas: Extract, Tranform e Load, cujas iniciais originam o nome dessa ferramenta. Sabemos que toda organização tem seu volume de dados armazenados em algum local, por exemplo um servidor. Entretanto, esses dados são brutos, ou seja, ainda não receberam tratamento adequado para se transformarem em informações. É nessa condição que os dados passam a ter valor para a organização. A ETL resolve isso.

Fontes de dados

A extração busca dados em diversos tipos de fonte, seja uma aplicação, um dispositivo ou outro banco de dados, uma chamada de API, webhook ou processo de duplicação de dados. API é um conjunto de ferramentas, definições e protocolos para a criação de aplicações de software. A sigla vem do inglês (Application Programming Interface). Já a Transformação consiste em operações que alteram os dados extraídos, seja por classificação, reformatação, corte de duplicação, verificação ou validação. Finalmente, carregamento é a operação que remete os dados já transformados, para determinado destino. É o que se chama de endpoint do pipeline de dados. Esse endpoint pode ser um Data Warehouse, um Data Lake ou outra aplicação de análise de dados ou business intelligence.

Referências

AWS; O que é um pipeline de dados?; aws.amazon.com; 2023; Disponível em: https://aws.amazon.com/pt/what-is/data-pipeline/. Acesso em: 22/08/2023.

DIO; Santander Dev Week 2023 (ETL com Python); dio.me; 2023; Disponível em: https://colab.research.google.com/drive/1rtnqy00TvFey41CMnDfycwCyM1HYVnHI#scrollTo=BPJQsTCULaC-. Acesso em: 23/08/2023.