CONHEÇA O PYSPARK PARA ENGENHARIA DE DADOS

Falaaaa galera da DIO, tudo bem com vocês?

Como foram nessa passagem de ano? muito estudo ou aproveitaram para descansar um pouco?

Bem, eu aproveitei para descansar e curtir meu filho. Por isso fiquei um pouco distante da plataforma nas ultimas semanas.

Sem mais delongas vamos para o que interessa.

Afinal o que é o PySpark e qual sua utilidade na engenharia de dados?

Para responder essa pergunta primeiro precisamos saber o que o SPARK. O Spark faz parte do pacote de produtos da Apache. Segundo a definição da Microsoft: "O Apache Spark é uma estrutura de processamento paralelo de código aberto que oferece suporte ao processamento na memória para aumentar o desempenho de aplicativos que analisam big data. As soluções de big data são projetadas para lidar com dados muito grandes ou complexos para bancos de dados tradicionais. O Spark processa grandes quantidades de dados na memória, o que é muito mais rápido do que as alternativas baseadas em disco."

Ou seja: Spark é um framework de código fonte aberto para computação distribuída. Foi desenvolvido no AMPLab da Universidade da Califórnia e posteriormente repassado para a Apache Software Foundation que o mantém desde então. Spark provê uma interface para programação de clusters com paralelismo e tolerância a falhas.

Aqui já começa a ficar claro o que é PySpark, essa palavra é a junção da linguagem de programação Python com o framework Spark. Em outras palavras, une-se a linguagem de programação mais usada para processamento de dados com um framework que acelera o processamento de um grande volume de dados, sendo assim possível trabalhar com BigData sem um consumo absurdo de memoria local (em disco).

Além de tudo isso o PySpark pode ser usado em ambientes Cloud, como: GCP, AZURE e AWS. Facilitando ainda mais o processamento de um grande volume de dados.

Para trabalhar esse conceitos estou desenvolvendo um projeto de Engenharia de Dados, com:

Definição de Pipelines;
Desenho da Solução;
Definição de Escopo de Projeto;
Tecnologias utilizadas;
Desenvolvimento de Scripts em Python usando o Framework PySpark.

Todo esse processo pode ser conferido no meu GitHub através do link: https://github.com/ubiratan-motta/data_engineering_end_to_end

Se gostou desse conteúdo deixe o seu UpVote, um comentário e compartilhe aqui também o que está estudando/desenvolvendo.