Apresentação do livro: Fundamentals of Data Engineering -Plan and Build Robust Data System
Esta é uma APRESENTAÇÃO do livro “Fundamentals of Data Engineering -Plan and Build Robust Data” , seus capítulos e público alvo. Não é uma resenha crítica, tampouco apresenta argumentos autorais.
IDENTIFICAÇÃO
Título: Fundamental of Data Engineering -Plan and Buid Robust Data
Autores: Joe Reis and Matt Housley
Editora: Oreilly
Ano de publicação: 2022
Edição: 1º edição July 2022
RESUMO GERAL
O tema central do livro é o ciclo de vida da engenharia de dados: geração de dados, armazenamento, ingestão, transformação e entrega. Os autores mapeiam princípios que abrangem dois eixos: Primeiro, o refinamento da engenharia de dados em princípios que possam englobar qualquer tecnologia relevante. Segundo, apresentando princípios que resistem ao teste do tempo. Pois, segundo os autores, desde o surgimento dos dados, há a ascensão e queda de inúmeras tecnologias e produtos de diferentes fornecedores, mas as etapas do ciclo de vida da engenharia de dados permaneceram essencialmente inalteradas.
A intenção da obra é preencher uma lacuna nos conteúdos e materiais atuais sobre engenharia de dados. Embora haja uma abundância de recursos técnicos que abordam ferramentas e tecnologias específicas de engenharia de dados, os autores afirmam que muitas pessoas têm dificuldade em entender como montar esses componentes em um todo coerente que se aplique no mundo real. Por isso, a obra tem por objetivo conectar os pontos do ciclo de vida de dados de ponta a ponta. Mostrando como integrar diversas tecnologias para atender às necessidades dos consumidores de dados, como analistas, cientistas de dados e engenheiros de aprendizado de máquina.
As contribuições do conteúdo vão desde sobre como usar o ciclo de vida da engenharia de dados para projetar e construir uma arquitetura robusta às melhores práticas para cada estágio do ciclo de vida dos dados.
O livro é composto por quatro partes:
- Parte I, “Fundamentos e Blocos de Construção” ( Foundation and Building Blocks)
- Parte II, “O Ciclo de Vida da Engenharia de Dados em Detalhes” (The Data Engineering Lifecycle in Depth)
- Parte III, “Segurança, Privacidade e o Futuro da Engenharia de Dados”(Security, Privacy, and the Future of Data Engineering)
- Apêndices A e B: abordando serialização e compression, e redes em nuvem, respectivamente.(Appendices A and B: covering serialization and compression, and cloud)
CAPÍTULOS
PARTE I
Na parte I, Capítulo 1,os autores começam definindo a engenharia de dados. No capítulo 2, mapeiam o ciclo de vida da engenharia de dados. No Capítulo 3, discutem boas práticas de arquitetura. No Capítulo 4, introduzem frameworks para escolher a tecnologia e discutem a diferença entre tecnologia e arquitetura para engenharia de dados
PARTE II
A parte II é o coração do livro e os outros capítulos existem para dar suporte as ideias centrais abordadas aqui. A Parte II se baseia no Capítulo 2 e discute o ciclo de vida da engenharia de dados em profundidade; é discutido cada estágio do ciclo de vida—geração de dados, armazenamento, ingestão, transformação e entrega— em seu próprio capítulo.
PARTE III
A Parte III aborda tópicos adicionais. No Capítulo 10, é discutida segurança e privacidade. Para os autores, embora a segurança sempre tenha sido uma parte importante da profissão de engenharia de dados, ela se tornou ainda mais crítica com o aumento do hacking para fins lucrativos e ataques cibernéticos patrocinados por estados.
A respeito da Privacidade, eles argumentam que a era do niilismo corporativo em relação à privacidade acabou—nenhuma empresa quer ver seu nome envolvido em práticas negligentes de privacidade. O tratamento imprudente de dados pessoais também pode ter consequências legais significativas com o advento de regulamentações. Em resumo, segurança e privacidade devem ser prioridades em qualquer trabalho de engenharia de dados.
Capítulo 11, descreve as ideias altamente especulativas dos autores sobre o futuro da engenharia de dados. Baseados em pesquisa e entrevistas com inúmeros especialistas, eles refletem sobre o futuro da área, tanto a curto quanto a longo prazo.
APÊNDICES
Nos apêndices, são abordados alguns tópicos técnicos que são extremamente relevantes para a prática diária da engenharia de dados, mas que não se encaixaram no corpo principal do texto.
Especificamente, argumentam que os engenheiros precisam entender serialização e compressão (Apêndice A) tanto para trabalhar diretamente com arquivos de dados quanto para avaliar considerações de desempenho em sistemas de dados. Sobre a nuvem, dissertam sobre a importância desse momento que a engenharia de dados vive.
PÚBLICO ALVO
O público principal para este livro consiste em profissionais técnicos, engenheiros de software de nível médio a sênior, cientistas de dados ou analistas interessados em migrar para a engenharia de dados; ou engenheiros de dados que trabalham no núcleo de tecnologias específicas, mas desejam desenvolver uma perspectiva mais abrangente.
Público secundário inclui stakeholders de dados que trabalham próximos a profissionais técnicos — por exemplo, um líder de equipe de dados com formação técnica supervisionando uma equipe de engenheiros de dados, ou um diretor de armazenamento de dados querendo migrar de tecnologia on-premises para uma solução baseada em nuvem.
Para curiosos que desejam aprender ou se manter atualizado com tecnologias e tendências de dados, lendo livros e artigos sobre armazenamento de dados/data lakes, sistemas de batch e streaming, orquestração, modelagem, gestão, análise, desenvolvimentos em tecnologias de nuvem, etc. O conteúdo do livro vai ajudar a conectar o que o estudante leu/estudou a uma visão completa da engenharia de dados em diferentes tecnologias e paradigmas.
PRÉ- REQUISITOS
Os autores esperam que os leitores tenham alguma familiaridade com SQL e Python (ou outra linguagem de programação), e experiência com serviços de nuvem.
Caso contrário, aos aspirantes a engenheiros de dados, recomendam praticar Python e SQL. Aproveitando os recursos online gratuitos, que são abundantes, e os muitos livros de Python que são publicados todos os anos. Recomendam adquirir experiência prática com ferramentas de dados em nuvem. Sugerindo que configurem contas em serviços de nuvem, como AWS, Azure, Google Cloud Platform, Snowflake, Databricks, etc.
Para os estudantes que ainda não conseguiram seu emprego na área, os autores reconhecem que desenvolver familiaridade com sistemas de dados corporativos fora de um ambiente corporativo ainda é difícil, o que cria certas barreiras.
Como o livro pode ajudar?
Eles sugerem que estudantes da área de dados leiam buscando ideias de alto nível e, em seguida, consultem os materiais na seção de Recursos Adicionais ao final de cada capítulo do livro. Em uma segunda leitura, observem quaisquer termos e tecnologias desconhecidos. Podendo utilizar o Google, Wikipedia, postagens em blogs, vídeos no YouTube e sites de fornecedores para se familiarizar com novos termos e preencher lacunas no seu entendimento.
CONTATO:
EDITORA O'REILLY:
Página para este livro(com erratas e informações adicionais): https://oreil.ly/fundamentals-of-data.
Comentários ou perguntas técnicas: bookquestions@oreilly.com
Para notícias e informações sobre livros e cursos da O'Reilly: https://oreilly.com.
O'Reilly LinkedIn: https://linkedin.com/company/oreilly-media
O'Reilly Canal no YouTube: https://www.youtube.com/oreillymedia
AUTORES:
Espero que essa apresentação contribua para as suas referências bibliográficas.
Bons estudos a todos e bom domingo.