image

Acesse bootcamps ilimitados e +650 cursos pra sempre

60
%OFF
Article image
Anderson Silva
Anderson Silva01/09/2023 19:38
Compartilhe

O Conceito do Microsoft Fabric: Uma Abordagem Abrangente para Análise de Dados Empresariais

    Na presente semana, durante o evento Microsoft Build, tivemos a satisfação de anunciar o futuro promissor que nos aguarda. Essa foi uma frase impactante tradiza pela Microsoft e me despertou uma expectativa quanto ao MS Fabric.

    image

    De acordo com a documentação oficial, "o Microsoft Fabric é uma solução analítica completa para empresas, abrangendo desde a movimentação de dados até a ciência de dados, análise em tempo real e inteligência de negócios". O Fabric é implementado como um serviço SaaS, contemplando diversos tipos de dados, análises e recursos de Business Intelligence (BI), incluindo:

    • Integração de dados
    • Inteligência de negócios
    • Engenharia de dados no contexto da sinapse
    • Armazenamento de dados
    • Ciência de dados
    • Análise em tempo real

    Cabe salientar que este artigo introdutório não tem a pretensão de ser excessivamente técnico ou abrangente. Em vez disso, meu objetivo é compartilhar as informações que foram mais frequentemente abordadas e consistentemente discutidas durante a fase de visualização privada do Fabric - informações e contexto que possibilitarão a compreensão inicial e a inserção dessas informações técnicas em um contexto mais amplo.

    Para aqueles que já estão familiarizados com o Power BI , o Microsoft Fabric apresentará uma sensação de familiaridade desde o primeiro contato. Isso ocorre porque o Fabric é construído sobre a mesma infraestrutura SaaS do Power BI, que já é amplamente utilizada no dia a dia.

    image

    A base SaaS do Microsoft Fabric

    A base do Fabric está em constante evolução e aprimoramento, com a incorporação de novos recursos em diferentes áreas. Contudo, é importante ressaltar que a base do Fabric é a mesma do Power BI. Isso significa que, desde o início, você já possui o conhecimento necessário para utilizar a plataforma:

    • Espaços de trabalho: Os espaços de trabalho do Fabric funcionam de maneira similar aos espaços de trabalho do Power BI, porém com uma gama mais ampla de tipos de elementos disponíveis.
    • Navegação: Se você já sabe navegar pelo portal do Power BI, também estará apto a explorar o portal do Fabric, pois sua estrutura de navegação é bastante similar.
    • Colaboração e gerenciamento de conteúdo: No Fabric, você pode colaborar e compartilhar elementos e espaços de trabalho da mesma forma que faz no Power BI.
    • Capacidades: As novas funcionalidades do Fabric são baseadas no modelo de computação por capacidade, que já é utilizado no Power BI Premium. Caso você ainda não possua capacidade, é possível iniciar uma avaliação gratuita.
    • Administração: A administração do Fabric segue os mesmos princípios utilizados no Power BI, sendo que o portal de administração do Fabric é uma evolução do portal de administração do Power BI. Por meio desse portal, é possível habilitar a visualização do Fabric em sua instância do Power BI ou em uma capacidade específica.
    • E muito mais: Não seria possível listar todos os recursos aqui, tendo em vista a disponibilidade de ampla documentação sobre o assunto.

    Acredito que, a essa altura, já seja possível compreender o panorama. Caso você já esteja familiarizado com o Power BI, adaptar-se ao Fabric será um processo tranquilo. Além disso, é importante destacar que o Power BI continuará a evoluir e trazer inovações emocionantes para a plataforma do Fabric [3], independentemente dos novos recursos.

    image

    Mas o que dizer desses novos recursos? Como lidar com a variedade de possibilidades relacionadas à integração de dados, ciência de dados, engenharia de dados, armazenamento de dados e análise em tempo real? Até que ponto essas novas funcionalidades serão familiares?

    Essa é uma pergunta um pouco mais complexa. Em muitos aspectos, as novas cargas de trabalho do Fabric representam uma evolução dos serviços de dados existentes no Azure, como Azure Synapse, Azure Data Factory e Azure Data Explorer. Esses serviços PaaS consolidados foram aprimorados e atualizados para operar dentro da estrutura SaaS compartilhada do Fabric, integrando-se às experiências dos usuários disponíveis no portal do Fabric.

    Para aqueles que já estão familiarizados com o Azure Synapse, o Azure Data Factory e/ou o Azure Data Explorer, é provável que os novos recursos do Fabric também sejam reconhecíveis. Você já possui conhecimento sobre como trabalhar com pipelines e notebooks, já está familiarizado com a escrita de consultas SQL e KQL - no Fabric, você apenas aplicará esses mesmos conhecimentos em um novo contexto.

    Existem alguns conceitos-chave no Fabric que despertaram dúvidas entre os usuários iniciantes no Power BI durante a fase de visualização privada. Se você ou seus colegas possuem mais experiência com o Azure do que com o Power BI, é importante prestar atenção especial a:

    • Capacidades: O Fabric utiliza o modelo de capacidade para a computação em todas as experiências [4], proporcionando um modelo consistente de cobrança e consumo. No entanto, essa abordagem pode exigir uma mudança de mentalidade para aqueles acostumados a outras formas específicas de cobrança e consumo de serviços.
    • Espaços de trabalho: Outros serviços não apresentam o mesmo conceito de espaços de trabalho como o Power BI e o Fabric... embora alguns possuam conceitos semelhantes com o mesmo nome. Como os espaços de trabalho são ferramentas essenciais para a criação, organização e segurança de conteúdo, é fundamental compreender sua funcionalidade e modo de operação para obter sucesso com o Fabric.
    • Um serviço de dados SaaS "gerenciado": Na maioria dos serviços de dados, o "catálogo" de elementos e suas relações são expressos por meio de metadados de uma instância específica. Isso significa que recursos como descoberta, rastreamento de linhagem e análise de impacto são ausentes, possuem escopo limitado ou estão disponíveis apenas por meio de integração com um catálogo de dados externo ou serviço similar. O Fabric, assim como o Power BI, mantém um catálogo interno de dados para todos os elementos na instância e suas inter-relações. Essas informações são expostas por meio de APIs e integradas às experiências, como visualização da linhagem do espaço de trabalho e hub de dados, facilitando a descoberta, compreensão e utilização dos dados.
    • Além dos aspectos do Fabric que serão familiares para aqueles com experiência no Power BI e do Fabric que serão reconhecíveis para aqueles com experiência em dados do Azure, há uma parte substancial do Fabric que será nova para todos: o OneLake.

    image

    O OneLake é um data lake SaaS que representa um componente fundamental do alicerce do Fabric SaaS [5]. Cada instância do Fabric inclui uma única instância do OneLake, e todas as experiências do Fabric são nativamente integradas aos dados armazenados no lake.

    O OneLake é um ambiente aberto - construído sobre o ADLS Gen2. Isso significa que é possível armazenar qualquer tipo de arquivo e utilizar as mesmas APIs empregadas para se conectar ao ADLS Gen2. Armazenar dados no OneLake não implica em mantê-los restritos ao Fabric - ao contrário, os dados podem ser utilizados conforme necessário, onde quer que seja necessário.

    Por padrão, as experiências do Fabric armazenam os dados no OneLake em arquivos Parquet Delta. O Delta é um formato colunar compactado de código aberto, que oferece suporte a transações ACID e é compatível com uma ampla variedade de ferramentas.

    O armazenamento de dados no OneLake permite o conceito de "armazenar uma vez, usar em qualquer lugar". Isso significa que é possível ingerir e armazenar os dados apenas uma vez, utilizando-os posteriormente em qualquer contexto necessário. É possível ter um único conjunto de arquivos Delta que são expostos como um "lakehouse" e manipulados utilizando notebooks, enquanto são disponibilizados como um "data warehouse" e utilizados através de consultas SQL, além de serem expostos como um conjunto de dados tabulares do Power BI no modo DirectLake. Essa desassociação entre armazenamento e computação é possibilitada pelo OneLake, sendo um dos aspectos mais inovadores do Fabric como um todo.

    Além disso, o OneLake é integrado - a abordagem aberta permite armazenar dados no OneLake e utilizá-los com qualquer ferramenta ou mecanismo de computação de escolha. Os atalhos do OneLake possibilitam manter os dados em sua localização atual, ao mesmo tempo que são logicamente expostos como se estivessem armazenados no OneLake.

    O OneLake eleva o conceito familiar de um data lake a um patamar inesperado: ele é posicionado no centro do trabalho, de forma profundamente integrada às ferramentas e experiências utilizadas por todos aqueles envolvidos em um projeto ou produto.

    Reunindo todas essas novas e familiares possibilidades em uma única plataforma SaaS, o Fabric oferece um conjunto abrangente de experiências aos usuários.

    image

    Os projetos de dados modernos envolvem uma gama diversificada de profissionais - cientistas de dados, engenheiros de dados, desenvolvedores de dados, desenvolvedores de BI, autores de relatórios, entre outros. Anteriormente ao Fabric, cada pessoa geralmente trabalhava com seu próprio conjunto de ferramentas e experiências, cada uma com suas próprias vantagens, limitações e capacidades. Como resultado, a integração entre as ferramentas ao longo do fluxo de trabalho se tornava um desafio, muitas vezes demandando esforços significativos.

    Com o Fabric, cada tarefa e cada profissional dispõe de um conjunto específico de experiências que se integram perfeitamente aos mesmos dados armazenados no OneLake. Isso permite que os profissionais de dados se concentrem em agregar valor por meio de seu trabalho com os dados, sem a necessidade de realizar integrações complexas entre as ferramentas. As equipes podem configurar espaços de trabalho que contêm os dados e os elementos necessários, tais como "lakehouses", data warehouses, notebooks, tarefas de ingestão, pipelines, fluxos de dados, conjuntos de dados, relatórios, e muito mais. Os dados armazenados em um espaço de trabalho podem ser utilizados em outros espaços de trabalho conforme necessário, e graças ao OneLake, é possível armazená-los apenas uma vez e reutilizá-los sem duplicação.

    Durante a fase de visualização privada do Fabric, um Diretor de Dados de uma renomada organização global [6] expressou a seguinte opinião:

    "Com o Fabric, finalmente posso atuar como Diretor de Dados, ao invés de ser apenas um Diretor de Integração."

    É por isso que acredito que o Fabric representa o futuro dos dados.

    Voltemos a 10 ou 12 anos atrás, quando a primeira geração de serviços de dados PaaS estava disponível. Muitos profissionais de dados olharam para esses serviços e os consideraram irrelevantes, questionando a necessidade de utilizar um serviço em nuvem quando possuíam servidores de banco de dados robustos em seus próprios data centers, com subsistemas de IO meticulosamente projetados de acordo com suas especificações. No entanto, ao longo do tempo, percebeu-se o valor e as vantagens da computação em nuvem. Hoje, existem problemas inteiros que simplesmente não existem mais graças à nuvem.

    Acredito que a natureza integrada, aberta e flexível do Fabric como SaaS nos coloca em um ponto de inflexão tão significativo para o gerenciamento de dados quanto o advento da computação em nuvem. O Fabric eliminará problemas que atualmente consideramos óbvios - daqui a alguns anos, consideraremos essa nova plataforma e seu paradigma como algo natural, questionando como um dia acreditamos que esses problemas eram parte aceitável de nossas vidas profissionais.

    Compartilhe
    Comentários (1)

    RR

    Régis Rodrigues - 01/09/2023 21:20

    Muito interessante o conteúdo Andersom, sinto falta de postagens assim, mais detalhadas.