image

Access unlimited bootcamps and 650+ courses forever

60
%OFF
Article image
Ana Teixeira
Ana Teixeira13/03/2025 22:19
Share
Nexa - Análise Avançada de Imagens e Texto com IA na AWSRecommended for youNexa - Análise Avançada de Imagens e Texto com IA na AWS

5 passos para a sua primeira análise de dados

    Olá, eu sou Ana Luíza e sou uma “entry-level data analyst”. Ou seja, eu tenho o nível de uma analista de dados pronta para entrar no mercado. Eu realizei uma trilha de oito cursos da Google sobre análise de dados e realizei um estudo de caso como projeto final para oitavo curso. Neste artigo, compartilharei minha experiência com o meu primeiro estudo de caso.


    1° passo: Pergunte (ASK):


    Ao receber-se um projeto, recebe-se também uma “business task”, que nada mais é do que um objetivo específico ou um problema que uma organização confiará à você. Essa business task guiará a sua análise de dados. Caso você esteja realizando um estudo de caso por conta própria, você definirá a business task. Algumas perguntas que podem ser feitas durante esta etapa são:

    1.  Quais são as métricas que eu usarei para mensurar os dados?
    2. Quem são os stakeholders interessados nos resultados dessa análise?
    3.  Que fatores podem influenciar o resultado dessa análise?


    No meu caso, a minha business task era estudar o comportamento dos clientes anuais e casuais de uma empresa de compartilhamentos de bicicleta de Chicago.

    As métricas que eu utilizei foram: média do tempo de viagem dos clientes, moda do dia da semana, e o máximo de tempo de viagem registrado.


    2° passo: Prepare-se (PREPARE):


    Após receber ou definir a business task, começa-se a coletar os dados. Algumas fontes de dados disponíveis são:

    1.  Kaggle: O Kaggle é uma plataforma com diversos datasets disponíveis. Além de datasets, há cursos, competições e discussões dais quais os usuários podem participar.
    2. Sites do GOV: Existem dados disponibilizados pelo governo de forma aberta à todos para pesquisa, para o desenvolvimento de aplicativos e para a criação de novos serviços.
    3. Roboflow Universe (semelhante ao Kaggle)
    4.  Data.world (também semelhante ao Kaggle)


    Vale a pena recordar que Web-Scrapping para a coleta de dados, mesmo não sendo uma prática ilegal, deve ser feita com cuidado, já que nem todos concordam e, inclusive, em alguns sites, há uma declaração explícita manifestando que o proprietário do site não deseja que o Web-Scrapping seja utilizado em sua página.

    Além disso, deve-se se atentar a sob qual licença o dataset foi disponibilizado. Algumas licenças permitem que o dataset seja transformado e que outros trabalhos, mesmo comerciais, sejam feitos sob esse dataset, enquanto outras licenças permitem apenas que o dataset seja baixado com os devidos créditos dados ao autor e não pode ser alterado, seja por propósitos comerciais ou não.

    O dataset que eu utilizei foi disponibilizado pela Divvy sob a licença Divv especificada pela empresa. Eu pude fazer a análise e realizar transformações no dataset pois a licença permitia.


    3° passo: Processamento (PROCESS):


    Nesta etapa, escolhe-se as ferramentas que serão utilizadas para a transformação e análise dos dados. Algumas ferramentas que podem ser utilizadas são: Linguagem R, Python, Excel e Google Sheets. Algumas das mais importantes transformações a serem feitas em datasets são:

    1.  Remoção de valores vazios
    2.  Remoção de valores Null
    3.  Remoção de Outliers (valores muito distantes da média) que podem atrapalhar a análise
    4. Substituição de valores

    No estudo de caso que realizei, eu utilizei principalmente o Excel e o Google Sheets para a transformação de dados. Para iniciar, removi linhas que possuíam um valor vazio em alguma coluna e deletei colunas que não eram relevantes para o objetivo da análise. No meu caso, como não seria feita uma análise preditiva com machine learning, concluí que o interessante seria manter mais nomes do que números.

    Assim, eu mantive os dados sobre data e horário do momento em que o cliente alugou a bicicleta, data e horário de quando a bicicleta foi devolvida, o nome do ponto de partida da viagem, o nome do ponto final da viagem, enquanto deletei valores puramente numéricos que não interessariam na análise, como o id do local de chegada, id do local de destino, latitudes e longitudes. Ou seja: eu tentei manter mais nomes do que números, porém mantive os dados numéricos que seriam necessários para os cálculos das métricas.

    Após isso, utilizei fórmulas para criar uma coluna com os dados de data transformados no nome do dia da semana e para transformar os nomes dos dias da semana em valores numéricos. Isso foi necessário pois a fórmula que permite calcular a moda dos dias da semana só aceitava valores numéricos. Por isso, fiz essa transformação e deixei uma legenda para que eu entendesse a qual número cada dia da semana se referia ( Domingo era o dia 7, Segunda era o dia 1, e assim por diante).

    Em seguida, calculei o tempo pelo qual cada cliente alugou a bicicleta, calculei a média de tempo de uso, calculei a moda do dia da semana e calculei o tempo máximo que um cliente alugou a bicicleta.

    O resultado da análise já está disponível no meu perfil no Kaggle e, em breve, no meu Github colocarei um relatório com toda a documentação detalhada da transformação de dados e da análise.


    4° passo: Análise (ANALYZE):


    Após garantir que os dados estão estruturados corretamente e garantir que os dados estão organizados, a análise pode ser iniciada. Nessa etapa, verifica-se quais são as tendências que os dados revelam e tenta-se descobrir qual é a história contada pelos dados.

    No meu caso, utilizei PivotTables e PivotCharts para me ajudar. O meu principal desafio foi entender por qual motivo, a partir de Junho, o comportamento dos clientes anuais mudava subitamente. Por exemplo, eu teria que descobrir por que alguém, em um horário próximo da meia-noite, alugou uma bicicleta para devolve-la em um horário próximo do dia seguinte.

    Nesse momento, eu utilizei Inteligência Artificial para descobrir quais eventos ocorreram entre Julho e Agosto em Chicago e, desse modo, eu recebi uma lista de eventos culturais e festivais que ocorriam em Chicago nesse período. O passo seguinte foi verificar no site desses eventos listados quais de fato ocorreram no ano do meu dataset e quais foram os locais.

    Com o Python, eu gerei uma visualização dos caminhos mais percorridos para comparar com os locais dos eventos e utilizei Inteligência Artificial e o Mapa de Chicago para entender se os destinos do meu dataset correspondiam aos dos eventos ou se correspondiam a locais próximos.


    5° passo: Divulgue (SHARE):


    Nessa etapa, planeja-se como os resultados da análise serão apresentados. Comunicar os resultados de forma fidedigna e adequado ao público é tão importante quanto as etapas anteriores. Há diversas ferramentas que podem ser usadas para criar-se essas visualizações e algumas são o Python, O Excel, o PowerPoint e o Tableau. O Excel permite a criação de gráficos, tabelas dinâmicas (pivot table) e gráficos dinâmicos (pivot chart), os quais podem ser copiados e colados em um relatório ou mesmo transformados em imagens. O Python permite igualmente a criação de gráficos.

    O Tableau permite a criação de visualizações de forma fácil, utilizando-se uma interface de “drag and drop”. Ou seja: Você arrasta para a tela os dados a serem inclusos na visualização e arrasta para organizar como os dados são organizados sem requerer habilidades de programação.

    No meu estudo de caso, usei gráfico de barras e gráfico de barras na horizontal, além dos dataframes do Python.

    Extra: Principais erros que cometi durante o meu primeiro estudo de caso:


    1. Não me atentar se o formato CSV com vírgulas estava perdendo dados quando eu alternava de ferramenta, o que resultou em eu ter que recomeçar com a cópia do arquivo original modificada em XLSX
    2.  Não padronizar a letra onde eu colocaria cada coluna nova que criei, o que apenas deu um pouco de trabalho desnecessário, já que muitas vezes a fórmula que usei em uma folha de excel do dataset de um mês teria que ser modificada para encontrar o valor de entrada correto
    3.  Alternar demais entre ferramentas, fazendo com que a transformação demorasse mais do que era necessário
    4.  Manter cópias demais: Ao invés de manter uma cópia do arquivo original, o arquivo que eu estava usando e somente criar outra cópia caso eu fosse fazer uma grande alteração, eu criava cópias mesmo que a transformação não fosse grande. Isso fez com que eu ficasse com diversos arquivos, tornando o processo desnecessariamente complicado e, no fim, me fez perder tempo , já que eu tive que recomeçar

    Agora te convido a escolher um dataset e realizar uma análise de dados também seguindo os passos deste artigo. Não tenha medo de errar, pois mesmo os analistas de dados profissionais nem sempre acertam e analistas podem chegar à conclusões diferentes com os mesmos dados. Obrigada por ler até aqui.

    Share
    Recommended for you
    Microsoft Certification Challenge #3 DP-100
    Decola Tech 2025
    Microsoft AI for Tech - Copilot Studio
    Comments (1)

    LD

    Luiz Dias - 13/03/2025 23:01

    Muito bom.

    Recommended for you