image

Acesse bootcamps ilimitados e +650 cursos pra sempre

60
%OFF
Article image
Laura Colombo
Laura Colombo24/03/2025 16:36
Compartilhe
Microsoft Certification Challenge #3 DP-100Recomendados para vocêMicrosoft Certification Challenge #3 DP-100

Guia Rápido de Pandas: Principais Comandos e Dicas

    Olá, DIO friends!

    Sempre que estou aprendendo uma nova tecnologia, gosto de criar um guia geral para facilitar a consulta no começo.

    Neste artigo, aproveitei o desafio da DIO Campus Expert para compartilhar um guia sobre a biblioteca Pandas.

    O Pandas é uma biblioteca essencial para análise de dados em Python, permitindo manipulação eficiente e intuitiva de tabelas e séries temporais (parte que particularmente me interesso muito).

    Este guia rápido foi criado para quem quer consultar os comandos mais importantes sem perder tempo ou quer revisar rapidinho os comandos principais. Seja você cientista de dados, analista ou estudante, espero que este guia seja útil quando bater aquele branco no meio do desenvolvimento! :)

    1. Primeiramente

    Se ainda não tiver instalado, use:

    pip install pandas
    

    (ou utilize o Google Colab haha)

    2. Criação de DataFrames e Séries

    import pandas as pd  
    df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  
    s = pd.Series([10, 20, 30])  
    

    💡 Dica: Sempre verifique o tipo dos dados com df.dtypes, pois erros comuns ocorrem quando um número é interpretado como string. Além disso, ao criar DataFrames ou Séries, é uma boa prática definir explicitamente o tipo de dados (dtype) para evitar erros de interpretação.

    3. Carregamento e Salvamento de Arquivos

    df = pd.read_csv('arquivo.csv')  
    df.to_csv('saida.csv', index=False)  
    df = pd.read_excel('arquivo.xlsx')  
    df.to_excel('saida.xlsx', index=False)  
    

    💡 Dica: Ao carregar arquivos, sempre defina explicitamente o encoding para evitar problemas com caracteres especiais. Para exportar, o utf-8 é recomendado para garantir a compatibilidade de caracteres. Exemplo:df.to_csv('saida.csv', index=False, encoding='utf-8')

    4. Visualização de Dados

    df.head()  # Primeiras linhas  
    df.tail()  # Últimas linhas  
    df.info()  # Informações gerais  
    df.describe()  # Estatísticas básicas  
    

    💡 Dica: Para visualizar todos os tipos de dados corretamente e identificar colunas que consomem muita memória, use df.info(memory_usage='deep'). Isso ajuda a otimizar o uso de memória ao trabalhar com grandes conjuntos de dados.

    5. Seleção e Filtragem

    df['A']  # Selecionar coluna  
    df.loc[0]  # Selecionar linha pelo índice  
    df.iloc[0, 1]  # Selecionar pelo índice numérico  
    df[df['A'] > 1]  # Filtragem condicional  
    

    💡 Dica: Para múltiplas condições, você pode usardf.query('A > 1 and B < 6') em vez de df[(df['A'] > 1) & (df['B'] < 6)]. Isso torna o código mais legível e evita erros de sintaxe.

    6. Manipulação de Dados

    df['Nova'] = df['A'] * 2  # Criar nova coluna  
    df.drop(columns=['B'], inplace=True)  # Remover coluna  
    df.dropna(inplace=True)  # Remover valores nulos  
    df.fillna(0, inplace=True)  # Preencher valores nulos  
    

    💡 Dica: Ao remover valores nulos de colunas específicas, use df.dropna(subset=['A', 'B'], inplace=True) para ter mais controle sobre o que está sendo removido.

    7. Agrupamento e Agregação

    df.groupby('A').sum()  # Agrupar e somar  
    df.pivot_table(values='B', index='A', aggfunc='mean')  # Tabela dinâmica  
    

    💡 Dica: Para contar a quantidade de registros em cada grupo, use df.groupby('A').size() em vez de df.groupby('A').count(), pois isso ignora valores nulos.

    8. Ordenação de Dados

    df.sort_values(by='A', ascending=False)  
    

    💡 Dica: Quando houver valores nulos, use na_position='first' para colocá-los no início ou na_position='last' para colocá-los no final da ordenação.

    9. Exportação de Dados

    df.to_csv('arquivo_final.csv', index=False)  
    df.to_excel('arquivo_final.xlsx', index=False)  
    

    💡 Dica: Se for salvar grandes DataFrames, utilize df.to_parquet('dados.parquet'), pois o formato Parquet é muito mais eficiente que CSV.

    -----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

    Agora que você conhece os principais comandos do Pandas, que tal testá-los em seus projetos? E se tiver mais dicas ou dúvidas, compartilhe nos comentários!

    No futuro, pretendo escrever um artigo focado especificamente no uso do Pandas para séries temporais. Esse tema te interessa? Deixe seu comentário! 😉

    Compartilhe
    Recomendados para você
    Microsoft AI for Tech - Azure Databricks
    Microsoft Certification Challenge #3 DP-100
    Decola Tech 2025
    Comentários (1)
    DIO Community
    DIO Community - 24/03/2025 17:49

    Muito bom, Laura! O seu guia rápido sobre o Pandas está super completo e direto ao ponto. Como você bem explicou, a biblioteca é essencial para quem trabalha com análise de dados em Python, e suas dicas práticas, como a importância de verificar o tipo de dados com df.dtypes e otimizar o uso de memória com df.info(memory_usage='deep'), são valiosas para quem está começando ou até para os mais experientes que querem otimizar seus fluxos de trabalho.

    É ótimo ver como você compartilhou tanto a teoria quanto exemplos práticos para mostrar o poder do Pandas, principalmente ao falar sobre manipulação de dados e como usar as funções de filtragem e agrupamento de maneira eficiente. Isso com certeza vai ajudar muita gente que tem dúvidas sobre como usar essas funcionalidades de maneira mais inteligente.

    Recomendados para vocêMicrosoft Certification Challenge #3 DP-100