Guia Rápido de Pandas: Principais Comandos e Dicas

Olá, DIO friends!

Sempre que estou aprendendo uma nova tecnologia, gosto de criar um guia geral para facilitar a consulta no começo.

Neste artigo, aproveitei o desafio da DIO Campus Expert para compartilhar um guia sobre a biblioteca Pandas.

O Pandas é uma biblioteca essencial para análise de dados em Python, permitindo manipulação eficiente e intuitiva de tabelas e séries temporais (parte que particularmente me interesso muito).

Este guia rápido foi criado para quem quer consultar os comandos mais importantes sem perder tempo ou quer revisar rapidinho os comandos principais. Seja você cientista de dados, analista ou estudante, espero que este guia seja útil quando bater aquele branco no meio do desenvolvimento! :)

1. Primeiramente

Se ainda não tiver instalado, use:

pip install pandas

(ou utilize o Google Colab haha)

2. Criação de DataFrames e Séries

import pandas as pd  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  
s = pd.Series([10, 20, 30])

💡 Dica: Sempre verifique o tipo dos dados com df.dtypes, pois erros comuns ocorrem quando um número é interpretado como string. Além disso, ao criar DataFrames ou Séries, é uma boa prática definir explicitamente o tipo de dados (dtype) para evitar erros de interpretação.

3. Carregamento e Salvamento de Arquivos

df = pd.read_csv('arquivo.csv')  
df.to_csv('saida.csv', index=False)  
df = pd.read_excel('arquivo.xlsx')  
df.to_excel('saida.xlsx', index=False)

💡 Dica: Ao carregar arquivos, sempre defina explicitamente o encoding para evitar problemas com caracteres especiais. Para exportar, o utf-8 é recomendado para garantir a compatibilidade de caracteres. Exemplo:df.to_csv('saida.csv', index=False, encoding='utf-8')

4. Visualização de Dados

df.head()  # Primeiras linhas  
df.tail()  # Últimas linhas  
df.info()  # Informações gerais  
df.describe()  # Estatísticas básicas

💡 Dica: Para visualizar todos os tipos de dados corretamente e identificar colunas que consomem muita memória, use df.info(memory_usage='deep'). Isso ajuda a otimizar o uso de memória ao trabalhar com grandes conjuntos de dados.

5. Seleção e Filtragem

df['A']  # Selecionar coluna  
df.loc[0]  # Selecionar linha pelo índice  
df.iloc[0, 1]  # Selecionar pelo índice numérico  
df[df['A'] > 1]  # Filtragem condicional

💡 Dica: Para múltiplas condições, você pode usardf.query('A > 1 and B < 6') em vez de df[(df['A'] > 1) & (df['B'] < 6)]. Isso torna o código mais legível e evita erros de sintaxe.

6. Manipulação de Dados

df['Nova'] = df['A'] * 2  # Criar nova coluna  
df.drop(columns=['B'], inplace=True)  # Remover coluna  
df.dropna(inplace=True)  # Remover valores nulos  
df.fillna(0, inplace=True)  # Preencher valores nulos

💡 Dica: Ao remover valores nulos de colunas específicas, use df.dropna(subset=['A', 'B'], inplace=True) para ter mais controle sobre o que está sendo removido.

7. Agrupamento e Agregação

df.groupby('A').sum()  # Agrupar e somar  
df.pivot_table(values='B', index='A', aggfunc='mean')  # Tabela dinâmica

💡 Dica: Para contar a quantidade de registros em cada grupo, use df.groupby('A').size() em vez de df.groupby('A').count(), pois isso ignora valores nulos.

8. Ordenação de Dados

df.sort_values(by='A', ascending=False)

💡 Dica: Quando houver valores nulos, use na_position='first' para colocá-los no início ou na_position='last' para colocá-los no final da ordenação.

9. Exportação de Dados

df.to_csv('arquivo_final.csv', index=False)  
df.to_excel('arquivo_final.xlsx', index=False)

💡 Dica: Se for salvar grandes DataFrames, utilize df.to_parquet('dados.parquet'), pois o formato Parquet é muito mais eficiente que CSV.

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Agora que você conhece os principais comandos do Pandas, que tal testá-los em seus projetos? E se tiver mais dicas ou dúvidas, compartilhe nos comentários!

No futuro, pretendo escrever um artigo focado especificamente no uso do Pandas para séries temporais. Esse tema te interessa? Deixe seu comentário! 😉