Guia Rápido de Pandas: Principais Comandos e Dicas
Olá, DIO friends!
Sempre que estou aprendendo uma nova tecnologia, gosto de criar um guia geral para facilitar a consulta no começo.
Neste artigo, aproveitei o desafio da DIO Campus Expert para compartilhar um guia sobre a biblioteca Pandas.
O Pandas é uma biblioteca essencial para análise de dados em Python, permitindo manipulação eficiente e intuitiva de tabelas e séries temporais (parte que particularmente me interesso muito).
Este guia rápido foi criado para quem quer consultar os comandos mais importantes sem perder tempo ou quer revisar rapidinho os comandos principais. Seja você cientista de dados, analista ou estudante, espero que este guia seja útil quando bater aquele branco no meio do desenvolvimento! :)
1. Primeiramente
Se ainda não tiver instalado, use:
pip install pandas
(ou utilize o Google Colab haha)
2. Criação de DataFrames e Séries
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
s = pd.Series([10, 20, 30])
💡 Dica: Sempre verifique o tipo dos dados com df.dtypes
, pois erros comuns ocorrem quando um número é interpretado como string. Além disso, ao criar DataFrames ou Séries, é uma boa prática definir explicitamente o tipo de dados (dtype
) para evitar erros de interpretação.
3. Carregamento e Salvamento de Arquivos
df = pd.read_csv('arquivo.csv')
df.to_csv('saida.csv', index=False)
df = pd.read_excel('arquivo.xlsx')
df.to_excel('saida.xlsx', index=False)
💡 Dica: Ao carregar arquivos, sempre defina explicitamente o encoding para evitar problemas com caracteres especiais. Para exportar, o utf-8
é recomendado para garantir a compatibilidade de caracteres. Exemplo:df.to_csv('saida.csv', index=False, encoding='utf-8')
4. Visualização de Dados
df.head() # Primeiras linhas
df.tail() # Últimas linhas
df.info() # Informações gerais
df.describe() # Estatísticas básicas
💡 Dica: Para visualizar todos os tipos de dados corretamente e identificar colunas que consomem muita memória, use df.info(memory_usage='deep')
. Isso ajuda a otimizar o uso de memória ao trabalhar com grandes conjuntos de dados.
5. Seleção e Filtragem
df['A'] # Selecionar coluna
df.loc[0] # Selecionar linha pelo índice
df.iloc[0, 1] # Selecionar pelo índice numérico
df[df['A'] > 1] # Filtragem condicional
💡 Dica: Para múltiplas condições, você pode usardf.query('A > 1 and B < 6')
em vez de df[(df['A'] > 1) & (df['B'] < 6)]
. Isso torna o código mais legível e evita erros de sintaxe.
6. Manipulação de Dados
df['Nova'] = df['A'] * 2 # Criar nova coluna
df.drop(columns=['B'], inplace=True) # Remover coluna
df.dropna(inplace=True) # Remover valores nulos
df.fillna(0, inplace=True) # Preencher valores nulos
💡 Dica: Ao remover valores nulos de colunas específicas, use df.dropna(subset=['A', 'B'], inplace=True)
para ter mais controle sobre o que está sendo removido.
7. Agrupamento e Agregação
df.groupby('A').sum() # Agrupar e somar
df.pivot_table(values='B', index='A', aggfunc='mean') # Tabela dinâmica
💡 Dica: Para contar a quantidade de registros em cada grupo, use df.groupby('A').size()
em vez de df.groupby('A').count()
, pois isso ignora valores nulos.
8. Ordenação de Dados
df.sort_values(by='A', ascending=False)
💡 Dica: Quando houver valores nulos, use na_position='first'
para colocá-los no início ou na_position='last'
para colocá-los no final da ordenação.
9. Exportação de Dados
df.to_csv('arquivo_final.csv', index=False)
df.to_excel('arquivo_final.xlsx', index=False)
💡 Dica: Se for salvar grandes DataFrames, utilize df.to_parquet('dados.parquet')
, pois o formato Parquet é muito mais eficiente que CSV.
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Agora que você conhece os principais comandos do Pandas, que tal testá-los em seus projetos? E se tiver mais dicas ou dúvidas, compartilhe nos comentários!
No futuro, pretendo escrever um artigo focado especificamente no uso do Pandas para séries temporais. Esse tema te interessa? Deixe seu comentário! 😉