Python para Dados.
- #Python
Análise Avançada de Dados com Python
A análise de dados é uma das principais aplicações da linguagem Python, especialmente em ciência de dados. Com uma vasta gama de bibliotecas poderosas, Python permite a coleta, limpeza, exploração, modelagem e visualização de dados. Este artigo explora um fluxo completo de análise de dados, utilizando ferramentas avançadas.
1. Coleta e Carregamento de Dados
Para iniciar a análise de dados, primeiro precisamos coletar e carregar os dados. Python oferece bibliotecas como pandas
para carregar dados de diferentes fontes.
import pandas as pd
# Carregar dados de um arquivo CSV
dados = pd.read_csv('dados.csv')
# Carregar dados de uma API
import requests
url = 'https://api.exemplo.com/dados'
resposta = requests.get(url)
dados_api = pd.DataFrame(resposta.json())
2. Limpeza e Pré-Processamento
Dados reais frequentemente contêm valores ausentes, inconsistências e erros. O pré-processamento adequado garante que os dados estejam prontos para análise.
# Verificar valores ausentes
dados.isnull().sum()
# Preencher valores ausentes com a média da coluna
dados.fillna(dados.mean(), inplace=True)
# Remover duplicatas
dados.drop_duplicates(inplace=True)
# Normalização de dados
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
dados[['coluna1', 'coluna2']] = scaler.fit_transform(dados[['coluna1', 'coluna2']])
3. Exploração e Análise Estatística
A análise exploratória ajuda a entender a distribuição e relações dos dados.
# Estatísticas descritivas
dados.describe()
# Correlação entre variáveis
import seaborn as sns
import matplotlib.pyplot as plt
plt.figure(figsize=(10,6))
sns.heatmap(dados.corr(), annot=True, cmap='coolwarm')
plt.show()
4. Modelagem e Machine Learning
Podemos construir modelos preditivos com bibliotecas como scikit-learn
.
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
# Dividir os dados em treino e teste
X = dados.drop(columns=['target'])
y = dados['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Treinar um modelo Random Forest
modelo = RandomForestClassifier(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)
# Avaliar o modelo
y_pred = modelo.predict(X_test)
print(f'Acurácia: {accuracy_score(y_test, y_pred):.2f}')
5. Visualização de Dados
A visualização é essencial para interpretar os dados e comunicar resultados.
# Distribuição de uma variável numérica
sns.histplot(dados['coluna'], bins=30, kde=True)
plt.show()
# Gráfico de dispersão
sns.scatterplot(x='coluna1', y='coluna2', data=dados, hue='target')
plt.show()
Conclusão
Python é uma ferramenta poderosa para análise de dados, oferecendo bibliotecas para todas as etapas do processo. O uso eficiente dessas ferramentas permite extrair insights valiosos e tomar decisões baseadas em dados.