Uma breve introdução sobre Análise de Dados.
- #Estrutura de dados
Sumário
- Introdução
- O que é análise de dados?
- Tipos de análise de dados
- Data Mining
- Big Data
- Visualização de dados
- Tipos de visualização de dados
- Ferramentas de visualização e análise de dados
- Referências
- Conclusão
Introdução
Diante do aumento exponencial na geração de dados, a prática da análise de dados emerge como uma ferramenta indispensável, pois atualmente tudo o que é feito na internet se torna um dado, as formas como interagir com produtos são dados, todos os conteúdos consumidos na internet são dados.
O que é Análise de dados?
É o processo de aplicação de técnicas estatísticas e lógicas e ferramentas tecnológicas para avaliar informações. O principal objetivo da análise de dados é extrair informações relevantes a partir dos dados analisados, assim, obtendo resultados mensuráveis e úteis para uma tomada de decisões bem estruturada.
Tipos de Análise de Dados:
- Análise prescritiva
- Análise preditiva
- Análise descritiva
- Análise diagnóstica
Análise prescritiva
Foca em determinar as consequências das decisões tomadas. Sua ideia é identificar as melhores estratégias de acordo com os padrões existentes, contribuindo para decisões mais assertivas, contribuindo para a melhoria do desempenho empresarial.
Análise preditiva
Utiliza fatos do passado para visualizar e prever eventos futuros. É uma das técnicas mais demandadas em uma empresa, e requer uma coleta rica de dados que serão transformados em informações úteis, que poderão ajudar em tomadas de decisões inteligentes.
Análise descritiva
Realiza uma mineração de dados em tempo real, buscando respostas rápidas e seguras para as necessidades da empresa.
Análise diagnostica
Foca em realizar uma verificação mais ampla em uma situação abordada, com os padrões de dados gerados e essas informações são usadas para ajudar no planejamento empresarial.
Mineração de dados (Data Mining)
É o processo de analisar grandes quantidade de dados à procura de padrões consistentes. Se define como a práticas de examinar dados já coletados para gerar informações valiosas. O Data Mining é formado por um conjunto de ferramentas e técnicas que utilizam algoritmos de aprendizagem ou classificação baseados em redes neurais e estatísticas. O conhecimento em Data Mining pode ser apresentado por essas ferramentas em diversas formas : agrupamento, hipóteses, regras, árvores de decisão, grafos ou dendrogramas. Os dados gerados na mineração de dados podem agregar valor às decisões da empresa, sugerindo tendências, desvendar particularidades e permitir ações baseadas em informações bem estruturadas.
4 Ferramentas para Mineração de dados:
- RapidMiner: Uma plataforma de análise preditiva que fornece um ambiente gráfico para a construção e avaliação de modelos de mineração de dados.
- DataMelt: Usado com frequência em ciências naturais, engenharia, modelagem e análise de mercados financeiros. Suporta diversas linguagens de programação. Dentre elas podemos citar a Python, BeanShell, Groovy, Ruby e Java, dentre outras.
- KNIME: Projetado para ajudar na manipulação, analise e modelagem de dados por meio de programação. Permite, além de escrever códigos, arrastar e soltar pontos de conexão entre as atividades. Também oferece suporte à combinação de dados entre arquivos de texto, banco de dados, documentos, redes e dados baseados no Hadoop em um único fluxo de trabalho visual.
- R: Linguagem de programação frequentemente utilizada para pesquisa em metodologias estatística. Auxilia na manipulação de dados, cálculo e exibição gráfica.
Big Data
É o termo que se refere ao imenso volume de dados (Estruturados e não-estruturados) gerados no dia a dia. O Big Data é uma revolução que vem mudando a forma que a sociedade lida com a informação. O Big data está associado a 4 atributos, chamados 4 Vs:
Volume
O Big Data implica em grandes volumes de dados.
Velocidade
Os dados fluem em velocidades sem precedentes, tudo conectado a internet gera dados valiosos que devem ser tratados em tempo hábil.
Variedade
Se trata da ampla variedade de informações e coletadas dia após dia, onde qualquer comportamento ativo pode gerar dados.
Veracidade
Os dados precisam ser confiáveis para que possam ser utilizados. A partir dessa concepção, foram desenvolvidos sistemas com capacidade de processamento e velocidade enormes, capazes de coletar, agregar, correlacionar e interpretar dados brutos a fim de gerar as informações desejadas.
Visualização de dados
Consiste na representação gráfica de informações e dados. Usando elementos visuais como diagramas, gráficos e mapas. Esta é uma forma acessível de ver e entender exceções, tendências e padrões nos dados.
Existem ferramentas e tecnologias de visualização de dados essenciais para analisar enormes quantidades de informações e tomar decisões prudentes.
Na era do Big Data, a visualização é uma ferramenta incrivelmente relevante para interpretar os vários dados gerados todos os dias, para uma visualização de dados eficaz, é necessário sensibilidade para equilibrar estética e funcionalidade. Os dados e elementos visuais devem funcionar em conjunto e relacionar excelentes análises de dados em um cenário real.
Variados tipos de visualização de dados:
- Gráfico de área
- Gráfico de barras
- Gráfico de caixa
- Nuvem de bolhas
- Gráfico de marcador
- Cartogramas
- Exibição de círculos
- Mapa de distribuição de pontos
- Gráfico de Gantt
- Mapa de variações
- Tabela de destaque
- Histograma
- Matriz
- Rede
- Área polar
- Árvore radial
- Gráfico de dispersão (2D ou 3D)
- Gráfico de fluxo
- Tabelas de texto
- Linha do tempo
- Mapa de árvore
- Gráfico de segmentos
- Nuvem de palavras
4 Ferramentas para visualização e análise de dados:
- Microsoft Excel
- SQL
- Python
- Power BI
Microsoft Excel
É uma ferramenta de planilha que se destaca na manipulação e análise de dados de maneira eficiente e intuitiva. O Excel tem a capacidade de criar gráficos e visualizar dados dinamicamente, o que o torna uma principais ferramentas de uso de empresas.
SQL
SQL (Structured Query Language) é uma linguagem de programação utilizada para gerenciar e manipular dados de um banco de dados. A SQL permite que os usuários executem diversas operações, como consultas para recuperar dados, inserções para adicionar novas informações, atualizações para modificar registros existentes e exclusões para remover dados.
Exemplos de consultas SQL:
Este comando projeta o agrupamento dos salários dos funcionários por departamento, calculando o total de salários para cada departamento.
SELECT department, SUM(salary) as total_salary FROM employees GROUP BY department;
Este comando projeta todos os funcionários que possuem o salário maior que cinquenta mil.
SELECT * FROM employees WHERE salary > 50000;
Este comando insere um novo funcionário com employee_id
101, pertencente ao departamento de Marketing, com um salário de 60.000.
INSERT INTO employees (employee_id, department, salary)VALUES (101, 'Marketing', 60000);
Este comando atualiza o salário do funcionário com employee_id
101 para 65.000.
UPDATE employees SET salary = 65000 WHERE employee_id = 101;
Este comando remove o funcionário com employee_id
101 da tabela.
DELETE FROM employees WHERE employee_id = 101;
Python
É uma linguagem de programação orientada a objetos utilizada em uma variedade de domínios, tanto para programas independentes como para aplicações de script. É uma ferramenta gratuita, portátil, poderosa e fácil de usar. Algumas das principais bibliotecas para análise de dados em Python incluem o NumPy, Pandas, Matplotlib, Seaborn e Jupyter Notebooks.
Neste código Python, utilizou-se a biblioteca Streamlit para criar uma interface web interativa que se conecta a um banco de dados PostgreSQL. Ele executa consultas SQL para recuperar dados relacionados a notificações de síndrome gripal leve em 2022(fornecido pelo dataset do sus), exibindo tabelas e gráficos correspondentes para consultas específicas, como a média de idade por raça e a quantidade de registros com febre e vacinados
import streamlit as st
import pandas as pd
import matplotlib.pyplot as plt
import psycopg2
hostDB = "localhost"
portDB = 5432
nameDB = "sindrome_gripal_leve2022"
userDB = "postgres"
pswDB = "1234"
#conexão
def connection():
conn = psycopg2.connect(
host=hostDB,
port=portDB,
database=nameDB,
user=userDB,
password=pswDB
)
return conn
#executar consulta sql e retornar dataframe
def run_query(query):
conn = connection()
df = pd.read_sql(query, conn)
conn.close()
return df
conn = connection()
st.title('Consultas: Notificações de Sindrome Gripal Leve 2022 - SP')
#Opções de consulta
consulta_opcoes = ['Consulta 1','Consulta 2', 'Consulta 3','Consulta 4']
consulta_selecionada = st.sidebar.selectbox('Selecione a consulta', consulta_opcoes)
#exibir resultados da consulta selecionada
def resultados():
#consulta 1
if consulta_selecionada == 'Consulta 1':
query = '''
select i.racaCor, round(avg(i.idade), 0) as idade_media
from individuo i inner join situacao s
on i.source_id = s.source_id
where i.racaCor in ('Parda','Branca')
group by i.racaCor;
'''
df = run_query(query)
#Exibir em tabela
st.subheader('Tabela da Consulta 1\nSelecionar a idade média dos indivíduos por raça/cor, limitando aos registros das raças/cor "Parda" e "Branca".')
st.dataframe(df)
#Exibir gráfico de barras
st.subheader("Gráfico da Consulta 1")
fig, ax = plt.subplots()
ax.bar(df['racacor'], df['idade_media'])
ax.set_xlabel('Raça')
ax.set_ylabel('Idade')
ax.set_title("Idade média de invidíduos pardos e brancos")
st.pyplot(fig)
#consulta 2
elif consulta_selecionada == 'Consulta 2':
query = '''
select i.racaCor,count(*) as quantidade_registros from individuo i
inner join situacao s on i.source_id = s.source_id
where s.sintomas like '%Febre%' and s.dataPrimeiraDose is not null and s.dataSegundaDose is not null
group by i.racaCor order by i.racaCor asc;
'''
df = run_query(query)
#exibir tabela
st.subheader('Tabela da Consulta 2\nSelecionar a raça e a quantidade de registros que possuem febre, e que tomaram a primeira e seguda dose.')
st.dataframe(df)
#removendo os valores nulos('None')
df = df.dropna()
#Exibir gráfico de barra
st.subheader("Gráfico da Consulta 2")
fig, ax = plt.subplots()
ax.bar(df['racacor'], df['quantidade_registros'])
ax.set_xlabel('Raça')
ax.set_ylabel('Quantidade de registros')
ax.set_title("Distribuição da quantidade por raça de indivíduos que tiveram febre e tomaram a primeira e segunda dose.")
st.pyplot(fig)
#consulta 3
elif consulta_selecionada == 'Consulta 3':
query = '''
select i.estado, min(i.idade) as idade_Min, max(i.idade) as idade_Max
from individuo i inner join situacao s on i.source_id = s.source_id
where i.racaCor='Ignorado' group by i.estado;
'''
df = run_query(query)
#Exibir tabela
st.subheader('Tabela da Consulta 3\nSelecionar o estado, idade mínima, idade máxima dos indivíduos por estado, cuja raça não foi especificado(ignorado).')
st.dataframe(df)
#substituir nulos por 0
#df['idade_max'] = df['idade_max'].dropna(float)
#df['idade_max'] = df['idade_max'].astype(float)
df = df.dropna()
#Exibir gráfico de barras
st.subheader("Gráfico da Consulta 3")
fig, ax = plt.subplots()
ax.bar(df['estado'], df['idade_min'], label='Idade Mínima')
ax.bar(df['estado'], df['idade_max'], label='Idade Máxima')
ax.set_xlabel('Estado')
ax.set_ylabel('Idade')
ax.set_title("Idade Mínima e Máxima de indivíduos por estado cuja raça não foi especificada(Ignorada).")
st.pyplot(fig)
#consulta 4
elif consulta_selecionada == 'Consulta 4':
query = '''
select distinct(i.estado), count(*) as quantidade_descartados
from individuo i inner join datas_doses dd on i.source_id = dd.source_id
where dd.classificacaoFinal='Descartado'
and dd.dataInicioSintomas !='None'and dd.dataEncerramento!='None'
group by i.estado order by quantidade_descartados asc limit 5;
'''
df = run_query(query)
#Exibir Tabela
st.subheader('Tabela da Consulta 4\nSelecionar os cinco primeiros estados e a quantidade de registros que cuja classificacao final foi dada como descartado, e que tiveram o inicio e fim dos sintomas registrados')
st.dataframe(df)
#Exibir gráfico de barras
st.subheader("Gráfico da Consulta 4")
fig, ax = plt.subplots()
ax.bar(df['estado'], df['quantidade_descartados'])
ax.set_xlabel('Estado')
ax.set_ylabel('Quantidade de registros descartados')
ax.set_title('Quantidade dos cinco primeiros registros classificados como descartados por estado')
st.pyplot(fig)
#
#
if consulta_selecionada:
resultados()
conn.close()
Power BI
É uma coleção de serviços de software, aplicativos e conectores distribuídos pela Microsoft, que trabalham juntos para transformar suas fontes de dados não relacionadas em informações coerentes. O Power BI permite a fácil conexão com fontes de dados, permitindo visualizar e descobrir conteúdos importantes e realizar o uso devido com essas informações.
O Power BI é uma aplicação multiplataforma, que possui um aplicativo de desktop, um aplicativo mobile (Para Windows, iOS e Android) e um serviço SaaS (Software como serviço) online que agem em conjunto para proporcionar um insights empresariais eficientes. Sua forma de uso depende de sua função em um projeto ou equipe. Cada pessoa ou função pode fazer um uso diferente dessa ferramenta.
Conclusão
Em resumo, a análise de dados desempenha um papel crucial na compreensão do vasto volume de informações geradas diariamente. Através de técnicas como Data Mining, Big Data e Visualização de Dados, conseguimos extrair insights valiosos para embasar decisões informadas. Ferramentas como Microsoft Excel, SQL e Python são aliadas essenciais nesse processo, permitindo a manipulação eficiente e a análise criteriosa dos dados. A variedade de tipos de análise, desde a preditiva até a descritiva, oferece abordagens flexíveis para compreender diferentes aspectos dos dados. Em um mundo cada vez mais orientado por informações, a habilidade de explorar e interpretar dados torna-se fundamental para impulsionar a inovação e o sucesso empresarial.
Referências
ANÁLISE DE DADOS
https://blog.mettzer.com/analise-de-dados/#o-que
GUIA PRATICO PARA VISUALIZAÇÃO DE DADOS
https://www.tableau.com/pt-br/learn/articles/data-visualization
RAPID MINER
https://rapidminer.com/
Data Mininig
https://cetax.com.br/data-mining/
https://blog.unis.edu.br/conheca-7-ferramentas-que-vao-ajudar-aprimorar-o-seu-processo-de-mineracao-de-dados
TUDO SOBRE O TEMA ANALISE DE DADOS
https://www.cortex-intelligence.com/blog/inteligencia-de-mercado/o-que-e-analise-de-dados
ANÁLISE DE DADOS:UMA FERRAMENTA PARA CRIAR MELHORES ESTRATÉGIAS DE NEGOCIO
https://www.alura.com.br/empresas/artigos/analise-de-dados
CÓDIGO CONNECT EM PYTHON USADO DE EXEMPLO
https://github.com/Lusigmes/python/blob/main/connect.py
PYTHON
https://www.facom.ufu.br/~william/Disciplinas%202019-1/BIOTCH-GBT017-IntoducaoInformatica/285173966-aprendendo-python-pdf.pdf
POWER BI DOCUMENTAÇÃO
https://learn.microsoft.com/pt-br/power-bi/
POWER BI FUNDAMENTALS
https://learn.microsoft.com/pt-br/power-bi/fundamentals/