image

Acesse bootcamps ilimitados e +650 cursos pra sempre

60
%OFF
Joelson Pinto
Joelson Pinto30/06/2024 15:47
Compartilhe

Análise exploratória de dados com SQL

  • #SQL

A análise exploratória de dados (AED) é uma etapa essencial para qualquer projeto que envolva dados. Basicamente é onde você se familiariza com o conjunto de dados, descobre padrões, identifica problemas e formula as primeiras hipóteses. E o SQL, a linguagem padrão para gerenciar bancos de dados relacionais, é uma ferramenta poderosa para isso.

O que é análise exploratória de dados?

É uma abordagem feita para resumir as principais características dos dados. Ela foi promovida pelo estatístico norte-americano John Tukey. O objetivo da AED é observar o que os dados podem nos dizer. Dessa forma, podemos descobrir informações ocultas, padrões, tendências e possíveis erros como valores faltantes ou valores discrepantes.

A AED é últil para:

Compreender a estrutura dos dados

Quais tabelas existem?

Quais colunas cada tabela possui?

Que tipos de dados estão presentes?

Descobrir a qualidade dos dados

Há valores ausentes?

Existem valores inconsistentes ou outliers?

Identificar padrões e tendências

Como os dados estão distribuídos?

Existem correlações entre variáveis?

Gerar hipóteses e perguntas

Que perguntas você pode fazer sobre os dados?

Que respostas você espera obter?

Como explorar dados com SQL?

O SQL oferece um conjunto rico de comandos para diversas tarefas de exploração de dados:

Consultas básicas

SELECT, FROM, WHERE para filtrar e selecionar dados específicos.

Agregações

COUNT, SUM, AVG, MIN, MAX para calcular estatísticas descritivas.

Agrupamentos

GROUP BY para analisar dados em grupos.

Junções

JOIN para combinar dados de várias tabelas.

Exemplo prático: Analisando dados de vendas

Para este exemplo usarei SQLite. Copie e cole o código abaixo para obter a base de dados no seu dispositivo.

-- Criando a tabela vendas
CREATE TABLE vendas (
  id_venda INTEGER PRIMARY KEY AUTOINCREMENT,
  data_venda TEXT NOT NULL,
  produto TEXT NOT NULL,
  quantidade INTEGER NOT NULL,
  preco_unitario REAL NOT NULL,
  valor_total REAL NOT NULL
);

-- Inserindo dados na tabela vendas
INSERT INTO vendas (data_venda, produto, quantidade, preco_unitario, valor_total) VALUES
('2023-01-01', 'Banana', 5, 1.50, 5 * 1.50),
('2023-01-01', 'Maçã', 3, 3.00, 3 * 3.00),
('2023-01-02', 'Laranja', 10, 2.50, 10 * 2.50),
('2023-01-02', 'Manga', 2, 5.00, 2 * 5.00),
('2023-01-03', 'Banana', 7, 1.50, 7 * 1.50),
('2023-01-03', 'Abacaxi', 1, 6.00, 1 * 6.00),
('2023-01-04', 'Uva', 4, 7.00, 4 * 7.00),
('2023-01-04', 'Pêra', 6, 4.50, 6 * 4.50),
('2023-01-05', 'Melancia', 8, 0.90, 8 * 0.90),
('2023-01-05', 'Melão', 9, 3.50, 9 * 3.50),
('2023-01-06', 'Mamão', 2, 2.00, 2 * 2.00),
('2023-01-06', 'Morango', 5, 6.50, 5 * 6.50),
('2023-01-07', 'Kiwi', 3, 8.00, 3 * 8.00),
('2023-01-07', 'Banana', 7, 1.50, 7 * 1.50),
('2023-01-08', 'Maçã', 4, 3.00, 4 * 3.00),
('2023-01-08', 'Laranja', 6, 2.50, 6 * 2.50),
('2023-01-09', 'Manga', 8, 5.00, 8 * 5.00),
('2023-01-09', 'Abacaxi', 10, 6.00, 10 * 6.00),
('2023-01-10', 'Uva', 2, 7.00, 2 * 7.00),
('2023-01-10', 'Pêra', 9, 4.50, 9 * 4.50);

Agora com os dados disponíveis, como você responderia a estas perguntas de negócio?

  1. Qual o produto mais vendido?
  2. Qual a data do maior faturamento?
  3. Qual a média de itens por venda?

Para isso, você pode utilizar os seguintes comandos:

-- 1. Qual o produto mais vendido?
SELECT produto, SUM(quantidade) AS total_vendido
FROM vendas
GROUP BY produto
ORDER BY total_vendido DESC
LIMIT 1;

-- 2. Qual a data do maior faturamento?
SELECT data_venda, SUM(valor_total) AS faturamento
FROM vendas
GROUP BY data_venda
ORDER BY faturamento DESC
LIMIT 1;

-- 3. Qual a média de itens por venda?
SELECT AVG(quantidade) AS media_itens_por_venda
FROM vendas;

Sinta-se à vontade para explorar mais informações a partir desses dados. No entanto, lembre-se de que, no ambiente profissional, é comum realizar junções entre diferentes tabelas e utilizar combinações de comandos, como subconsultas, para obter os resultados desejados.

Conclusão

A Análise Exploratória de Dados é uma habilidade fundamental para qualquer pessoa que trabalhe com dados. Dominar o SQL e suas diversas funcionalidades lhe dá a capacidade de extrair informações valiosas, tomar decisões embasadas e desvendar os segredos escondidos em seus dados.

Lembre-se, a análise exploratória de dados é um processo iterativo. Ao explorar dados, novas perguntas surgirão, levando a novas análises e descobertas. Com prática em SQL você estará confortável para transformar dados em conhecimento.

Compartilhe
Comentários (0)