image

Acesse bootcamps ilimitados e +650 cursos

50
%OFF
Article image
Fred Anjos
Fred Anjos28/03/2022 10:34
Compartilhe

Análise de Dados Através de Gráficos

  • #Python
  • #Big Data

Um gráfico é a maneira visual de exibir variáveis. Normalmente, é mais fácil para qualquer pessoa entender a mensagem de um gráfico do que aquela embutida em tabelas ou sumários numéricos.

 

Os gráficos são utilizados para diversos fins (Chambers et al., 1983):

 

a.     Buscar padrões e relações;

 

b.     Confirmar (ou não) expectativas que se tinha sobre os dados;

 

c.      Descobrir novos fenômenos;

 

d.     Confirmar (ou não) suposições feitas sobre os procedimentos estatísticos usados; ou simplesmente

e.     Apresentar resultados de modo mais fácil e rápido

 

Um gráfico bastante utilizado na estatística é o Histograma.

 

O Histograma é uma representação gráfica em barras de uma variável, dividida em classes. A altura de cada barra representa a frequência com que o valor da classe ocorre. Vejamos um histograma para apresentar a variação do preço do café.

 

Figura 3 – Histograma dos Preços Praticados para o Café.

image

Repare que cada barra corresponde à frequência de um intervalo de preços. Interpretando as três primeiras barras da esquerda pra direita, temos: a primeira barra nos informa que tivemos cinco registros onde o preço praticado foi entre R$3,73 e R$3,94. A segunda barra nos informa que tivemos um registro onde o preço estava entre R$3,94 e R$4,15. E a terceira barra nos informa que tivemos dois registros onde o preço estava entre R$4,15 e R$4,35.

 

Outro gráfico bastante utilizado na Estatística é o Boxplot, apresentado por Tukey (Tukey, 1977), que é baseado nos quartis e são um modo rápido de visualizar a distribuição dos dados. Vejamos um boxplot para os preços do café.

Figura 4 – Boxplot dos Preços Praticados para o Café.

image

Além dos quartis, o boxplot também nos dá o limite inferior e o limite superior. No boxplot da figura 4 vemos que o limite superior R$4,77, ou seja, de acordo com a distribuição dos preços, um valor acima do de R$4,77 é um outlier. Já o limite inferior é R$3,89, ou seja, preços abaixo desse valor são considerados outliers.

 

Valores outliers, sejam superiores ou inferiores, devem ser investigados para compreender o que houve naquela observação, pode ter sido de fato um evento raro ou apenas um erro de digitação. No boxplot da figura 4 pode-se notar diversos pontos abaixo do limite inferior. Nesse caso, isso ocorreu em alguns dias em que o café estava promocionado, então é de esperar que o preço esteja abaixo do esperado.

 

O pesquisador pode desejar calcular o limite superior e inferior para identificar os outliers sem necessariamente querer utilizar um boxplot. Para isso, primeiro deve-se calcular o intervalo interquartil (IQR), que nada mais é que subtrair o terceiro quartil

pelo primeiro quartil. Uma vez calculado o IQR, para chegar nos valores limites, a fórmula fica:

IQR = 3ºQuartil – 1ºQuartil

 

Limite Inferior = 1ºQuartil – (1.5 * IQR) Limite Superior= 3ºQuartil + (1.5 * IQR)

 

Se desejarmos visualizar a evolução dos preços ao longo do tempo, é recomendado utilizar um gráfico de linhas (também chamado de gráfico de séries temporais). Ele é bastante simples. Basta plotar a variável no eixo vertical y e o tempo no eixo horizontal x. Cada ponto é representado por um marcador e ligado ao ponto seguinte por uma reta. Em nosso caso, que cada observação da base de dados é um dia de venda, e temos trinta dias observados, cada ponto do nosso gráfico será o preço praticado em um respectivo dia.

 

Figura 5 – Gráfico de linha da evolução dos preços do café durante os dias do mês.

image

 

Podemos observar que ao final do mês os preços vão abaixando. Pode ser devido alguma estratégia, pois em muitas empresas as vendas ao final do mês tendem a ser menores, devido ao fato de que os clientes já gastaram seu salário. Então, reduzir o preço, apesar de diminuir a márgem de lucro, pode ser uma estratégia a ser considerada para manter o volume de vendas no fim do mês.

 

Um gráfico de linhas é muito útil para procurar padrões na variável longo do tempo, como tendências e padrões sazonais. Por exemplo, em uma loja de brinquedos, é comum esperar um pico todo dezembro. Para maiores detalhes sobre tendência e sazonalidade de uma série temporal, a literatura a seguir pode ser consultada: https://otexts.com/fpp2/tspatterns.html.

 

Supondo que você precise analisar se existe relação entre o preço do café com as vendas do café. Vamos adicionar mais uma variável, conforme a figura 6.

 

Figura 6 – Variável Preço do Café e a variável Vendas do Café.

image

O comportamento esperado é de que quando o preço aumenta, as vendas diminuam. Uma forma de identificar a relação (ou a ausência de relação) entre um par de variáveis é através de um gráfico de dispersão, que exibe os valores de dados para um par de variáveis em suas coordenadas (x, y).

 

Geralmente, variável “resposta” é colocada no eixo y, e a variável “preditora” no eixo x. A variável resposta em nosso exemplo são as vendas, e a variável preditora (que também pode ser chamada de variável explicativa) é o preço. Então, colocaremos as vendas no eixo y e o preço no eixo x, pois queremos saber como as vendas se comportam na medida em que o preço varia.

 

Figura 7 – Relação entre o preço do café e as vendas do café.

image

No gráfico da figura 7, cada ponto é um dia de venda. No eixo x temos o preço, e no eixo y temos quantas foram as unidades vendidas por aquele preço. Como temos trinta observações em nosso conjunto de dados, temos trinta pontos em nosso gráfico de dispersão. Interpretando o gráfico, vemos que o comportamento é o esperado: se

observamos os preços aumentando do início do eixo x até o seu final, podemos observar a quantidade vendida (eixo y) diminuindo.

 

Há inúmeras outras maneiras gráficas de exibir dados. Outras muito utilizadas são os gráficos de barras e o gráfico de setores (ou gráfico de pizza). Entretanto, esses são mais intuitivos, e para direcionar nossos esforços focaremos nos que foram apresentados.

 

Quanto ao gráfico de setores, há bastante discussão acerca de quando usá-lo, ou até mesmo se realmente deve ser usado. Nesse link tem uma abordagem bastante interessante quanto a isso: https://bit.ly/38UcsKQ.

Compartilhe
Comentários (1)
José Ferreira
José Ferreira - 01/05/2022 11:14

é um pouco complexo de se entender é a difivudade que estou tendo porem comesei na areá a pouco tempo mais estou indo bem queria mais informacoes sobre começa a programar ou tentar