Interpretando um gráfico de dispersão

O gráfico de dispersão não é tão comum de se encontrar em matérias de jornais ou na internet como o gráfico de barras ou de pizza. Por outro lado, é bastante utilizado (mas não somente) em estudos científicos, pois através dele é possível visualizar se há uma relação entre duas variáveis quantitativas discretas ou contínuas. Vamos conhecer melhor como esse gráfico é constituído:

Figura 1 - Exemplo de um gráfico de dispersão
A área do gráfico é delimitada pelo eixo horizontal X, geralmente designado (por convenção) para a variável independente e o eixo vertical Y representando a variável dependente (que seria afetada pela variável X). Através da interseção entre os dois eixos, conseguimos plotar os dados, cada qual com o seu “endereço” único e representado como um ponto. A linha de tendência, é formada quando traçamos uma reta seguindo a direção e o sentido da maioria dos pontos (porém, não é um elemento obrigatório).

O gráfico de dispersão também pode ser um ótimo aliado para detectar a possível presença de um outlier, isto é, quando um ponto está bem distante da tendência geral dos dados, como na imagem acima. De qualquer forma, são necessárias outras etapas para confirmar se é de fato um outlier, como por exemplo: há um erro na coleta ou na transcrição dos dados?

O que podemos obter com esse gráfico?

O gráfico de dispersão possibilita a visualização de um conceito bastante trabalhado em Estatística: a correlação: isto é, qual o sentido e a força de uma relação existente entre duas variáveis quantitativas. A correlação pode ser calculada e apresentada como um único valor dentro da escala -1 a +1. Valores positivos indicam correlação positiva: quando a variável X aumenta, a variável Y também aumenta. Valores negativos indicam que a correlação é negativa, isto é, quando a variável X aumenta, Y diminui e vice-versa.

A força da correlação se dá a partir da magnitude dos números. Assim, quanto mais próximo de 1 (ou de -1) mais forte os dados estão correlacionados. E não existe correlação quando obtemos o valor zero. Visualmente podemos verificar como algumas correlações aparecem:

Fig. 2 - Correlação positiva forte
Fig. 3 - Correlação positiva moderada
Fig. 4 - Correlação positiva fraca
Fig. 5 - Correlação negativa forte
Fig. 6 - Correlação negativa moderada
Fig. 7- Correlação negativa fraca
Fig. 8 - Ausência de correlação: pontos espalhados, não há nenhuma tendência observada


Como ler um gráfico de dispersão?

Podemos extrair múltiplas leituras a partir da exploração de um gráfico de dispersão. Para vermos algumas possibilidades, vamos usar o gráfico  com as variáveis: “Índice de Desenvolvimento Humano – IDH ” versus o “Índice de Percepção da Corrupção – IPC ” de países americanos em 2017.

O IDH é disponibilizado pelo Programa das Nações Unidas para o Desenvolvimento (PNUD) e visa quantificar o desenvolvimento socioeconômico de um país a partir de três dimensões: saúde, através da esperança de vida ao nascer; educação, a partir da média de escolaridade e anos de escolaridade esperados; e renda, a partir da Renda Nacional Bruta (RNB) per capita expressa em poder de paridade de compra (PPP). A escala do IDH é entre 0 e 1, sendo que quanto mais próximo de 1, melhor é o desenvolvimento daquela localidade.

Já o IPC é calculado pela iniciativa não governamental “Transparência Internacional” e classifica o nível percebido de corrupção no setor público de um país, a partir de diferentes pesquisas e avaliações de especialistas de várias instituições reconhecidas como o Banco Mundial e o Fórum Econômico Mundial. A escala usada é entre 0 (nível extremo de corrupção) e 100 (maior nível de integridade).

Assim, no gráfico a seguir, cada ponto representa um país do continente americano e o desempenho de cada um em termos de desenvolvimento e corrupção pode ser visto a partir dos eixos:

Índice de Desenvolvimento Humano vs. Índice de Percepção da Corrupção - Países americanos, 2017

Figura 9 - IDH versus IPC em países americanos, 2017

Podemos começar com uma “leitura geral” a partir da observação dos pontos e da linha de tendência do gráfico acima. Percebemos que há uma relação positiva moderada-forte entre as variáveis, isto é, que países que possuem uma pontuação alta no Índice de Percepção de Corrupção (ou seja, são vistos como menos corruptos), tendem a apresentar elevado nível de desenvolvimento. Ao calcularmos, encontramos uma correlação de 0,71 (71%) entre as duas variáveis. Entretanto, não é possível falar de causalidade, isto é, que uma variável seja a causa da outra. Nesse caso, porque tanto a corrupção quanto o desenvolvimento socioeconômico são fenômenos multifatoriais.

Focando agora apenas no eixo do IDH, podemos fazer algumas observações comparativas entre os países:
Figura 10 - Análise IDH
  • O Haiti é o país menos desenvolvido das Américas;
  • Por outro lado, EUA e Canadá oferecem as melhores condições de desenvolvimento para seus habitantes, sendo os dois únicos países americanos com IDH maior que 0,900;
  • Chile, Argentina e Uruguai são os países mais desenvolvidos da América do Sul;
  • A maior parte dos países da América Central estão em uma escala média de desenvolvimento;
  • O grupo majoritário é composto de países que apresentam uma escala alta de desenvolvimento (entre 0,700 e 0,800), do qual o Brasil faz parte;
  • Em relação ao IDH, o Brasil se equipara a países como Colômbia, Peru, Equador, Venezuela e México.
Em 2017, a média de corrupção percebida para todo o continente americano foi de 44 pontos no IPC. Podemos usar tal valor para fazer uma leitura comparativa agora no eixo X do gráfico:
Figura 11 - Análise IPC

  • Em média, o continente americano lida com altos níveis de corrupção;
  • Venezuela e Haiti são percebidos como os países mais corruptos do continente;
  • Novamente, EUA e Canadá são os países líderes, agora em termos de percepção de honestidade no setor público;
  • Chile e Uruguai são os únicos países sul-americanos que apresentem IPC acima da média e são tidos como os mais íntegros;
  • A maior parte dos países com pontuação acima da média são menos populosos e da região do Caribe;
  • O nível de corrupção percebida no Brasil é menor do que na Venezuela e México;
  • Porém o Brasil está abaixo da média do continente e juntamente com Colômbia, Peru, Panamá e Argentina apresentam preocupante nível de corrupção percebida.

Por fim, podemos dividir o diagrama de dispersão em 4 quadrantes usando dois critérios: a média de 44 pontos do IPC observada para o continente e 0,700 para separarmos os países com elevado IDH:

Figura 12 - Análise quadrantes

Assim, observamos que:

  • Não encontramos nenhum país com baixo nível de corrupção e que seja menos desenvolvido;
  • Países do terceiro quadrante como Haiti, Honduras, Nicarágua, Guatemala, Guiana, El Salvador e Bolívia precisam não apenas combater os altos níveis de corrupção, mas também carecem de estratégias para se desenvolverem;
  • A maioria  dos países – como o Brasil – que apresentam IDH entre 0,700 e 0,800 mostram uma grande variação em termos de corrupção (entre 18 e 60 pontos), o que nos confirma o que já esperávamos: há outras causas que impactam o desenvolvimento de um país;
  • Baixíssimos índices de corrupção (pontuação maior que 70 pontos) são registrados apenas nos países com IDHs muito elevados: EUA e Canadá

Como fazer um gráfico de dispersão?

Felizmente é bem fácil de fazer gráficos de dispersão no próprio Excel! Todos os elementos do gráfico são customizáveis, assim é possível formatar as escalas dos eixos e conseguir uma melhor visualização dos dados; assim como retirar ou acrescentar as linhas de grade e a linha de tendência, por exemplo. Segue um rápido tutorial de como plotar duas variáveis conjuntamente em um gráfico de dispersão:
Reproduzir vídeo
O que você achou dessa forma de ler o gráfico de dispersão? Você utiliza outra forma de análise? Deixe o seu comentário aqui pra gente! E continue aprendendo sobre outros tipos de gráficos como o Histograma e Boxplot!

Referências

Origem dos dados utilizados: Esteban Ortiz-Ospina and Max Roser (2016) – “Corruption”. Published online at OurWorldInData.org. Retrieved from: ‘https://ourworldindata.org/corruption’
Ferramenta para a construção dos gráficos de tipos de correlação: http://robertgrantstats.co.uk/drawmydata.html
Mais informações sobre o IPC de 2017: https://www.transparency.org/en/cpi/2017

Prof. Fernanda Maciel

Prof. Fernanda Maciel

Professora de Business Analytics na California State University

Inscreva-se na lista de e-mails da Prof. Fernanda Maciel e receba os próximos textos do blog.

© 2022 Prof. Fernanda Maciel

contato@proffernandamaciel.com