O gráfico de dispersão não é tão comum de se encontrar em matérias de jornais ou na internet como o gráfico de barras ou de pizza. Por outro lado, é bastante utilizado (mas não somente) em estudos científicos, pois através dele é possível visualizar se há uma relação entre duas variáveis quantitativas discretas ou contínuas. Vamos conhecer melhor como esse gráfico é constituído:
O gráfico de dispersão também pode ser um ótimo aliado para detectar a possível presença de um outlier, isto é, quando um ponto está bem distante da tendência geral dos dados, como na imagem acima. De qualquer forma, são necessárias outras etapas para confirmar se é de fato um outlier, como por exemplo: há um erro na coleta ou na transcrição dos dados?
A força da correlação se dá a partir da magnitude dos números. Assim, quanto mais próximo de 1 (ou de -1) mais forte os dados estão correlacionados. E não existe correlação quando obtemos o valor zero. Visualmente podemos verificar como algumas correlações aparecem:
Podemos extrair múltiplas leituras a partir da exploração de um gráfico de dispersão. Para vermos algumas possibilidades, vamos usar o gráfico com as variáveis: “Índice de Desenvolvimento Humano – IDH ” versus o “Índice de Percepção da Corrupção – IPC ” de países americanos em 2017.
O IDH é disponibilizado pelo Programa das Nações Unidas para o Desenvolvimento (PNUD) e visa quantificar o desenvolvimento socioeconômico de um país a partir de três dimensões: saúde, através da esperança de vida ao nascer; educação, a partir da média de escolaridade e anos de escolaridade esperados; e renda, a partir da Renda Nacional Bruta (RNB) per capita expressa em poder de paridade de compra (PPP). A escala do IDH é entre 0 e 1, sendo que quanto mais próximo de 1, melhor é o desenvolvimento daquela localidade.
Assim, no gráfico a seguir, cada ponto representa um país do continente americano e o desempenho de cada um em termos de desenvolvimento e corrupção pode ser visto a partir dos eixos:
Podemos começar com uma “leitura geral” a partir da observação dos pontos e da linha de tendência do gráfico acima. Percebemos que há uma relação positiva moderada-forte entre as variáveis, isto é, que países que possuem uma pontuação alta no Índice de Percepção de Corrupção (ou seja, são vistos como menos corruptos), tendem a apresentar elevado nível de desenvolvimento. Ao calcularmos, encontramos uma correlação de 0,71 (71%) entre as duas variáveis. Entretanto, não é possível falar de causalidade, isto é, que uma variável seja a causa da outra. Nesse caso, porque tanto a corrupção quanto o desenvolvimento socioeconômico são fenômenos multifatoriais.
Por fim, podemos dividir o diagrama de dispersão em 4 quadrantes usando dois critérios: a média de 44 pontos do IPC observada para o continente e 0,700 para separarmos os países com elevado IDH:
Assim, observamos que:
No Curso de Estatística: Introdução à Estatística Aplicada, a Profª Fernanda Maciel ensina como aplicar estatística com autonomia e ser um profissional mais qualificado. Caso queira saber os detalhes do conteúdo do curso, basta clicar aqui.
Origem dos dados utilizados: Esteban Ortiz-Ospina and Max Roser (2016) – “Corruption”. Published online at OurWorldInData.org. Retrieved from: ‘https://ourworldindata.org/corruption’
Ferramenta para a construção dos gráficos de tipos de correlação: http://robertgrantstats.co.uk/drawmydata.html
Mais informações sobre o IPC de 2017: https://www.transparency.org/en/cpi/2017