O que são medidas de dispersão?

A variabilidade dos dados individuais pode ser compreendida pelas medidas de dispersão. Confira o guia a seguir para você entender melhor esse tema!

Introdução

Anteriormente, vimos como é útil ter um número que sumarize os dados, a chamada medida de tendência central. Todavia, não é suficiente ter apenas as medidas de centralidade, pois os dados, em menor ou maior magnitude estão “espalhados” ao redor dessa medida, que na maioria dos casos é a própria média.

As medidas descritivas de dispersão ou variação nos ajudam, portanto, a quantificar através de um único valor, a dispersão (distância) dos dados em torno da medida de centro.

E por que essa informação é importante? Porque a confiabilidade que teremos na média se dá a partir da dispersão dos dados, isto é, quando os dados estão muito dispersos, a média tende a não ser uma medida descritiva relevante para a amostra.

Veremos as seguintes medidas de dispersão: amplitude, variância, desvio-padrão e coeficiente de variação.

Amplitude

A amplitude é a mais simples medida de variabilidade, sendo a diferença entre o maior e o menor valor. É como se nos desse o “comprimento da variação” e o seu cálculo é muito simples:

A = x max – x min

Como exemplo, vamos supor que alguns estudantes foram escolhidos aleatoriamente para responderem a distância entre suas casas e a faculdade “Z”. Segue os dados em ordem crescente:

dispersão | Blog da Prof. Fernanda Maciel

A amplitude será portanto A = 25 – 5 = 20. Logo, a variação na distância entre casa e faculdade é de 20 quilômetros.

Imagine que acrescentássemos o dado de um aluno que estuda no modelo EAD e portanto, está mais distante da faculdade:

dispersão | Blog da Prof. Fernanda Maciel

A nova amplitude será: A = 130 – 5 = 125. Agora a variação na distância entre casa e faculdade é de 125 quilômetros.

Com a inserção de um outlier a amplitude do grupo aumentou significativamente, embora não reflita a variação dos valores intermediários. Isso acontece pois no seu cálculo é considerado apenas os dois valores extremos e a amplitude é muito sensível a eles, como percebemos.

Se você quer entender melhor sobre a amplitude (intervalo) interquartil, clique aqui.

Variância

A variância, por outro lado, usa todos os valores do conjunto em seu cálculo e com ela conseguimos perceber o quanto os dados se distanciam em média, da média do conjunto.

Para encontrarmos a variância, precisamos inicialmente verificar quanto cada valor individual se distancia da média, o que em Estatística é denominado desvio = valores observados (x) – média (x̅).

Vamos utilizar novamente os dados dos estudantes apresentados anteriormente:

dispersão | Blog da Prof. Fernanda Maciel
Conseguimos visualizar os desvios no gráfico abaixo, em que a linha tracejada representa a média (x̅) do grupo igual a 15 e as linhas verticais representam o desvio de cada valor observado em relação à essa média:
dispersão | Blog da Prof. Fernanda Maciel
Em seguida, fazemos o somatório desses desvios e iremos perceber que sempre será igual a zero, porque os desvios positivos “cancelam” os desvios negativos. Matematicamente podemos resolver esse problema ao elevar ao quadrado cada desvio e em seguida fazer o somatório dos desvios ao quadrado (∑ SS):
dispersão | Blog da Prof. Fernanda Maciel

A última etapa consiste em dividir o somatório dos desvios ao quadrado por n -1, porque estamos trabalhando com uma amostra. Assim, a variância, será:  S ² = 350/9  = 38,9 km ².

Podemos dizer que a dispersão em torno da distância média é de 38,9 km ao quadrado. Isso acontece porque a variância apresenta como unidade de medida os dados originais elevados ao quadrado, dado a forma em que é calculada, o que torna sua interpretação difícil. É por este motivo que o desvio-padrão é a medida de dispersão mais utilizada, como veremos no próximo tópico.

A variância terá valor zero apenas se todos os dados forem iguais, isto é, se não houver nenhum desvio em relação à média. Mas geralmente a variância será um número positivo e quando outliers são incluídos no conjunto, o seu valor aumenta consideravelmente.

Há basicamente duas fórmulas para a variância:

dispersão | Blog da Prof. Fernanda Maciel

Desvio Padrão

O desvio-padrão é por definição igual à variância, isto é, ele é uma medida de quanto os dados se afastam da média, em média. O desvio-padrão é preferível a variância, porque ele tem a mesma unidade de medida do conjunto de dados. O seu cálculo é simples: basta tirar a raiz quadrada da variância.
dispersão | Blog da Prof. Fernanda Maciel

Quanto menor for o desvio padrão, mais próximos os dados estão da média. Ao passo que um desvio padrão grande, indica que a variação é maior e os dados estão distantes dela. Nessa situação, a média não é uma medida confiável para representar os dados de forma precisa. Podemos afirmar que o desvio padrão é uma medida de confiança sobre a média.

Tal como a variância, o desvio padrão só será zero se todos os valores do conjunto forem exatamente iguais à média. Assim, sempre será um valor positivo e sensível a outliers no conjunto.

E qual a aplicação prática do desvio padrão? É possível utilizá-lo para comparar a variação entre amostras e populações que têm a mesma unidade de medida e cujas médias sejam iguais.

Vamos imaginar agora que temos dois grupos de estudantes que responderam a pergunta sobre a distância que estão da faculdade. Os dois grupos têm média igual a 15.

dispersão | Blog da Prof. Fernanda Maciel
dispersão | Blog da Prof. Fernanda Maciel
Os desvios de cada grupo serão:
dispersão | Blog da Prof. Fernanda Maciel
Percebemos que o grupo 2 possui maior variação, isto é, seus dados estão mais dispersos ao redor da média.

Coeficiente de Variação

É uma medida de dispersão que descreve o desvio padrão em relação à média como um percentual. Suas fórmulas são:
dispersão | Blog da Prof. Fernanda Maciel

Sua principal aplicação é comparar dois ou mais grupos de dados que apresentem médias diferentes. Ademais, embora não seja um consenso para todos os casos, quando o coeficiente de variação é maior que 30% os dados são considerados heterogêneos, caso contrário serão homogêneos.

Considere dessa vez que temos dois grupos de alunos, porém agora com médias diferentes. O grupo 1 apresenta média = 15 e o grupo 3 com média = 30

dispersão | Blog da Prof. Fernanda Maciel
dispersão | Blog da Prof. Fernanda Maciel
Calculando os coeficientes encontramos:
dispersão | Blog da Prof. Fernanda Maciel

Assim, ambos os grupos podem ser considerados heterogêneos e o grupo 3 (44,1%) é um pouco mais variável que o grupo 1 (44,6%).

O que você achou do guia, ele te ajudou? Compartilhe suas dúvidas ou sugestões! E também confira o post sobre medidas de forma: assimetria e curtose.

Até a próxima semana!

Referências

FÁVERO, Luiz Paulo; BELFIORI, Patrícia. Manual de análise de dados. 1ed. Rio de Janeiro: Elsevier, 2017.

FIELD, Andy. Descobrindo a estatística usando o SPSS. 2.ed. Porto Alegre: Artmed, 2009.

LARSON, Ron; FARBER, Betsy. Estatística Aplicada. 6.ed. São Paulo: Pearson Education do Brasil, 2015.

TRIOLA, Mario F. Introdução à Estatística. 12.ed. Rio de Janeiro: LTC, 2017.

Prof. Fernanda Maciel

Prof. Fernanda Maciel

Professora de Business Analytics na California State University

Inscreva-se na lista de e-mails da Prof. Fernanda Maciel e receba os próximos textos do blog.

© 2021 Prof. Fernanda Maciel

contato@proffernandamaciel.com