A variabilidade dos dados individuais pode ser compreendida pelas medidas de dispersão. Confira o guia a seguir para você entender melhor esse tema!
Anteriormente, vimos como é útil ter um número que sumarize os dados, a chamada medida de tendência central. Todavia, não é suficiente ter apenas as medidas de centralidade, pois os dados, em menor ou maior magnitude estão “espalhados” ao redor dessa medida, que na maioria dos casos é a própria média.
As medidas descritivas de dispersão ou variação nos ajudam, portanto, a quantificar através de um único valor, a dispersão (distância) dos dados em torno da medida de centro.
E por que essa informação é importante? Porque a confiabilidade que teremos na média se dá a partir da dispersão dos dados, isto é, quando os dados estão muito dispersos, a média tende a não ser uma medida descritiva relevante para a amostra.
Veremos as seguintes medidas de dispersão: amplitude, variância, desvio-padrão e coeficiente de variação.
A amplitude é a mais simples medida de variabilidade, sendo a diferença entre o maior e o menor valor. É como se nos desse o “comprimento da variação” e o seu cálculo é muito simples:
A = x max – x min
Como exemplo, vamos supor que alguns estudantes foram escolhidos aleatoriamente para responderem a distância entre suas casas e a faculdade “Z”. Segue os dados em ordem crescente:
A amplitude será portanto A = 25 – 5 = 20. Logo, a variação na distância entre casa e faculdade é de 20 quilômetros.
Imagine que acrescentássemos o dado de um aluno que estuda no modelo EAD e portanto, está mais distante da faculdade:
A nova amplitude será: A = 130 – 5 = 125. Agora a variação na distância entre casa e faculdade é de 125 quilômetros.
Com a inserção de um outlier a amplitude do grupo aumentou significativamente, embora não reflita a variação dos valores intermediários. Isso acontece pois no seu cálculo é considerado apenas os dois valores extremos e a amplitude é muito sensível a eles, como percebemos.
Se você quer entender melhor sobre a amplitude (intervalo) interquartil, clique aqui.
A variância, por outro lado, usa todos os valores do conjunto em seu cálculo e com ela conseguimos perceber o quanto os dados se distanciam em média, da média do conjunto.
Para encontrarmos a variância, precisamos inicialmente verificar quanto cada valor individual se distancia da média, o que em Estatística é denominado desvio = valores observados (x) – média (x̅).
Vamos utilizar novamente os dados dos estudantes apresentados anteriormente:
A última etapa consiste em dividir o somatório dos desvios ao quadrado por n -1, porque estamos trabalhando com uma amostra. Assim, a variância, será: S ² = 350/9 = 38,9 km ².
Podemos dizer que a dispersão em torno da distância média é de 38,9 km ao quadrado. Isso acontece porque a variância apresenta como unidade de medida os dados originais elevados ao quadrado, dado a forma em que é calculada, o que torna sua interpretação difícil. É por este motivo que o desvio-padrão é a medida de dispersão mais utilizada, como veremos no próximo tópico.
A variância terá valor zero apenas se todos os dados forem iguais, isto é, se não houver nenhum desvio em relação à média. Mas geralmente a variância será um número positivo e quando outliers são incluídos no conjunto, o seu valor aumenta consideravelmente.
Há basicamente duas fórmulas para a variância:
Quanto menor for o desvio padrão, mais próximos os dados estão da média. Ao passo que um desvio padrão grande, indica que a variação é maior e os dados estão distantes dela. Nessa situação, a média não é uma medida confiável para representar os dados de forma precisa. Podemos afirmar que o desvio padrão é uma medida de confiança sobre a média.
Tal como a variância, o desvio padrão só será zero se todos os valores do conjunto forem exatamente iguais à média. Assim, sempre será um valor positivo e sensível a outliers no conjunto.
E qual a aplicação prática do desvio padrão? É possível utilizá-lo para comparar a variação entre amostras e populações que têm a mesma unidade de medida e cujas médias sejam iguais.
Vamos imaginar agora que temos dois grupos de estudantes que responderam a pergunta sobre a distância que estão da faculdade. Os dois grupos têm média igual a 15.
Sua principal aplicação é comparar dois ou mais grupos de dados que apresentem médias diferentes. Ademais, embora não seja um consenso para todos os casos, quando o coeficiente de variação é maior que 30% os dados são considerados heterogêneos, caso contrário serão homogêneos.
Considere dessa vez que temos dois grupos de alunos, porém agora com médias diferentes. O grupo 1 apresenta média = 15 e o grupo 3 com média = 30
Assim, ambos os grupos podem ser considerados heterogêneos e o grupo 2 (44,1%) é um pouco mais variável que o grupo 1 (41,6%).
O que você achou do guia, ele te ajudou? Compartilhe suas dúvidas ou sugestões! E também confira o post sobre medidas de forma: assimetria e curtose.
Até a próxima semana!
No Curso de Estatística: Introdução à Estatística Aplicada, a Profª Fernanda Maciel ensina como aplicar estatística com autonomia e ser um profissional mais qualificado Caso queira saber os detalhes do conteúdo do curso, basta clicar aqui.
FÁVERO, Luiz Paulo; BELFIORI, Patrícia. Manual de análise de dados. 1ed. Rio de Janeiro: Elsevier, 2017.
FIELD, Andy. Descobrindo a estatística usando o SPSS. 2.ed. Porto Alegre: Artmed, 2009.
LARSON, Ron; FARBER, Betsy. Estatística Aplicada. 6.ed. São Paulo: Pearson Education do Brasil, 2015.
TRIOLA, Mario F. Introdução à Estatística. 12.ed. Rio de Janeiro: LTC, 2017.
© 2021 Prof. Fernanda Maciel
contato@proffernandamaciel.com