Após identificarmos os tipos de variáveis e antes de aplicar testes estatísticos, podemos e devemos namorar os nossos dados, isto é, conhecer algumas características fundamentais sobre eles.
Quando temos conjuntos de dados numéricos (discretos ou contínuos), geralmente estamos interessados em saber: qual a posição (centralidade) e dispersão dos meus dados? Qual forma eles apresentam? Há valores discrepantes (outliers)?
Hoje, vamos nos atentar para três medidas descritivas que nos ajudam na tarefa de encontrar o centro dos dados: a média aritmética, mediana e moda, também denominadas como medidas de tendência central ou de posição na Estatística Descritiva.
Podemos escrever em notação para uma amostra e população, respectivamente:
Em que:
x̅ (“x barra”) – representa a média amostral
μ (letra grega mi) – representa a média populacional
Σ (letra grega sigma) – representa o somatório dos dados
x – variável que representa os valores individuais dos dados
n – número de valores em uma amostra
N – número de valores em uma população
Como exemplo de aplicação, imagine que queremos saber quanto tempo um aluno precisa para finalizar um curso de Estatística? Vamos definir que alguém finalizou o curso quando todas as vídeo-aulas foram assistidas.
Assim, se sortearmos um aluno (dentro da população de alunos que fizeram o curso) iremos esperar que ele tenha gasto em média, 3 meses e meio para estudar o conteúdo do curso. Porém, qual a confiança que teremos que essa média é uma boa medida para descrever os dados?
Para isso, precisamos inicialmente de medidas descritivas de dispersão, como a variância ou o desvio-padrão que nos dizem quanto os dados variam em torno dessa média. De forma geral, para tomar boas decisões, o ideal é que tenhamos a média juntamente com a variância ou o desvio-padrão.
A mediana (representada por Md) é uma medida de tendência central cujo valor é posicionado exatamente na metade do conjunto de dados quando eles estão ordenados em ordem crescente ou decrescente.
Desse modo, primeiramente ordenamos os nossos dados e verificamos se temos um conjunto de números ímpar ou par. Vamos voltar para a amostra anterior:
Nesse exemplo, identificamos que temos um conjunto par, com 10 valores:
Com um conjunto ímpar, precisamos apenas encontrar o único número central que divide o conjunto igualmente. Nesse caso, a mediana ainda será o número 4.
Interpretamos esse resultado como: 50% dos alunos precisam de até 4 meses para finalizar o curso de Estatística e os outros 50% precisam de 4 meses ou mais para finalizá-lo.
Uma grande desvantagem da média é ser uma medida sensível a valores extremos, então quando usá-la?
A média é uma medida útil para distribuições simétricas, isto é, quando os dados variam pouco em torno da média. Já a mediana tem uma alta resistência a outliers, por isso, ela é a medida mais indicada para distribuições assimétricas.
Além do exemplo mostrado no vídeo, imagine que agora a nossa amostra de alunos seja um pouco diferente, pois há alunos que finalizaram o curso depois de muitos meses:
Percebemos que agora a média dobrou: de 3,4 para 6,7 meses! Por isso, nessa nova situação, ela não é uma boa medida: exceto os outliers, todos os alunos completaram o curso em 5 meses, no máximo. Por outro lado, a mediana continuou em 4 meses, então ela é uma medida central que descreveria melhor os nossos dados.
Se todos os valores ocorrem com a mesma frequência, não haverá moda (amodal);
Ex: {12, 13, 14, 16 e 17}, não há moda nesse conjunto.
Quando há apenas um valor que se repete com maior frequência, será unimodal:
Ex: {22, 22, 26, 24, 23}. Há uma moda: 22
Quando dois valores ocorrem com maior frequência, será bimodal
Ex: {42, 42, 42, 43, 43, 43, 44, 44, 46, 47}. Há duas modas: 42 e 43
Quando mais de dois valores ocorrem com maior frequência, será multimodal
Ex: {7, 7, 8, 9, 9 , 11, 11, 13, 15, 15, 17, 19, 20}. Há quatro modas: 7, 9, 11 e 15.
Apesar de não ser utilizada tanto quanto a média e a mediana, a moda tem como vantagem a sua aplicação também para variáveis categóricas nominais. Suponhamos que temos uma amostra (fictícia) de alunos que responderam qual módulo de Estatística foi o mais desafiador para eles:
Facilmente percebemos que esse conjunto é unimodal e a moda é o valor nominal “Probabilidade”.
O que você achou dessa revisão de medidas descritivas de centralidade? Compartilhe seu comentário aqui embaixo! No próximo post iremos nos debruçar sobre as medidas de dispersão!
E você já sabe como encontrar o tamanho da amostra para o seu estudo?
No Curso de Estatística: Introdução à Estatística Aplicada, a Profª Fernanda Maciel ensina como aplicar estatística com autonomia e ser um profissional mais qualificado. Caso queira saber os detalhes do conteúdo do curso, basta clicar aqui.
FIELD, Andy. Descobrindo a Estatística com SPSS. 2. ed. São Paulo, Artmed Editora, 2009.
NACLE, Denise Pimenta. Estatística: parte I.
TRIOLA, M. F. Introdução à Estatística. 12. ed. Rio de Janeiro, LTC, 2017.