Como ler um boxplot

boxplot
Figura 01 – boxplot
Um boxplot fornece um resumo gráfico da distribuição de uma amostra. O boxplot mostra a forma, a tendência central e a variabilidade dos dados. É uma maneira padronizada de exibir a distribuição de dados com base em um resumo de cinco números: mínimo, primeiro quartil (Q1), mediana, terceiro quartil (Q3) e máximo. Mas o que significa cada um desses?
• Mínimo: é o menor valor.
• Primeiro quartil (Q1 ou Percentil 25): 25% dos dados são menores que ou iguais a este valor.
• Segundo quartil (Q2 ou Percentil 50): corresponde ao valor central de um conjunto de valores ordenado, sendo uma medida de tendência central. 50% dos dados são menores que ou iguais a este valor.
• Terceiro quartil (Q3 ou Percentil 75): 75% dos dados são menores que ou iguais a este valor.
• Máximo: é o maior valor.
Exemplo 1: para os seguintes dados: 7, 9, 16, 36, 39, 45, 45, 46, 48, 51
Mínimo= 7
Q1 = 14,25
Q2 (mediana) = 42
Q3 = 46,50
Máximo= 51
O boxplot, dessa forma, pode informar sobre seus valores discrepantes e quais são seus valores. Ele também pode dizer se seus dados são simétricos, com que precisão seus dados estão agrupados e se e como seus dados estão distorcidos.

Anatomia do boxplot

Usar um boxplots é a forma ideal para ter um resumo visual dos dados. Desta forma, os pesquisadores podem identificar rapidamente os valores médios, a dispersão do conjunto de dados e os sinais de assimetria.

Posição

Em relação à posição do valor central dos dados, observa-se a linha central do retângulo (a mediana ou segundo quartil). Serve para identificar onde se localiza a medida de tendência central da distribuição.

Dispersão

A dispersão dos dados pode ser representada pelo intervalo interquartil (IIQ) que é a diferença entre o terceiro quartil e o primeiro quartil (tamanho da caixa), ou ainda pela amplitude que é calculada da seguinte maneira: valor máximo – valor mínimo. Embora a amplitude seja de fácil entendimento, o intervalo interquartílico é uma estatística mais robusta para medir variabilidade uma vez que não sofre influência de outliers.

Intervalo interquartílico (Q3 - Q1 ou IIQ)

É definida como a diferença entre Q3 e Q1. No gráfico é representado pela dimensão da caixa. Estende-se do Q1 a Q3 (percentis 25º a 75º). Representa o intervalo dos 50% dos dados em torno da mediana.

Simetria

Um conjunto de dados que tem uma distribuição simétrica, terá a linha da mediana no centro do retângulo. Quando a linha da mediana está próxima ao primeiro quartil, os dados são assimétricos positivos e quando a posição da linha da mediana é próxima ao terceiro quartil, os dados são assimétricos negativos. Vale ressaltar que a mediana é a medida de tendência central mais indicada quando os dados possuem distribuição assimétrica, uma vez que a média aritmética é influenciada pelos valores extremos.
boxplot
Figura 02 – desvio e simetria do boxplot

Outliers

Já os outliers indicam possíveis valores discrepantes, sendo demonstrados nos gráficos como pontos ou estrelas, como representado na figura 1 nas bolinhas vermelhas. No boxplot, as observações são consideradas outliers quando estão abaixo ou acima do limite de detecção de outliers.
O limite de detecção de outliers é construído utilizando o intervalo interquartil, dado pela distância entre o primeiro e o terceiro quartil. Sendo assim, os limites inferior e superior de detecção de outlier são dados por:
Limite Inferior = Q1 – 1,5 * IIQ
Limite Superior = Q3 + 1,5 * IIQ
Exemplo 2: para os seguintes dados: 201, 210, 211, 222, 263, 264, 1033
Mínimo esperado = 131,5
Q1 = 210
Q2 (mediana) = 222
Q3 = 264
IIQ= 54
Máximo esperado = 343,5
Nesse exemplo encontramos um outlier (o número 1033), que está acima do valor esperado. Caso a presença de outliers, o mínimo vira o limite inferior e o máximo vira o limite superior. Caso , não haja presença de outliers, o mínimo e o máximo se mantém. Como no exemplo 2 tem outliers, então o máximo agora não é mais máximo e sim o limite superior. Já no exemplo 1 não possuímos outliers, então não precisamos calcular limite superior e limite inferior.

Bloxplot e a distribuição normal

boxplot
Figura 03 – relação boxplot e histograma
A imagem acima é um paralelo entre um histograma simétrico (de distribuição normal) e como essa distribuição normal se comportaria em um boxplot. Isso pode ajudar a explicar algumas coisas quanto ao entendimento do boxplot. Pode ajudar a entender como os outliers são (para uma distribuição normal) 0,7% dos dados (+/- 2,698 desvios padrões). Ou seja, dentre o meu limite superior e o limite inferior, eu espero encontrar 99,3% dos meus dados. Valores menores ou maiores que isso são improváveis de ocorrer, ou seja, os outliers.

Como comparar Boxplots

Etapa 1: comparar as medianas dos boxplots

Compare as respectivas medianas de cada boxplot. Se a linha mediana de um gráfico de caixa estiver fora da caixa de um gráfico de caixa de comparação, é provável que haja uma diferença entre os dois grupos.
boxplot
Figura 04 – comparação boxplot

Etapa 2: compare os intervalos interquartis e as linhas fora da caixa do boxplot

Compare os intervalos interquartis (ou seja, os comprimentos das caixas) para examinar como os dados estão dispersos entre cada amostra. Quanto maior a caixa, mais dispersos os dados. Quanto menor, menos dispersos os dados.
boxplot
Figura 05 – comparação boxplot
Nessa imagem, temos a distribuição de horas dormidas por dia da semana. Podemos observar que na mediana, temos uma tendência decrescente de segunda a quinta, com um súbito aumento na sexta, e em seguida um decréscimo até domingo. Percebemos que a mediana mais baixa é na quinta feira. Quanto aos intervalos interquartis e linhas fora da caixa, observamos distribuições em sua maioria assimétricas (tanto positivas quanto negativas), com um grande grau de dispersão. O dia que possui menor dispersão é a quarta feira – nesse dia o número de horas dormidas varia de 4 a 7. O dia com maior dispersão é sábado – nesse dia o número de horas dormidas varia de 5,5 a 11,5.
E aí? Ficou mais fácil interpretar um boxplot? Conte aqui nos comentários o que você achou!
Leia também nosso texto sobre p-valor.

No meu Curso de Estatística: Introdução à Estatística Aplicada eu ensino como aplicar estatística com autonomia, ser um profissional qualificado e concluir seu primeiro projeto em 8 semanas. Caso queira saber os detalhes do conteúdo do curso, basta clicar aqui.

Prof. Fernanda Maciel

Prof. Fernanda Maciel

Professora de Business Analytics na California State University

Inscreva-se na lista de e-mails da Prof. Fernanda Maciel e receba os próximos textos do blog.

© 2021 Prof. Fernanda Maciel

contato@proffernandamaciel.com