Como ler um histograma

Uma boa maneira de visualizar a distribuição de uma variável numérica é um histograma. Mas no que eles consistem? Histogramas são uma forma de exibir a distribuição de um conjunto de dados, representando o número ou porcentagem de observações cujos valores se enquadram dentro de intervalos numéricos predefinidos e, em seguida, plotando esses números ou porcentagens em um gráfico de barras. Ou seja, em um histograma, os dados são colocados em intervalos e a altura das barras representa o número de casos que caem em cada intervalo. Em outras palavras, um histograma fornece uma visão da densidade de dados.

Primeiro passo - eixo Y

A primeira coisa a se observar em um histograma é: onde está o seu pico? Nesse caso, barras mais altas representam onde os dados são relativamente mais comuns!

Moda ou Modalidade

histograma

As distribuições podem ser unimodais com um pico proeminente, bimodais com dois picos proeminentes, ou uniformes sem picos proeminentes. Com mais de dois picos proeminentes uma distribuição é geralmente dita ser multimodal.

histograma
Você trabalhará mais de perto com a distribuição unimodal, também chamada de distribuição normal, que você também pode conhecer como a curva de sino como você pode ver acima. Uma distribuição bimodal pode indicar que existem dois grupos distintos em seus dados. 

Segundo passo - eixo X

A segunda coisa a se fazer é avaliar a dispersão da sua amostra para entender o quanto seus dados variam. Será que meus dados são simétricos? Ou seja, se eu dividir o gráfico no meio, o lado esquerdo vai ser igual ao lado direito? É assimétrico? Ou seja, o lado direito não parece com o esquerdo? Será que eu tenho outliers (valores extremos)?

Assimetria

Aqui, verei a assimetria (skewness) da minha curva. Se nenhuma assimetria é aparente, então a distribuição é dita ser simétrica (em outras palavras o lado direito da curva é igual ao esquerdo). Em uma distribuição assimétrica à esquerda, a cauda mais longa está à esquerda na extremidade negativa, ou seja, eu tenho alguns valores extremos menores/negativos.  E em uma distribuição assimétrica direita é o contrário, a cauda mais longa está à direita, a extremidade positiva. 

histograma

Exemplo

Supomos que eu queira analisar a pressão sistólica. A pressão arterial sistólica (PAS), também conhecida como “pressão máxima”, se refere à pressão do sangue no momento que o coração se contrai para impulsionar o sangue para as artérias. Quanto mais o coração se contrai, maior é a pressão sistólica. A leitura da pressão arterial é medida por milímetros de mercúrio (mmHg). Dessa forma, se o paciente apresentar uma pressão arterial de 120/90 mmHg, isso significa que a sua pressão máxima sobre a parede da artéria (sistólica) é de 120 mmHg.
Vamos dizer que temos uma amostra clínica de 113 homens selecionados aleatoriamente de uma população clínica. Temos medidas sobre as pressões sanguíneas sistólicas. Com isso, podemos criar um histograma com esses dados coletados.
histograma
Então na figura acima vemos um histograma dessas 113 medidas com intervalos iguais a 10 milímetros de mercúrio. Podemos ver inicialmente que se trata de uma distribuição unimodal, com pico centrado entre 110 e 120 mmHg. Ou seja, esse é o intervalo em que mais temos observações. Podemos ver também que quando chegamos a 90 temos uma crescente no gráfico até chegar ao intervalo de 120 a 130, que então começa a diminuir novamente. Sobre a distribuição e assimetria, temos que olhar com um pouco mais de calma. Teoricamente, podemos dividir o histograma no meio e nos perguntar se o seu lado esquerdo é igual ao direito. Nesse caso, percebemos que não é igual, então podemos afirmar que tem uma certa assimetria, correto? Mas também devemos lembrar que dificilmente vamos ter uma distribuição 100% simétrica, apenas encontramos isso na teoria de uma distribuição normal.

Outras formas de representação

Para tornar os histogramas comparáveis entre amostras de diferentes tamanhos de amostra podemos em vez de apresentar o número absoluto observado no eixo y, podemos, em vez disso, apresentar a proporção relativa, que no nosso exemplo é a percentagem de homens, como visto na figura abaixo abaixo.

histograma
Outra forma de representar seria colocando o intervalo de avaliação de maneira diferente. Em vez de intervalos de 10 mmHg, quero torná-las mais largas. Quero fazê-los 20 mmHg! E o que isso vai fazer com o nosso gráfico? Veja na figura a seguir!
histograma
Aqui na figura acima, nós não temos tantos detalhes sobre a disseminação dos valores e como eles estão centrados no meio e como a proporção deles diminui quanto mais nos afastamos desse centro. Ele ainda está aqui, mas não tão detalhadamente quanto vimos antes. Quanto maior colocarmos o intervalo, mais detalhes perdemos.
exemplo 4

Por outro lado, podemos exagerar na outra direção e fazer as caixas realmente pequenas. Neste caso, eu fiz o histograma com caixas de um milímetro de mercúrio de largura, e ainda vemos algo parecido com o que vimos quando tínhamos caixas de 10 milímetros de mercúrio de largura, mas talvez com mais detalhes do que é necessário pelo menos para esta amostra única! Podendo, então, prejudicar a nossa análise.

Agora, você deve estar se perguntando, como eu calculo a quantidade de “caixas” no histograma e suas larguras? Bem, essa parte é fácil. Em teoria, o número de classes seria a raiz quadrada no número de observações. Outro método utilizado é a regra Sturges, onde k = 1 + 3,322 * log 10 (N), sendo k o número de classes, N o número total de observações na amostra e Log é o logaritmo comum da base 10.

Já para saber a amplitude, basta calcular o valor máximo menos o valor mínimo e dividir pelo número de classes. Você pode usar desta forma, mas a ideia é que sejam exemplos menos “teóricos” e mais aplicados à vida real. Depende do seu problema ou interesse. Pode ser que para sua pergunta de pesquisa seja mais interessante colocar de 5 em 5 mmHg do que 10 em 10 mmHg.

Pronto, agora você nunca mais esquece como ler um histograma. Espero ter ajudado! Leia também nosso texto sobre p-valor.

Prof. Fernanda Maciel

Prof. Fernanda Maciel

Professora de Business Analytics na California State University

© 2021 Prof. Fernanda Maciel

contato@proffernandamaciel.com