Você já ouviu falar da variável dummy? No post de hoje vamos entender sua definição e sua aplicabilidade quando estamos lidando com variáveis qualitativas.

Definição

Em inglês, a palavra “dummy” significa “manequim” que é utilizado para representar pessoas reais. Fazendo uma analogia,  a variável dummy é um artifício criado para representar as variáveis qualitativas de forma numéricaVariáveis dummies também são chamadas “dicotômicas” e “binárias” e são formadas a partir de variáveis qualitativas com duas categorias que se excluem mutuamente.Essas categorias são sempre associadas com dois valores discretos,  geralmente o 0 e 1. O zero representa a ausência do que se quer medir, e o um representa a presença (também chamado de “sucesso”) da característica desejada.

Alguns exemplos de variáveis dummies são:

  • aluno sem acesso à internet (0) e aluno com acesso à internet (1)
  • não fumante (0) e fumante (1)
  • não há plano de saúde na empresa (0) há plano de saúde na empresa (1)
  • pacientes não hipertensos (0) e pacientes hipertensos (1)

A variável dummy é muito utilizada em análises de regressões (que são feitas com variáveis quantitativas apenas). Como nas Ciências Sociais e em estudos clínicos, é comum que variáveis qualitativas sejam necessárias para estudar um fenômeno, como raça, religião, tipo sanguíneo, IMC, dentre outros., assim, a variável dummy permite que variáveis categóricas sejam incorporadas nas regressões. Em regressões lineares simples e múltiplas a variável dummy é a independente ou preditora (X) e na regressão logística atua como variável dependente (Y)

Quando temos variáveis que já se apresentam como binárias, por exemplo “ter ou não filhos”, “ser ou não casado”, “saber ou não dirigir” é bem fácil encontrar a variável dummy correspondente, basta associar o 0 e 1 para cada categoria.

Como criar variáveis dummies

E quando estamos trabalhando com variáveis com múltiplas categorias, o que fazer? Como variáveis dummies são artificiais elas podem ser criadas a partir de uma variável qualitativa que não seja binária naturalmente. Vamos ver um exemplo:

Considere que está sendo feito uma análise de regressão múltipla sobre o desempenho de alunos no ENEM. Uma das variáveis utilizadas será qualitativa sobre a região geográfica do participante: norte, nordeste, centro-oeste, sudeste e sul. Será possível torná-las variáveis dummies a partir de alguns passos:

  1. Diferente do que podemos pensar não serão criadas 5 variáveis dummies.  Para evitar o problema de “multicolienaridade” (assunto para um próximo post) sempre devemos subtrair uma unidade do total de categórias: n -1. Assim, como temos 5 regiões -> (5-1), teremos 4 variáveis dummies no total: D1, D2, D3 e D4.
  2.  Em seguida, devemos escolher uma das categorias como “grupo controle”, pois iremos comparar as demais categorias com esse grupo de referência. Como escolher? Depende do objetivo da pesquisa. Mas uma boa dica é que quando não está claro qual o grupo controle, podemos adotar a categoria que abrange a maioria das pessoas. No nosso exemplo, a região sudeste será o grupo base uma vez que há uma concentração populacional nesta região. Desse modo, a categoria “região sudeste” terá valor 0 para todas as variáveis dummies.
  3. Agora podemos dar continuidade à criação das variáveis:

  •  Para a variável D1, o valor 1 é associado com a primeira categoria que quero comparar com o grupo (categoria) base. Todas as demais categorias também recebem valor zero. De forma arbitrária, defino a região centro-oeste para a variável D1, assim a região controle (Sudeste) e as demais regiões recebem 0 como valor.

variável dummy | Blog da Prof. Fernanda Maciel
  •  Para a variável D2 , o valor 1 é associado com a segunda categoria que quero comparar com o grupo (categoria) base. Todas as demais categorias também recebem valor zero. De forma arbitrária, defino a região nordeste para a variável D2:
variável dummy | Blog da Prof. Fernanda Maciel
  •  Repito esse processo para a variável D3 e D4. Ao final obtenho as seguintes variáveis:
variável dummy | Blog da Prof. Fernanda Maciel
  •  A partir de agora consigo incluir a variável região geográfica nas análises de regressão, isso é o que veremos em detalhes no próximo post sobre esse tema.

Enquanto isso, aproveite para revisar os conceitos de tipos de variáveis e  variável aleatória

No meu Curso de Estatística: Introdução à Estatística Aplicada eu ensino como aplicar estatística com autonomia, ser um profissional qualificado e concluir seu primeiro projeto em 8 semanas. Caso queira saber os detalhes do conteúdo do curso, basta clicar aqui.

Referências

FIELD, Andy. Descobrindo a estatística usando o SPSS. 2.ed. Porto Alegre: Artmed, 2009.

GARAVAGLIA, Susan; SHARMA, Asha. A smart guide to dummy variables: four applications and a macro. Disponível em: https://stats.oarc.ucla.edu/wp-content/uploads/2016/02/p046.pdf. Acesso em: mai.2022.

GUJARATI, Damodar N; PORTER, Dawn C. Econometria Básica. 5. ed. Porto Alegre: AMGH, 2011.

Prof. Fernanda Maciel

Prof. Fernanda Maciel

Professora de Business Analytics na California State University

© 2021 Prof. Fernanda Maciel

contato@proffernandamaciel.com