Análise de Dados no Excel

Análise de dados no Excel: Aula 5

Este post é o último da série ” Análise de dados no Excel “. Aqui, vamos aprender como fazer uma análise de regressão com variáveis categóricas no Excel.


Considerações importantes:

1) Para a análise de hoje, utilizaremos uma base de dados chamada Salario2. O arquivo com os dados está disponível aqui.

2) Também é necessário que você já tenha instalado no seu excel um suplemento chamado “análise de dados”, que ensinamos como obter no 1º post da série “Análise de Dados no Excel”. Caso você ainda não tenha instalado, veja como fazer aqui: Análise de dados no Excel – Aula 1

Análise de Regressão com variáveis categóricas no Excel:

Para utilizar variáveis categóricas em uma regressão, vamos transformá-las em dummies. O que são variáveis dummies? Dummies são variáveis binárias, ou seja, você tem uma categoria 0 e 1. Por exemplo, gênero masculino e feminino.
Então vamos aplicar essa informação a um problema para analisarmos e ver como fazer a regressão com esses tipos de dados.

Os dados de hoje são bem similares ao que usamos na aula 4, onde fizemos uma regressão linear simples. Agora nós temos duas variáveis extras, que são chamadas de dummies por terem só dois valores. Uma delas é gênero (masculino e feminino) e a outra é a faixa etária (classificada como abaixo ou acima).

Figura 1

Vamos ao problema: em uma universidade, há a suspeita de que professores que são do gênero masculino e os professores mais jovens estão recebendo um salário maior. Se isso for verdade, é um problema de discriminação. Para saber se isso é verdade, vamos analisar o seguinte:

  • na variável gênero: se os professores do gênero masculino recebem um salário maior do que as de gênero feminino; e
  • na variável faixa etária: foi feito um corte aos 60 anos, porque a hipótese era que os professores com idade acima de 60 anos estão tendo um salário menor do que os professores mais jovens, abaixo de 60 anos.

Para começar vamos fazer uma mudança nas duas variáveis que vamos trabalhar (gênero e faixa etária), pois o Excel só entende número (variável quantitativa), não entende palavras (variável qualitativa). Então é necessário transformar essas palavras em números. Quando a gente trata de variáveis dummies, por só ter dois valores possíveis, a gente vai colocar 0 e 1.

Então primeiro vamos criar 2 novas colunas e colocar do lado esquerdo as duas novas variáveis, ou seja, o gênero e a faixa etária. Vamos colocar do lado esquerdo para todos os dados ficarem juntos e é mais fácil na hora de fazer a análise de regressão.

Figura 2

Para gênero, vamos fazer o seguinte: queremos ver se tem discriminação, se os professores homens estão ganhando mais. Vamos colocar o homem como o número 1 e a mulher como o número 0.
Para transformar a palavra em número vamos fazer o seguinte: colocar filtro nos títulos da planilha, selecionar todos os homens e colocar “1” e arrastar. Depois, selecionar os as mulheres, colocar 0 e arrastar (essa é uma forma de fazer, você pode também usar o comando SE).

Figura 3
Figura 4

Repetiremos o mesmo processo na faixa etária: a hipótese aqui é que os professores abaixo de 60 anos têm um salário maior. Então vamos substituir “abaixo” por 1 e “acima” por 0.

Figura 5
Figura 6

Vale mencionar que a ordem que você coloca o 0 e 1 não importa. Nesse caso colocamos 1 como a variável que a gente está querendo analisar, no caso a discriminação. Mas não importa qual variável que você coloca como 1 ou 0, desde que você saiba interpretar.

Agora vamos fazer a análise de regressão: vamos em “análise de dados”, selecionamos “regressão”.

  • Intervalo Y: selecionamos a coluna salário;
  • Intervalo X: como aqui nós temos três variáveis, vamos selecionar as três colunas (anos de experiência, gênero, faixa etária);
  • Rótulos: são os títulos;
  • Intervalo de saída: selecionamos uma célula em branco;
  • Selecionar OK.

Figura 7

Aparecerá o resumo dos resultados. O que vai importar para a gente nesta análise são os coeficientes, que é a parte que podemos escrever a equação de uma regressão.

figura 1
Figura 8

Para sabermos se os coeficientes são significantes, temos que olhar o p-valor.
Os 3 primeiros valores são muito pequenos, já o último valor é 35,4%, ou seja, é maior que o alfa, que definimos como 5%. Como ele é um valor maior que o alfa, ele não é significante.

Isso significa que a discriminação por faixa etária não existe, ou seja, os professores mais jovens não estão recebendo mais do que os professores mais velhos.

Também não estou assumindo que ao contrário, pois não é isso que estamos testando. Nós só estamos testando se os mais novos recebem mais que os mais velhos e a resposta é não.

Já no gênero a gente vê que é significante, ou seja, existe uma discriminação.

Agora vamos escrever a nossa equação:
Salário = 4,99 + 0,125 * anos exp + 1,547 * gênero – 0,483 * faixa etária

Descobrimos que existe uma discriminação em relação ao gênero. Mas qual é o peso dessa discriminação? Já que os homens estão realmente recebendo um salário maior que o das mulheres, mas quanto de salário? Então o que a gente analisa é somente o coeficiente isolado.

Para medir isso, olhamos o coeficiente isolado e interpretamos da seguinte forma: os homens, em média, recebem um salário a mais que as mulheres em R$1.547, mantendo as outras variáveis constantes, ou seja, estou controlando a variável anos de experiência.

Você pode me dizer “Mas não é discriminação. Os homens estão ganhando mais porque têm mais anos de experiência”. Não podemos dizer isso, pois aqui nesse meu modelo eu inclui a variável “anos de experiência” justamente para controlar isso. Então assumindo os mesmos anos de experiência e a mesma faixa etária os homens recebem um salário de 1.547 reais por mês a mais que as mulheres.

No meu Curso de Estatística eu ensino como aplicar estatística com autonomia e ser um profissional mais qualificado. Caso queira saber os detalhes do conteúdo do curso, basta clicar aqui.

Gostaram de aprender como analisar a regressão quando temos uma variável qualitativa? Aprendemos aqui como transformá-la em uma variável binária, ou dummy.
Esse é o nosso último post do nosso mini curso de Excel, espero que tenham gostado! Diga nos comentários o que achou!
Prof. Fernanda Maciel

Prof. Fernanda Maciel

Professora de Business Analytics na California State University

Pesquise o assunto desejado em estatística no campo abaixo
Inscreva-se na lista de e-mails da Prof. Fernanda Maciel e receba os próximos textos do blog.

© 2021 Prof. Fernanda Maciel

contato@proffernandamaciel.com