Regressão linear e regressão logística

Você sabe quando utilizar a regressão linear e regressão logística ?
Antes de mais nada, se você está um pouco confuso em relação a qual tipo de regressão é a melhor para os seus dados, vem comigo que eu vou te explicar a diferença entre essas duas.

Regressão linear

A regressão linear é usada para prever uma variável dependente contínua. Por exemplo, se você possui dados para estimar o preço de uma casa em algum determinado bairro. A princípio, preço é uma variável contínua e também é uma variável dependente, porque é o que você quer prever. Portanto, nesse caso você usaria a regressão linear.
Do mesmo modo, assumimos na regressão linear que a relação entre a sua variável dependente e a variável independente – ou variáveis independentes, já que você pode ter mais que uma -, deve ser linear. Dessa forma, estimamos na unidade de medida da variável dependente.
Voltamos ao exemplo da casa. No caso, as variáveis que podem influenciar o preço de uma casa seriam localização, condição da casa, tamanho, número de banheiros, número de quartos, entre outras. Dessa forma, a gente usa valores para essas variáveis para estimar o preço de uma casa, usando a unidade de medida em reais, supondo uma casa no Brasil.

Regressão logística

Por outro lado, a regressão logística você utiliza para prever uma variável dependente categórica. Agora vou dar um exemplo de uma variável dependente categórica binária, que seria a regressão logística binária:
Digamos que você quer estimar se uma casa será vendida no período de um mês. Neste caso, não estamos mais buscando a estimativa de preço. No exemplo, a variável dependente – venda em um mês – tem duas possibilidades (por isso o binário):
1) a casa foi vendida em um mês;
2) a casa não foi vendida dentro de um mês.
Para estimar isso você usa uma regressão logística.
Antes de mais nada, quando calculamos estamos estimando a probabilidade da variável dependente. Nesse sentido, a unidade de medida aqui é um PERCENTUAL. Voltamos ao exemplo mais uma vez. Agora eu tenho informações sobre casas que estão à venda e eu quero ver se depois de um mês essa casa foi vendida ou não. Dessa forma, usamos as variáveis para estimar a probabilidade da casa ser vendida em um mês. Supondo nesse meio tempo que a casa tenha um determinado preço, em determinada condição, que tenha 2 quartos e um banheiro e tenha determinado tamanho em metros quadrados, usando a regressão logística, podemos estimar que em um mês a casa tem uma probabilidade de venda de 78%.
Conseguiu entender melhor a diferença entre usar uma regressão linear e uma regressão logística? Caso queira receber por e-mail textos como esse, se cadastre na lista abaixo e me escreva sua sugestão de texto para o blog.
Prof. Fernanda Maciel

Prof. Fernanda Maciel

Professora de Business Analytics na California State University

Inscreva-se na lista de e-mails da Prof. Fernanda Maciel e receba os próximos textos do blog.

© 2021 Prof. Fernanda Maciel

contato@proffernandamaciel.com