Estatística em R

A estatística em R é uma forma de realizar os cálculos estatísticos de forma mais rápida com o auxílio do programa R. Nesse artigo você verá o que é o R, para que ele é utilizado, porque usá-lo e suas vantagens na aplicação da estatística e como utilizar a estatística em R.

Você também vai sair ao final da leitura com bastante vontade de se desenvolver em R, pois vai ser um diferencial na sua vida profissional.

r

O que é o R?

O R é uma linguagem de programação open source, ou seja, possui o código aberto onde qualquer pessoa que possuir conhecimentos de programação pode colaborar com a linguagem. Foi criada no ano de 1993 por dois estatísticos: o Ross Ihaka e o Robert Gentleman. Já deu para perceber o porquê deles terem chamado de R, né? 🙂

Para que o R é utilizado?

A linguagem R é bastante utilizada no processo de análise de dados. Seja na parte de mineração dos dados, manipulação ou visualização dos dados.

Por que fazer sua estatística no R?

Saber programação é fundamental para quem trabalha com análise de dados e é um grande diferencial na hora de ser contratado por alguma empresa. Mesmo para as pessoas que possuem pouca informação sobre programação, com apenas algumas linhas de código é possível realizar uma análise estatística completa no R. É importante deixar claro que o R não foi criado para ser um software de análise estatística, porém hoje é bastante utilizado nessa área por possuir diversos algoritmos capazes de realizar estatísticas simples e complexas.

O R vem sendo bastante utilizado tanto no meio profissional como acadêmico desde os anos 2000, com uma alta nos últimos anos devido a sua comunidade que é bastante ativa. 

Uma coisa é certa, se você tem alguma dúvida em R outra pessoa já teve essa mesma dúvida antes e ela foi respondida em alguma das comunidades do R. Seja no stackoverflow, ou nas iniciativas de R-Ladies que existem no Brasil e no mundo que sempre contam com materiais de fácil acesso. 

Vantagens de fazer sua estatística em R:

Aqui estão listadas e comentadas 8 vantagens de fazer sua estatística em R. São elas: software de livre acesso e gratuito, alta ferramenta de visualização gráfica, disponível em diversos sistemas operacionais, linguagem simples, fácil entendimento de mensagens de erros e possuir um script para te guiar nas análises. Além da maior vantagem que é te fazer se destacar no mercado de trabalho. 😀

Software de livre acesso

Por ser um software de livre acesso, o R permite que você adicione pacotes ao seu repositório. O que seria isso? Bom, imagine que você precisa realizar uma análise X, mas ela nunca foi feita por ninguém antes ou que não esteja na biblioteca do R. Você pode fazer toda a documentação para essa análise e inserir em um dos repositórios do R para que você possa utilizá-la e também ajudar qualquer pessoa que precise dessa análise posteriormente. Claro que nesse caso precisaria de um conhecimento maior em programação, matemática e em estatística, mas é um diferencial para você se você tem algum pacote desenvolvido em R. Os dois repositórios que são utilizados nesse caso são o CRAN e o BioConductor. Sendo que o CRAN possui mais pacotes e suportes relacionados a estatísticas gerais e ferramentas gráficas e o BioConductor é bastante utilizado pelos profissionais de bioinformática que possuem análises específicas para a área. 

Gratuito

Além de ser uma linguagem open source, o R está disponível gratuitamente para todas as pessoas que precisem baixa-lo. O que é uma grande vantagem em relação a outros softwares estatísticos que geralmente são pagos ou precisam de alguma licença para utilizá-los tornando-se uma linguagem acessível a todos os públicos.

Alta ferramenta de visualização gráfica

Geralmente quando realizamos alguma análise estatística geramos um gráfico para apresentar os resultados, seja em um estudo acadêmico ou um dashboard comercial. E o R é conhecido como um software que possui uma grande gama de ferramentas de visualizações gráficas. Entre os tipos de gráficos que o programa cria estão desde um simples histograma até um gráfico interativo. Você pode observar abaixo alguns dos gráficos produzidos através do R:

Disponível em diversos sistemas operacionais

Além de ser uma versão gratuita, o R está disponível em vários sistemas operacionais, mostrando o quanto a linguagem é acessível. Esses sistemas são: linux, Windows e mac.

Linguagem simples

Pelo foco do R ser análise, manipulação e visualização de dados a linguagem ao longo dos anos foi atualizada de forma a deixar mais simples possível para o programador desenvolver sua análise. O R pode ser ambientado em uma IDE(ambiente de desenvolvimento integrado) que é o R Studio, que traz mais benefícios na manipulação do programa e dos dados. Por contar um ambiente que fornece atalhos, gerenciamento de janelas e até mesmo manuseio de comandos com apenas um clique.

Fácil entendimento de mensagens de erros

Complementando o fato de ser uma linguagem simples de executar e entender, o R possui um sistema de informar erros que você cometeu ao longo do código, facilitando bastante a você perceber onde e porque errou. E então você não precisa perder tanto tempo batendo a cabeça em porque o seu código deu errado.

Possui um Script para te guiar nas análises 

Vamos imaginar que você queira fazer um bolo de cenoura. Para isso você vai precisar dos ingredientes e das instruções de como preparar esse bolo. O script é como se fosse a receita de um bolo. Ou seja, contém o passo a passo de todos os comandos que você vai precisar fazer para poder chegar ao resultado almejado. Esse é um dos diferenciais em utilizar o R em estatística do que o excel por exemplo. Pois no caso do excel você teria que ir fazendo vários cliques até chegar no seu resultado. E no R você tendo apenas o script e sua base de dados você consegue realizar seu trabalho rapidinho. Legal, né? 

Diferencial no mercado de trabalho

Dentro da área de tecnologia existem vários softwares que você pode utilizar quando você vai lidar com análise de dados. Uma forma de você se destacar no mercado de trabalho é dominando uma dessas linguagens de programação. E nada melhor do que começar com uma linguagem que só está crescendo e se desenvolvendo no mercado tecnológico e que é de fácil acesso. 

Abaixo temos um exemplo de uma busca no Linkedin feita no dia 23/06/22  por vagas que um dos requisitos é saber R básico, intermediário ou avançado. Podemos observar que há uma boa procura por profissionais que dominem essa área, tanto no Brasil quanto nos Estados Unidos. As vagas são relacionadas a cientistas de dados, estágios em estatísticas, bioinformática que saiba estatística, analista de dados. É bastante variado os profissionais, mas o que todos têm em comum é saber fazer estatística em R.

Como usar o R em estatística?

O primeiro passo para utilizar o R em estatística é baixar e instalar o programa. Você pode fazer isso seguindo o passo-a-passo abaixo:

  1. Entrar no site www.r-project.org.
  2. Clicar em “CRAN” (presente no lado esquerdo superior abaixo do nome Download)
  3. Escolher o sistema operacional do seu computador
  4. Escolher qual o espelho a ser baixado de acordo com seu país (no caso do Brasil possuem 4 espelhos, a diferença entre cada um é a quantidade de pacotes que já vêm instalados)
  5. Escolher qual o Sistema Operacional (SO) do seu computador
  6. Clicar em “install R for the first time
  7. E por fim, clicar em “ Download R-4.2.0 for Windows” (caso o SO seja Windows)

Depois que baixar o programa, agora é só instalar seguindo os passos que o instalador vai mostrar, executando o programa baixado, escolhendo o idioma e aderindo a licença do software. E por fim, você precisa inserir suas amostras no programa e realizar os comandos necessários para obter seu resultado estatístico. 😀

Exemplo

Análise de estatística descritiva de um conjunto de dados de 50 amostras chamado ‘iris’ que já está presente no R. Esses dados são referentes a três tipos de espécies de plantas (Iris setosa, Iris versicolor e Iris virginica) e o comprimento das suas sépalas e pétalas.
Através do código abaixo temos o comprimento geral das sépalas de todas as espécies.

mean(iris$Sepal.Length, na.rm = T)

[1] 5.843333

Podemos verificar se há alguma presença de outliers através da visualização do boxplot. 

boxplot(iris$Sepal.Length~iris$Species)

Nesse caso, o R vai nos retornar um plot (gráfico).

Além disso, também podemos verificar a distribuição de valores por classe. Nesse caso, o código abaixo é referente a espécie versicolor.

irisVer <- subset(iris, Species == “versicolor”)

boxplot(irisVer[,1:4], main=”Versicolor”,ylim = c(0,8),las=2)

Viu como com uma ou duas linhas de códigos conseguimos realizar uma análise estatística no R? 

No meu Curso de Estatística eu ensino como aplicar estatística com autonomia e ser um profissional mais qualificado. Caso queira saber os detalhes do conteúdo do curso, basta clicar aqui.

Me conta aqui nos comentários se você já usou o R em alguma análise estatística e o que você achou? 

Referências Bibliográficas

Prof. Fernanda Maciel

Prof. Fernanda Maciel

Professora de Business Analytics na California State University

Pesquise o assunto desejado em estatística no campo abaixo
Inscreva-se na lista de e-mails da Prof. Fernanda Maciel e receba os próximos textos do blog.

© 2021 Prof. Fernanda Maciel

contato@proffernandamaciel.com