Linguagem R na prática de Data Science

Neste artigo você encontrará:

A área de Ciência de Dados – também conhecida pelo nome em inglês Data Sciencetem ganhado popularidade nos últimos anos devido aos avanços tecnológicos da sociedade. À medida que presenciamos a evolução da informática e das telecomunicações, cada vez mais dados são armazenados, processados e distribuídos. Lidar com esses dados e extrair deles valor é a responsabilidade do cientista de dados.

Nesse processo, os profissionais contam com uma série de ferramentas para coletar, tratar, analisar e apresentar os dados. Uma das tecnologias mais utilizadas para esses fins é a linguagem R, conhecida por sua maestria ao lidar com essas quatro operações básicas dos dados.

GUIA COMPLETO

SOBRE DATA SCIENCE

capa do pdf data science, cientista de dados infnet

Por que a Ciência de Dados precisa da linguagem R?

Homem, de costas para o leitor, analisando uma rede com dados da linguagem R

Se você é um profissional que trabalha com planilhas, deve ter percebido que elas cresceram de forma exponencial nos últimos anos. Estamos coletando, tratando e analisando cada vez mais informações de nossos clientes, parceiros, fornecedores e até da nossa própria organização. Essa é uma realidade que não tem volta e estaremos fazendo isso com cada vez mais dados.

Porém, não dá para fazer mais utilizando as ferramentas tradicionais. É possível escalar o trabalho usando planilhas até certo limite. A partir desse ponto, é necessário ter uma tecnologia mais robusta, confiável e eficiente. É neste momento que a linguagem R entra em cena, atuando como uma ferramenta para quem pretende fazer ciência com os dados.

A linguagem R nasceu em 1995 e é constantemente atualizada por uma comunidade viva e atuante. Trata-se de uma implementação da antiga linguagem S da Bell Laboratories (como era conhecida a AT&T). Juntamente com Python, é a tecnologia mais utilizada na criação de softwares estatísticos e análise de dados.

Linguagem R em Data Science

Imagine que uma empresa esteja precisando criar uma previsão de receitas e despesas para o orçamento do próximo ano. Tudo o que ela possui é um grande repositório de dados em uma gigantesca planilha do Excel. O que fazer nesse caso? A linguagem R possui módulos específicos para a coleta de dados, não importando se eles estão em uma planilha, uma página web, um banco de dados SQL ou um arquivo json.

Depois da coleta, esses dados precisam ser tratados. Pode ser necessário retirar valores ausentes, construir índices numéricos, remover tendências, criar variações mensais/trimestrais/anuais ou até dessazonalizar os dados brutos. R é capaz de fazer isso graças aos mais de 5 mil pacotes lançados publicamente que podem ser baixados para estender as capacidades da linguagem.

Organograma que demonstra o ciclo de vida dos processos em Data Science e linguagem R
O ciclo de dados é totalmente coberto pela linguagem R.

A próxima etapa do ciclo dos dados é analisar o que foi obtido do tratamento e construir relações entre as variáveis. Será que o resultado responde às perguntas de negócio que foram levantadas? É possível criar uma previsão de receitas e despesas com o tratamento realizado nos dados?

Depois da coleta, tratamento e análise finalmente chegamos à apresentação das respostas. A linguagem R conta com poderosas ferramentas para a exibição de resultados da pesquisa, seja na forma de uma página web ou através de um arquivo de PDF para ser usado em uma apresentação comercial.

GUIA COMPLETO

SOBRE DATA SCIENCE

capa do pdf data science, cientista de dados infnet

Como aprender a linguagem R?

Como para quase tudo na tecnologia, há abundância de material disponível para aqueles que querem se aprofundar em determinado tema. No caso da linguagem R, a nossa recomendação é o livro “R for Data Science” (“R Para Data Science”, na tradução em português), facilmente encontrado nas principais livrarias do mercado.

Capa do livro de linguagem R “R for Data Science”, que tem um pássaro amarelo.
O livro “R for Data Science” é uma ótima fonte de aprendizagem da linguagem.

O site baseado no livro (em inglês) traz um excelente guia para aqueles que desejam ter uma visão ampla sobre a linguagem e pavimentar o caminho para a carreira de cientista de dados. Além de aprender os conceitos básicos de R, o leitor também vai conhecer as funções e aplicações práticas que podem ser utilizadas no dia a dia de quem trabalha com Data Science.

Se você quer aprender mais sobre Ciência de Dados, deveria conhecer o nosso MBA em Data Science (que explora a linguagem de programação R). No Instituto Infnet, também temos graduações tecnológicas que certamente oferecerão uma base sólida para a construção de conhecimento em diversas áreas da tecnologia.

Baixe o guia completo sobre

Data Science

Instituto Infnet Rio de Janeiro. – CNPJ: 00.673.757/0001-46. Rua São José, 90 – 20010-020. | ECDD: Rua do Rosário, 129 – 20041-005. Centro, Rio de Janeiro/RJ .