Neste artigo você encontrará:
A área de Ciência de Dados – também conhecida pelo nome em inglês Data Science – tem ganhado popularidade nos últimos anos devido aos avanços tecnológicos da sociedade. À medida que presenciamos a evolução da informática e das telecomunicações, cada vez mais dados são armazenados, processados e distribuídos. Lidar com esses dados e extrair deles valor é a responsabilidade do cientista de dados.
Nesse processo, os profissionais contam com uma série de ferramentas para coletar, tratar, analisar e apresentar os dados. Uma das tecnologias mais utilizadas para esses fins é a linguagem R, conhecida por sua maestria ao lidar com essas quatro operações básicas dos dados.
GUIA COMPLETO
SOBRE DATA SCIENCE
Por que a Ciência de Dados precisa da linguagem R?
Se você é um profissional que trabalha com planilhas, deve ter percebido que elas cresceram de forma exponencial nos últimos anos. Estamos coletando, tratando e analisando cada vez mais informações de nossos clientes, parceiros, fornecedores e até da nossa própria organização. Essa é uma realidade que não tem volta e estaremos fazendo isso com cada vez mais dados.
Porém, não dá para fazer mais utilizando as ferramentas tradicionais. É possível escalar o trabalho usando planilhas até certo limite. A partir desse ponto, é necessário ter uma tecnologia mais robusta, confiável e eficiente. É neste momento que a linguagem R entra em cena, atuando como uma ferramenta para quem pretende fazer ciência com os dados.
A linguagem R nasceu em 1995 e é constantemente atualizada por uma comunidade viva e atuante. Trata-se de uma implementação da antiga linguagem S da Bell Laboratories (como era conhecida a AT&T). Juntamente com Python, é a tecnologia mais utilizada na criação de softwares estatísticos e análise de dados.
Linguagem R em Data Science
Imagine que uma empresa esteja precisando criar uma previsão de receitas e despesas para o orçamento do próximo ano. Tudo o que ela possui é um grande repositório de dados em uma gigantesca planilha do Excel. O que fazer nesse caso? A linguagem R possui módulos específicos para a coleta de dados, não importando se eles estão em uma planilha, uma página web, um banco de dados SQL ou um arquivo json.
Depois da coleta, esses dados precisam ser tratados. Pode ser necessário retirar valores ausentes, construir índices numéricos, remover tendências, criar variações mensais/trimestrais/anuais ou até dessazonalizar os dados brutos. R é capaz de fazer isso graças aos mais de 5 mil pacotes lançados publicamente que podem ser baixados para estender as capacidades da linguagem.
A próxima etapa do ciclo dos dados é analisar o que foi obtido do tratamento e construir relações entre as variáveis. Será que o resultado responde às perguntas de negócio que foram levantadas? É possível criar uma previsão de receitas e despesas com o tratamento realizado nos dados?
Depois da coleta, tratamento e análise finalmente chegamos à apresentação das respostas. A linguagem R conta com poderosas ferramentas para a exibição de resultados da pesquisa, seja na forma de uma página web ou através de um arquivo de PDF para ser usado em uma apresentação comercial.
GUIA COMPLETO
SOBRE DATA SCIENCE
Como aprender a linguagem R?
Como para quase tudo na tecnologia, há abundância de material disponível para aqueles que querem se aprofundar em determinado tema. No caso da linguagem R, a nossa recomendação é o livro “R for Data Science” (“R Para Data Science”, na tradução em português), facilmente encontrado nas principais livrarias do mercado.
O site baseado no livro (em inglês) traz um excelente guia para aqueles que desejam ter uma visão ampla sobre a linguagem e pavimentar o caminho para a carreira de cientista de dados. Além de aprender os conceitos básicos de R, o leitor também vai conhecer as funções e aplicações práticas que podem ser utilizadas no dia a dia de quem trabalha com Data Science.
Se você quer aprender mais sobre Ciência de Dados, deveria conhecer o nosso MBA em Data Science (que explora a linguagem de programação R). No Instituto Infnet, também temos graduações tecnológicas que certamente oferecerão uma base sólida para a construção de conhecimento em diversas áreas da tecnologia.
- Graduação presencial em Ciência de Dados e Inteligência Artificial;
- Graduação Live (à distância) em Banco de Dados (BI e Big Data);
- Pós-graduação presencial MBA em Data Science (Ciência de Dados);
- Pós-graduação Live (à distância) MBA em Data Science (Ciência de Dados);
- Curso de formação em Data Science & Big Data;
- Curso de formação em Inteligência Artificial (IA) & Machine Learning;
- Curso de formação em Microsoft Certified: Data Analyst Associate;
- Curso de formação em Microsoft Certified: Azure Database Administrator Associate;
- Bootcamp em Data Science, Data Analytics & Machine Learning.