Introdução à Estatística para Ciência de Dados com R

Author

Jorge Ubirajara Pedreira Junior

Prefácio

A proposta deste livro surgiu da necessidade de dispor de um material didático de apoio às disciplinas que ministro na Escola Politécnica da Universidade Federal da Bahia. No contexto da graduação, ele serve como fio condutor de Estatística aplicada à Engenharia de Transportes (ENGR79) e como base para capacitar estudantes a explorarem dados de forma eficaz em Levantamentos e Pesquisas em Engenharia de Transportes (ENGR80). No âmbito da pós-graduação, apoia Planejamento dos Sistemas de Transporte (PPEC0051), aprofundando em tópicos mais avançados em modelos de regressão, amplamente utilizados na modelagem da demanda por transportes.

Existem muitos livros-texto de excelência sobre o tema, e minha intenção não é substituí-los. Pelo contrário: recomendo algumas obras que são as principais inspirações para este livro. Como referência impressa, Probabilidade e Estatística na Engenharia de William W. Hines, Douglas C. Montgomery, Dave Goldsman e Connie M. Borror, é meu preferido: consistente na base teórica e rico em aplicações de Engenharia (especialmente no contexto industrial). No meio digital, tenho grande apreço por Introduction to Data Science: Data Wrangling and Visualization with R e Introduction to Data Science: Statistics and Prediction Algorithms Through Case Studies, de Rafael Irizarry.

Apesar da abundância de boas obras, três razões principais me motivam a produzir este livro neste momento. A primeira diz respeito ao boom das “carreiras em dados”, com desafios de capacitação distintos da formação tradicional. Experimente buscar termos como “cientista de dados”, “analista de dados”, “engenheira de dados”, “especialista em Big Data”, “especialista em Inteligência Artificial (IA)” e “engenheira de Aprendizado de Máquina” nos portais de emprego: o volume de vagas impressiona. São páginas e mais páginas que parecem não ter fim. E o melhor: as oportunidades vêm dos mais diversos setores, do agronegócio ao mercado financeiro, o que torna a carreira na área especialmente dinâmica.

Para quem acompanha a evolução do mercado de trabalho nos últimos anos, isso não surpreende. É reflexo de décadas de avanços em processamento computacional e telecomunicações, da adoção massiva de dispositivos móveis e da capacidade de monitorar a natureza, objetos e infraestruturas com sensores cada vez mais precisos. O resultado são “toneladas” de informações geradas em tempo real, armazenadas em grandes data centers ou transmitidas instantaneamente para qualquer lugar do mundo, gerando insumos valiosos para compreender fenômenos e tomar decisões mais embasadas.

Um registro claro desta tendência tem sido documentado na publicação Future of Jobs Report, produzido pelo Fórum Econômico Mundial a cada dois anos. Na edição de 2025, foram ouvidos milhares de empregadores que respondem por mais de 14 milhões de colaboradores, cobrindo dezenas de setores e países. Os resultados indicam que quase 90% das organizações veem IA e Tecnologias de Processamento de Dados como o principal vetor de transformação (superando Robôs e Automação de Sistemas) e colocam especialistas em Big Data e especialistas em IA/Aprendizado de Máquina entre as três carreiras com maior crescimento previsto (ao lado de engenheiros de FinTech).

A segunda razão é a cautela. O entusiasmo do momento costuma vir acompanhado de promessas fáceis. Ao abrir descrições de vagas, nos deparamos um volume extenso de habilidades técnicas (uso de software, frameworks e bibliotecas) e teóricas (modelos econométricos e de Aprendizado de Máquina, por exemplo) exigidas para estas profissões. Há quem venda a ilusão de que um pacote de videoaulas te transformará em especialista nestas carreiras de dados em pouco tempo, quase sempre focando no “onde clicar” ou “como rodar este código”. Não se engane: a falta de profundidade nos fundamentos de probabilidade e estatística que sustentam os modelos avançados limita a atuação profissional. Este livro não promete atalhos, mas busca ser um ponto de partida sólido e motivador para consolidar o essencial e dar segurança para passos mais avançados.

A terceira e última razão diz respeito à filosofia que orienta a escrita e a organização deste livro. Muito do material clássico de estatística segue um percurso árido, carregado de fórmulas e com pouca intuição sobre o que elas significam. Lembro-me de quando cursei Álgebra Linear na graduação: saí da disciplina sem entender por que precisaríamos de calcular autovalores, autovetores ou fatorar matrizes. Quase dez anos depois, encontrei a série A Essência da Álgebra Linear, do canal 3Blue1Brown (Grant Sanderson), que apresenta estes e outros conceitos com uma intuição geométrica tão eloquente que aprofundou de modo decisivo meu interesse pelo tema (sobretudo por sua utilidade quando avançamos para a Estatística Multivariada).

Este é o motivo de me preocupar com uma formação inicial em análise exploratória de dados. Logo após Estatística Descritiva (Capítulo 3), partimos para a prática: filtrar, selecionar e ordenar tabelas, elaborar sumários estatísticos, produzir novas variáveis a partir das existentes e visualizar adequadamente cada tipo de informação que a tabela de dados nos oferece. Entendo que mergulhar e dominar esses tópicos antes de avançar para teoria da probabilidade, testes de hipóteses e regressão é fundamental para compreender melhor os conteúdos intermediários típicos de uma disciplina do gênero. A autonomia na produção é fundamental para que as perguntas e hipóteses surjam da exploração dos dados, e só então sejam confrontadas com o arsenal de técnicas que a Inferência Estatística nos oferece.

Por fim, uma pergunta fundamental: por que R? Embora Python seja mais popular e amplamente difundido, este livro adota R por dois motivos práticos. Primeiro, por acreditar que na aderência do seu ecossistema à filosofia deste livro. Gostaria de destacar, sobretudo, os bons princípios para tratamento e visualização de dados incorporados pela família de pacotes do tidyverse. Segundo, pela existência de uma comunidade ativa e colaborativa em diversas áreas, mais especialmente no planejamento urbano e de transportes, que dissemina boas práticas e materiais didáticos de qualidade. Integrar-se a Python é possível (e muitas vezes desejável), mas a escolha por R se alinha ao objetivo didático e à cultura de análise estatística que buscamos aqui.

Diante desse cenário, e depois de pouco mais de 10 anos lecionando temas correlatos e observando como as turmas assimilam os conteúdos, acredito poder contribuir com um roteiro que favoreça o aprendizado. Este livro é a expressão dessa crença. A todas(os) as(os) estudantes e colegas que ajudaram a amadurecer esse caminho, deixo meu enorme agradecimento. Meus sinceros votos de que este livro ofereça solidez e direção ao seu desenvolvimento profissional nesta área em constante evolução. Mãos à obra!