Awari

19 de março de 2021

O que faz um Engenheiro de Dados? Entrevista com Rodrigo Sanches, Data Engineer

Em um mundo cada vez mais conectado, com um fluxo constante de dados e informações, é impossível imaginar uma empresa ou startup que não esteja imersa no ecossistema do Big Data: podemos defini-lo como uma quantidade volumosa de dados variados e complexos que crescem exponencialmente com o tempo e não podem ser gerenciados apenas por um software tradicional de processamento simples. 

Com a quantidade de dados ao nosso redor aumentando a cada dia, faz parte das atribuições desta área auxiliar no tratamento desse alto fluxo de informações. Por isso, obviamente, o campo tornou-se parte fundamental do processo estratégico de todo time de Data Science e de gestores no âmbito empresarial. 

E é justamente neste cenário que surge a questão: como captar e processar um grande volume de dados com a rapidez que o mundo digital exige? 

Hoje, além da sinergia entre o Analista e o Cientista de Dados, para alcançar o sucesso pleno do seu produto ou serviço, faz-se necessária, também, a atuação de profissionais ultra especializados em Big Data como o Engenheiro de Dados. 

Mas o que um Engenheiro de Dados faz na prática?

Para responder essa pergunta, a Awari conversou com Rodrigo Sanches, de 25 anos, Engenheiro de Dados da VR Benefícios, empresa que está presente no dia a dia de milhares de brasileiros, desenvolvendo soluções em benefícios para alimentação, saúde, transporte e cultura. 

Com isso, neste artigo vamos entender como é o dia a dia de um Data Engineer e as responsabilidades dele no universo de Data Science. Vamos lá?

Rodrigo, qual a rotina de um Engenheiro de Dados?

Rodrigo: “Basicamente, ele é responsável pela plataforma de dados. Ou seja, é o cara que vai disponibilizar os dados no início de um projeto. Como faz isso? Ele mapeia e capta os dados não estruturados de diversas fontes, o que a gente chama de Big Data.

Após captar todos esses dados, que podem ser de redes sociais como o Twitter, Facebook ou até mesmo um CRM (Customer Relationship Management) da empresa, ele os transporta para um repositório chamado de Data Lake. 

Para exemplificar o que é um Data Lake: Imagine um lago, dentro dele terá água, peixes, mas também vão ter galhos e outras coisas. Neste local, há uma mistura de arquivos, tabelas, tudo em um repositório central. Desta maneira, a responsabilidade central do Engenheiro de Dados dele é essa: pegar os dados da origem e colocá-lo em um repositório centralizado.” 

Créditos: ecloudvalley

Quais ferramentas você utiliza no dia a dia na VR Benefícios?  

Rodrigo: “No dia a dia nós utilizamos mais as linguagens de programação Python e SQL. Em determinadas situações, usa-se também um Escala, dependendo da conexão que você quer. Normalmente, utilizamos as ferramentas ligadas à nuvem para fazer *ETL, como o Glue (AWS) ou Azure Data Factory (Microsoft). Há outras grandes ferramentas como o Power BI, que eu tenho mais experiência, e que é umas das líderes do mercado há anos. São dezenas de ferramentas, mas acredito que o ponto principal é o profissional ter domínio de pelo menos uma.” 

*A sigla ETL significa Extração, Transformação e Carga (em inglês Extract, Transform and Load) e visa trabalhar com toda a parte de extração de dados de fontes externas.

Como funciona o desenvolvimento de um projeto no time de Data Science? Em que parte o Engenheiro de Dados atua? 

Rodrigo: “Normalmente, o Engenheiro de Dados é o primeiro nessa escala. É o cara que vai trazer o dado bruto para dentro do Data Lake, vai buscá-lo para a fonte. Desta etapa em diante, temos os Analistas e Cientistas de Dados, que participarão da etapa de limpeza e transformação dos dados. Estes profissionais ficam mais na ponta de um projeto, ou seja, com esses dados em mãos, eles irão trabalhar em um modelo, gerar gráficos a partir desse modelo desenvolver uma apresentação sólida.

Então, o Engenheiro de Dados será um dos principais responsáveis principalmente nas fases iniciais de um projeto. Ele é um cara mais técnico e tem que entender bastante de infraestrutura para conseguir fazer processos rodarem em paralelo e performarem melhor.” 

Qual a importância de ter um Engenheiro de Dados no time de Data Science? 

Rodrigo: “Um Engenheiro de Dados está na raiz do projeto. Ele vai mapear as variáveis, a partir das demandas solicitadas pelo Cientista de Dados, e encontrar uma forma de disponibilizá-las para que todos consigam trabalhá-las da melhor forma possível. Estudos da O’Reilly, plataforma de treinamentos de TI, dizem que precisa-se de 4 Engenheiros de Dados para cada Cientista de Dados. E eu acredito muito nisso, principalmente porque essas etapas de trazer os dados e fazer a limpeza do estado bruto dele para conseguirmos trabalhar, é bastante importante nesse modelo.” 

Quais dicas você daria para um profissional que quer migrar para área de Engenharia de Dados?

Rodrigo: “Eu diria: venham com a gente (risos). Brincadeiras à parte, é uma área que necessita de novos profissionais. Percebe-se isso quando você entra no LinkedIn: há mais vagas do que profissionais capacitados para serem Engenheiros de Dados. É um número muito alto de vagas todo mês para essa carreira. 

É uma área que está em constante evolução. Para se ter uma noção, muitas empresas ainda não adotaram esse mundo do Data Lake, ainda vão se adaptar. Agora imagine: se a demanda por profissionais desta área já está alta, imagine quando expandir o número de empresas.

Sobre as dicas, um passo importante para quem quer migrar para a carreira em Engenheiro de Dados é se apegar aos conceitos: conceito de Big Data, o que é um Data WareHouse, o que é um Data Lake. Todos esses conceitos irão ser um diferencial do profissional, porque no momento dele aplicar em sua empresa vai ficar mais fácil de entender cada um desses processos. 

Na parte de tecnologia, é importante estudar modelos de dados relacionais, dimensionais e SQL. Nas linguagens de programação, o Python já é excelente e dará uma boa base. Normalmente é a linguagem mais utilizada pelos Engenheiros de Dados. Há ferramentas usadas por nós, por exemplo, que só trabalham usando Python, como o Airflow.

Engenharia de Dados é uma área incrível para quem gosta de tecnologia. Quem estudar e se dedicar bastante, com certeza terá sucesso nessa carreira.”

Escrito por

Eduardo Valim

Com experiência como Repórter da Globo, atualmente é Redator na Awari. Apaixonado pela escrita e tecnologia, usa isso para criar conteúdos que ajudam pessoas a navegar por assuntos complexos.