Awari

15 de janeiro de 2021

As 5 fases de um projeto de Data Science

Monte uma equipe e realize projetos com base no resumo da experiência de vários profissionais

Se você deseja se tornar um cientista de dados, montar e gerir uma equipe de Data Science ou até mesmo contratar produtos e serviços na área, este texto é para você! Baseado na experiência de vários profissionais especialistas na área, comparamos o que ensinam em cursos e materiais online com o que acontece na prática. Ao final dessa leitura, você aprenderá de maneira fácil e intuitiva como lidar com problemas reais de Data Science. Este é o primeiro texto da série Gestão & Data Science. Neste artigo trabalharemos os elementos-chave, e nos seguintes, os aprofundaremos.

Vamos começar pela pergunta de ouro: o que é Data Science? Resumidamente, é um conjunto de conhecimentos e técnicas que incorporam diversas tecnologias para extrair informações de dados. Projetos de Data Science usam estatística, machine learning, programação  e outras ferramentas tecnológicas para descobrir tendências e padrões ocultos, entender e interpretar fenômenos, gerar previsões e automatizar decisões e tarefas complexas. Agora, façamos outra pergunta importante: Quais são os papéis e competências necessários para montar uma equipe de Data Science? Apesar de não existir um consenso, é possível distinguir três essenciais: Data Scientist, aquele que analisa e desenvolve soluções que transformam dados em informação. Requer conhecimentos de programação, estatística, machine learning e comunicação de resultados; Data Engineer é aquele que obtém e gerencia os dados, além de implementar e escalabilizar a solução desenvolvida. Requer compreensão de engenharia de software e de infraestrutura de dados; e por último, o Data Science Manager, que faz a interface e a gestão da equipe com terceiros e garante a qualidade do projeto. Deve ser um gestor experiente, bem articulado e dominar o processo de gestão e de Data Science.

Em um cenário ideal, cada um dos papéis é preenchido por pelo menos um profissional qualificado. No entanto, fora do nicho de startups e empresas de tecnologia que investem mais em Data Science, existe uma tendência do Data Scientist e do Data Engineer serem a mesma pessoa, e do Data Science Manager ser um gestor generalista.

Independente das variações na estrutura e no tamanho da equipe, existem cinco etapas em um projeto completo de Data Science:

  1. Entender o problema e as possíveis soluções
  2. Obtenção e tratamento dos dados
  3. Análise e interpretação dos resultados
  4. Comunicação dos aprendizados
  5. Tomada de decisão e implementação

1. Entender o problema e as possíveis soluções

Por questões didáticas, é muito comum que aulas e artigos sobre Data Science comecem pela obtenção e tratamento dos dados. Na prática, seja você da equipe de Data Science ou um gestor de uma empresa, o primeiro grande obstáculo será a necessidade de entender o problema. Afinal, como podemos descobrir a melhor solução dentre todas possíveis sem compreender bem o problema? Todo projeto começa porque o cliente tem um ponto de dor a ser sanado, mas, infelizmente, é comum que ao final a questão não tenha sido resolvida. Desta forma, esta etapa é o requisito básico de um projeto de qualidade, uma vez que ela direciona a atuação da equipe de Data Science.

Podemos dizer que falhamos nesta fase quando atuamos no problema errado ou quando fazemos uma solução errada para o problema certo. Quando isso acontece, podemos jogar fora tudo o que fizemos, junto do dinheiro e do tempo investidos. Compreender bem o problema é a metade da solução, por isso dedique tempo e energia no detalhamento desta etapa. Comece mapeando o contexto do problema de uma forma geral: apresente os envolvidos, suas principais atividades e como descobriram esse ponto de dor. Em seguida, reflita sobre os impactos dele nas atividades exercidas. Por fim, compartilhe as expectativas sobre a situação e possíveis soluções com toda a equipe. Comunicação é essencial: todos precisam estar alinhados.

2. Obtenção e tratamento dos dados

A etapa mais demorada e trabalhosa do projeto. Normalmente, quando estudamos Data Science, as bases de dados usadas estão prontas para análise e são de fácil acesso. Na prática, é o oposto! Dados têm diferentes fontes e formatos. Podemos analisar tabelas, imagens, áudios, textos vindos de redes sociais, sites, bancos de dados, pesquisas, documentos digitalizados, etc. Além disso, eles estão longe de prontos para serem analisados: precisam antes serem tratados e integrados.

É um trabalho conjunto entre o dono dos dados e a equipe de Data Science. O primeiro deve fornecer uma visão crítica sobre os dados com base em sua experiência. É preciso apresentá-los, explicar a disponibilidade, o significado dos termos e siglas, os problemas conhecidos e quais podem ser usados (sim, haverá casos onde nem todos serão confiáveis). A equipe de Data Science, por outro lado, emprega técnicas de amostragem, data mining, scraping e big data em ordem de obter e tratar os dados para a análise. Lidando com outliers, missing values, resíduos, corrupção, erros, distorções, tipos incompatíveis, e outros problemas comuns desta etapa.

A qualidade dos dados depende das condições de origem deles e dos tratamentos aplicados. Dados ruins levam a conclusões que parecem certas, mas estão erradas! Essa etapa é bem-sucedida quando o dono dos dados e a equipe de Data Science sabem quais dados estão sendo usados, para que e de que forma, e concordam que assim eles poderão obter bons resultados.

3. Análise e interpretação dos dados

Com os dados prontos, a equipe de Data Science começa a análise e a solução para o problema do cliente começa a ser desenvolvida. A primeira parte consiste na exploração dos dados, para aumentar a familiaridade e a compreensão deles. Em seguida, a equipe começa a desenvolver um ou mais modelos inteligentes (quase sempre baseados em machine learning ou em algoritmos estatísticos) que usarão os dados obtidos para detectar padrões e tendências, gerar previsões ou automatizar decisões e tarefas. Na teoria, este processo é centralizado pela equipe de Data Science sem a participação do cliente. No entanto, apesar deles serem os responsáveis, os aprendizados devem ser compartilhados periodicamente com todos os envolvidos para refinamento com base em questionamentos e explicações a serem testados. 

Essas interações mantém todos alinhados e permitem as intervenções necessárias para que todos cheguem à mesma conclusão. Caso a apresentação seja feita somente ao final do projeto, a equipe pode construir toda a sua análise e modelo sobre premissas erradas, levar achados que são óbvios para o cliente, não investigar outros que são importantíssimos ou, ainda, construir modelos inúteis. Já o cliente fica sem visão do que está acontecendo durante a análise, gerando ansiedade e insegurança quando finalmente vê a solução. Por não estar familiarizado com ela, pode haver rejeição e surpresas que inviabilizam o uso dela.  

4. Comunicação dos resultados

A comunicação dos resultados é talvez a parte mais negligenciada em cursos de Data Science. Saber como fazer bons slides e ter um bom storytelling são competências incríveis para se diferenciar no campo, mas saber comunicar resultados e evitar a linguagem técnica é fundamental. Na prática, cientistas de dados tendem a se comunicar muito mal e a percepção de valor do seu trabalho está limitada pela sua capacidade de fazer os outros o entenderem.

A primeira coisa que precisamos saber ao comunicar algo é que não existe comunicação perfeita. Tudo muda em função da sua audiência. Pensando em empresas, pessoas com diferentes funções têm diferentes interesses no seu trabalho: uma pessoa técnica (como um analista de dados) pode querer saber como o modelo foi feito, e alguém da operação (como um vendedor), como usar a solução. Já alguém da gestão (como gerentes e diretores), como o seu uso impacta nos lucros da empresa. Outra coisa a considerar é que pessoas têm conhecimentos específicos. Assim, a equipe de Data Science não pode assumir que os clientes entendem o que eles estão falando. É preciso explicar de maneira simples e intuitiva o processo e os resultados, do contrário correm o risco do projeto ser engavetado caso ninguém os entenda.

O que devemos comunicar então? Isso pode mudar em função do público, mas uma orientação geral seria: objetivo, o porquê do projeto existir; contexto e o problema, como chegamos ao problema e o que sabemos dele; relevância do trabalho, quais são os resultados esperados da análise e da solução; método, o que foi feito para resolver o problema e porque a solução é boa; e resultados e recomendações, quais foram os aprendizados e os próximos passos. A comunicação de resultados é uma via de mão dupla, então feedbacks devem ser estimulados para o desenvolvimento de ambas as partes.

5. Tomada de decisão e implementação

A etapa final do projeto tem por objetivo colocá-lo em prática. Podemos fazer isso de duas formas: tomando decisões baseadas em seus aprendizados ou implementando modelos para que atuem nos dados finais. O primeiro cenário envolve dialogar com todos os envolvidos para criar estratégias e ações. Nem sempre esse diálogo é possível, por isso muitas empresas pensam com antecedência em possibilidades e as levam na apresentação final. No segundo cenário, a implementação da solução começa a ser planejada. Modelos podem ser usados de maneira mais pontual e seus outputs serem entregues diretamente ao cliente; ou usados com maior frequência, sendo transformados em aplicações online, possibilitando uso em tempo real ou até integrado aos sistemas do cliente. Seriam exemplos de entregáveis do modelo: previsões de vendas, detecção de anomalias, decisões automáticas, recomendações customizadas, etc. Para  o desenvolvimento de uma aplicação pode haver colaboração da equipe de TI do cliente com a equipe de Data Science. 

O foco nesta etapa é garantir que o projeto tenha utilidade, fazendo uso da interação entre a equipe de Data Science e o cliente. Muitas empresas de Data Science somem ou são negligentes após a entrega final – um erro grave. O cliente terá dúvidas e vai precisar de algum suporte para fazer a implementação. A ausência no final da entrega compromete a implementação e mancha um projeto que, até então, tinha sido bom. 

Aproveite essa oportunidade…

Data Science é um campo novo com expansão e inovação intensa. Ainda estamos longe de conhecer os limites de todo esse potencial, mas já vemos em suas aplicações as contribuições e o grande valor que vem gerando. Pela falta de entendimento, muitas pessoas e empresas perdem grandes oportunidades de se beneficiar desses avanços. Nossa série Gestão & Data Science foi criada justamente para manter nossos leitores atualizados, então nos acompanhe e fique por dentro do mundo de Data Science!

Escrito por

Felipe Morita

Felipe Morita é cientista de dados e co-fundador da Rocket Science Consulting.

Escrito por

Victor Ogeda

Victor Ogeda é especialista em gestão de projetos de Data Science, Ex-Accenture e Co-Fundador da Rocket Science Consulting