Facebook pixel
>Blog>Ciência de Dados
Ciência de Dados

Projeto em Data Science: 5 passos para implementar

Se você deseja se tornar um cientista de dados, montar e gerir uma equipe de Data Science ou até mesmo contratar produtos e serviços na área, este texto é para você! Baseado na experiência de vários profissionais especialistas na área, comparamos o que ensinam em cursos e materiais online com o que acontece na prática.

Se você deseja se tornar um cientista de dados, montar e gerir uma equipe de Data Science ou até mesmo contratar produtos e serviços na área, este texto é para você! Baseado na experiência de vários profissionais especialistas na área, comparamos o que ensinam em cursos e materiais online com o que acontece na prática. Ao final dessa leitura, você aprenderá de maneira fácil e intuitiva como lidar com problemas reais de Data Science. Este é o primeiro texto da série Gestão & Data Science. Neste artigo trabalharemos os elementos-chave, e nos seguintes, os aprofundaremos.

Independente das variações na estrutura e no tamanho da equipe, existem 5 etapas em um projeto completo de Data Science:

  1. Entender o problema e as possíveis soluções;
  2. Obtenção e tratamento dos dados;
  3. Análise e interpretação dos resultados;
  4. Comunicação dos aprendizados;
  5. Tomada de decisão e implementação.

Confira com a gente a seguir todos os detalhes de cada uma dessas etapas!

Por dentro do Data Science

Vamos começar pela pergunta de ouro: o que é Data Science? Resumidamente, é um conjunto de conhecimentos e técnicas que incorporam diversas tecnologias para extrair informações de dados. Projetos de Data Science usam estatística, machine learning, programação  e outras ferramentas tecnológicas para descobrir tendências e padrões ocultos, entender e interpretar fenômenos, gerar previsões e automatizar decisões e tarefas complexas.

Agora, façamos outra pergunta importante: Quais são os papéis e competências necessários para montar uma equipe de Data Science? Apesar de não existir um consenso, é possível distinguir três essenciais:

  • Data Scientist, aquele que analisa e desenvolve soluções que transformam dados em informação. Requer conhecimentos de programação, estatística, machine learning e comunicação de resultados;
  • Data Engineer é aquele que obtém e gerencia os dados, além de implementar e escalabilizar a solução desenvolvida. Requer compreensão de engenharia de software e de infraestrutura de dados;
  • Data Science Manager, que faz a interface e a gestão da equipe com terceiros e garante a qualidade do projeto. Deve ser um gestor experiente, bem articulado e dominar o processo de gestão e de Data Science.

Em um cenário ideal, cada um dos papéis é preenchido por pelo menos um profissional qualificado. No entanto, fora do nicho de startups e empresas de tecnologia que investem mais em Data Science, existe uma tendência do Data Scientist e do Data Engineer serem a mesma pessoa, e do Data Science Manager ser um gestor generalista.

Nossa metodologia de ensino tem eficiência comprovada
Nossa metodologia de ensino tem eficiência comprovada Aprenda uma nova língua na maior escola de idiomas do mundo! Conquiste a fluência no idioma que sempre sonhou com uma solução de ensino completa. Quero estudar na Fluency
Nossa metodologia de ensino tem eficiência comprovada

1. Entender o problema e as possíveis soluções

Por questões didáticas, é muito comum que aulas e artigos sobre Data Science comecem pela obtenção e tratamento dos dados. Na prática, seja você da equipe de Data Science ou um gestor de uma empresa, o primeiro grande obstáculo será a necessidade de entender o problema. Afinal, como podemos descobrir a melhor solução dentre todas possíveis sem compreender bem o problema? Todo projeto começa porque o cliente tem um ponto de dor a ser sanado, mas, infelizmente, é comum que ao final a questão não tenha sido resolvida. Desta forma, esta etapa é o requisito básico de um projeto de qualidade, uma vez que ela direciona a atuação da equipe de Data Science.

Podemos dizer que falhamos nesta fase quando atuamos no problema errado ou quando fazemos uma solução errada para o problema certo. Quando isso acontece, podemos jogar fora tudo o que fizemos, junto do dinheiro e do tempo investidos. Compreender bem o problema é a metade da solução, por isso dedique tempo e energia no detalhamento desta etapa. Comece mapeando o contexto do problema de uma forma geral: apresente os envolvidos, suas principais atividades e como descobriram esse ponto de dor. Em seguida, reflita sobre os impactos dele nas atividades exercidas. Por fim, compartilhe as expectativas sobre a situação e possíveis soluções com toda a equipe. Comunicação é essencial: todos precisam estar alinhados.

2. Obtenção e tratamento dos dados

A etapa mais demorada e trabalhosa do projeto. Normalmente, quando estudamos Data Science, as bases de dados usadas estão prontas para análise e são de fácil acesso. Na prática, é o oposto! Dados têm diferentes fontes e formatos. Podemos analisar tabelas, imagens, áudios, textos vindos de redes sociais, sites, bancos de dados, pesquisas, documentos digitalizados, etc. Além disso, eles estão longe de prontos para serem analisados: precisam antes serem tratados e integrados.

É um trabalho conjunto entre o dono dos dados e a equipe de Data Science. O primeiro deve fornecer uma visão crítica sobre os dados com base em sua experiência. É preciso apresentá-los, explicar a disponibilidade, o significado dos termos e siglas, os problemas conhecidos e quais podem ser usados (sim, haverá casos onde nem todos serão confiáveis). A equipe de Data Science, por outro lado, emprega técnicas de amostragem, data mining, scraping e big data em ordem de obter e tratar os dados para a análise. Lidando com outliers, missing values, resíduos, corrupção, erros, distorções, tipos incompatíveis, e outros problemas comuns desta etapa.

A qualidade dos dados depende das condições de origem deles e dos tratamentos aplicados. Dados ruins levam a conclusões que parecem certas, mas estão erradas! Essa etapa é bem-sucedida quando o dono dos dados e a equipe de Data Science sabem quais dados estão sendo usados, para que e de que forma, e concordam que assim eles poderão obter bons resultados.

3. Análise e interpretação dos dados

Com os dados prontos, a equipe de Data Science começa a análise e a solução para o problema do cliente começa a ser desenvolvida. A primeira parte consiste na exploração dos dados, para aumentar a familiaridade e a compreensão deles. Em seguida, a equipe começa a desenvolver um ou mais modelos inteligentes (quase sempre baseados em machine learning ou em algoritmos estatísticos) que usarão os dados obtidos para detectar padrões e tendências, gerar previsões ou automatizar decisões e tarefas. Na teoria, este processo é centralizado pela equipe de Data Science sem a participação do cliente. No entanto, apesar deles serem os responsáveis, os aprendizados devem ser compartilhados periodicamente com todos os envolvidos para refinamento com base em questionamentos e explicações a serem testados. 

Essas interações mantém todos alinhados e permitem as intervenções necessárias para que todos cheguem à mesma conclusão. Caso a apresentação seja feita somente ao final do projeto, a equipe pode construir toda a sua análise e modelo sobre premissas erradas, levar achados que são óbvios para o cliente, não investigar outros que são importantíssimos ou, ainda, construir modelos inúteis. Já o cliente fica sem visão do que está acontecendo durante a análise, gerando ansiedade e insegurança quando finalmente vê a solução. Por não estar familiarizado com ela, pode haver rejeição e surpresas que inviabilizam o uso dela.  

4. Comunicação dos resultados

A comunicação dos resultados é talvez a parte mais negligenciada em cursos de Data Science. Saber como fazer bons slides e ter um bom storytelling são competências incríveis para se diferenciar no campo, mas saber comunicar resultados e evitar a linguagem técnica é fundamental. Na prática, cientistas de dados tendem a se comunicar muito mal e a percepção de valor do seu trabalho está limitada pela sua capacidade de fazer os outros o entenderem.

Nossa metodologia de ensino tem eficiência comprovada
Nossa metodologia de ensino tem eficiência comprovada Aprenda uma nova língua na maior escola de idiomas do mundo! Conquiste a fluência no idioma que sempre sonhou com uma solução de ensino completa. Quero estudar na Fluency
Nossa metodologia de ensino tem eficiência comprovada

A primeira coisa que precisamos saber ao comunicar algo é que não existe comunicação perfeita. Tudo muda em função da sua audiência. Pensando em empresas, pessoas com diferentes funções têm diferentes interesses no seu trabalho: uma pessoa técnica (como um analista de dados) pode querer saber como o modelo foi feito, e alguém da operação (como um vendedor), como usar a solução. Já alguém da gestão (como gerentes e diretores), como o seu uso impacta nos lucros da empresa. Outra coisa a considerar é que pessoas têm conhecimentos específicos. Assim, a equipe de Data Science não pode assumir que os clientes entendem o que eles estão falando. É preciso explicar de maneira simples e intuitiva o processo e os resultados, do contrário correm o risco do projeto ser engavetado caso ninguém os entenda.

O que devemos comunicar então? Isso pode mudar em função do público, mas uma orientação geral seria: objetivo, o porquê do projeto existir; contexto e o problema, como chegamos ao problema e o que sabemos dele; relevância do trabalho, quais são os resultados esperados da análise e da solução; método, o que foi feito para resolver o problema e porque a solução é boa; e resultados e recomendações, quais foram os aprendizados e os próximos passos. A comunicação de resultados é uma via de mão dupla, então feedbacks devem ser estimulados para o desenvolvimento de ambas as partes.

5. Tomada de decisão e implementação

A etapa final do projeto tem por objetivo colocá-lo em prática. Podemos fazer isso de duas formas: tomando decisões baseadas em seus aprendizados ou implementando modelos para que atuem nos dados finais. O primeiro cenário envolve dialogar com todos os envolvidos para criar estratégias e ações. Nem sempre esse diálogo é possível, por isso muitas empresas pensam com antecedência em possibilidades e as levam na apresentação final. No segundo cenário, a implementação da solução começa a ser planejada. Modelos podem ser usados de maneira mais pontual e seus outputs serem entregues diretamente ao cliente; ou usados com maior frequência, sendo transformados em aplicações online, possibilitando uso em tempo real ou até integrado aos sistemas do cliente. Seriam exemplos de entregáveis do modelo: previsões de vendas, detecção de anomalias, decisões automáticas, recomendações customizadas, etc. Para  o desenvolvimento de uma aplicação pode haver colaboração da equipe de TI do cliente com a equipe de Data Science. 

O foco nesta etapa é garantir que o projeto tenha utilidade, fazendo uso da interação entre a equipe de Data Science e o cliente. Muitas empresas de Data Science somem ou são negligentes após a entrega final – um erro grave. O cliente terá dúvidas e vai precisar de algum suporte para fazer a implementação. A ausência no final da entrega compromete a implementação e mancha um projeto que, até então, tinha sido bom. 

Aprofunde seus conhecimentos em Ciência de Dados

Data Science é um campo novo com expansão e inovação intensa. Ainda estamos longe de conhecer os limites de todo esse potencial, mas já vemos em suas aplicações as contribuições e o grande valor que vem gerando. Pela falta de entendimento, muitas pessoas e empresas perdem grandes oportunidades de se beneficiar desses avanços.

O Blog da Awari foi criado justamente para manter nossos leitores atualizados, então nos acompanhe e fique por dentro do mundo de Data Science!

? Quer se tornar um cientista de dados? Conheça a Awari!

A Awari é uma plataforma completa com mentorias individuais, cursos com aulas ao vivo e suporte de carreira na área de Dados.

Conheça nossos cursos de Data Science, com intensivos de Ciência de Dados, Machine Learning, Engenharia de Dados e Data Analytics. Saiba mais sobre a nossa jornada personalizada e materiais complementares feitos por especialistas no mercado.

Nossa metodologia de ensino tem eficiência comprovada
Nossa metodologia de ensino tem eficiência comprovada Aprenda uma nova língua na maior escola de idiomas do mundo! Conquiste a fluência no idioma que sempre sonhou com uma solução de ensino completa. Quero estudar na Fluency
Nossa metodologia de ensino tem eficiência comprovada
Nossa metodologia de ensino tem eficiência comprovada
Nossa metodologia de ensino tem eficiência comprovada

Aprenda uma nova língua na maior escola de idioma do mundo!

Conquiste a fluência no idioma que sempre sonhou com uma solução de ensino completa.

+ 400 mil alunos

Método validado

Aulas

Ao vivo e gravadas

+ 1000 horas

Duração dos cursos

Certificados

Reconhecido pelo mercado

Quero estudar na Fluency

Sobre o autor

A melhor plataforma para aprender tecnologia no Brasil

A Awari é a melhor maneira de aprender tecnologia no Brasil.
Faça parte e tenha acesso a cursos com aulas ao vivo e mentorias individuais com os melhores profissionais do mercado.