Data Science

Quais as Fases de um Projeto de Data Science?

Por Diego Alves, Senior Data Science Consultant na KPMG Brazil

Quando falamos de projetos de Ciência de Dados, parece muito complexo como todo o processo funciona, desde a coleta de dados até a análise dos resultados das informações. A definição de um fluxo de trabalho para projetos dessa área garante que as várias equipes de uma organização estejam em sincronia.

O objetivo principal de qualquer projeto de Ciência de Dados é produzir um produto efetivo. Os resultados utilizáveis ​​produzidos no final de um projeto são chamados de produtos de dados. Um produto de dados pode ser um dashboard, um sistema de recomendação ou qualquer iniciativa que facilite a tomada de decisões de negócios.

Abaixo, explicamos o processo de fluxo de trabalho de projetos dessa área feitos por cientistas de dados.

1. Aquisição de Dados

Um projeto de Ciência de Dados começa com a identificação de várias fontes de dados que podem ser logs de servidores Web, informações de mídia social, dados provenientes de repositórios ou transmitidos de fontes on-line via APIs. A aquisição de dados envolve a extração de informações de todas as fontes internas e externas que podem ajudar a responder à questão comercial.

Para realizar as tarefas acima, são necessárias habilidades técnicas. Por exemplo, para gerenciamento de banco de dados é importante o conhecimento em bancos de dados não-relacionais e relacionais. Se o projeto envolve dados provenientes de arquivos em diversos formatos como CSV (Comma Separated Value) ou TSV (Tab Separated Values), o domínio de bibliotecas Python e R são requisitos. Além disso, se o conjunto de dados utilizado for em grande escala, é necessário usar de tecnologias Big Data (Apache Hadoop, Spark ou Flink).

2. Limpeza de Dados

Os cientistas de dados frequentemente definem essa tarefa como a mais demorada, envolvendo a identificação de vários problemas de qualidade dos dados. Os conteúdos adquiridos na primeira etapa geralmente não estão em um formato utilizável para executar a análise necessária, contendo inconsistências e erros semânticos.

Em posse dos dados, os cientistas de dados precisam limpar e reformatar. A limpeza de dados também inclui a tarefa de extrair e substituir valores, principalmente os relacionados a dados faltantes no conjunto de informações. Pode-se pensar neste processo como o responsável por organizar os dados, remover o que não é mais necessário, substituir o que está faltando e padronizar o formato em todas as informações coletadas.

3. Análise Exploratória de Dados

A análise exploratória de dados verifica conjuntos de dados para resumir suas principais características, geralmente com métodos visuais. Assim, os cientistas de dados podem identificar facilmente as possíveis fraquezas no processo de aquisição de dados, que suposições eles devem fazer e que modelos podem aplicar para produzir resultados de análise.

Primeiramente, é realizada a inspeção dos dados e todas as suas propriedades. Existem diferentes tipos de dados, como os numéricos, os categóricos, os ordinais e os nominais. Por isso, há diferentes estatísticas descritivas que exigem a extração de características e o teste de variáveis significativas.

Como forma de apresentação dos padrões e tendências nos dados, usualmente são desenvolvidas técnicas de visualização de dados, incluindo dashboards interativos, tabelas dinâmicas e diferentes tipos de gráficos. Essas visualizações ajudam na demonstração da importância dos dados e como eles se relacionam com o problema ou solução a ser modelada.

4. Modelagem de Dados

É considerada por muitos cientistas de dados como a fase mais interessante de um projeto de dados. As diversas técnicas de aprendizado de máquina são aplicadas aos dados para identificar o modelo que melhor se adapta às necessidades do negócio.

Um dos primeiros passos na modelagem de dados é reduzir a dimensionalidade do conjunto de dados. Nem todos os recursos ou valores são essenciais para previsão do modelo. Portanto, é necessário selecionar os relevantes que irão contribuir para a previsão dos resultados desejados.

Além da previsão dos resultados, essa etapa pode incluir o agrupamento de dados para entender o relacionamento entre variáveis e o resultado esperado. Esse processo exige a identificação de grupos de dados utilizando algoritmos de clusterização.

A modelagem de dados também engloba o treinamento de modelos de classificação ou regressão, que são desenvolvidos para classificar e prever valores futuros baseado no comportamento do conjunto de dados conhecido. Após o processo de capacitação, é preciso utilizar métodos de avaliação do modelo para mensurar sua eficácia, envolvendo conceitos de álgebra linear, probabilidade e estatística.

5. Interpretação dos Dados

É o passo final sendo muito importante no projeto de Ciência de Dados. A interpretação de dados refere-se basicamente à apresentação dos dados, entregando os resultados de forma a responder às perguntas de negócios realizadas no início do projeto.

Os insights de negócio ​​são resultados que demonstram como Ciência de Dados pode gerar análises preditivas e, mais tarde, análises prescritivas, nas quais pode-se aprender como repetir um bom desempenho ou impedir um resultado negativo. É muito importante que sejam apresentadas as descobertas de forma clara e organizada, para que o processo seja entendido e aplicado da maneira correta.

Nesse processo, somente as aptidões técnicas não são suficientes. Habilidades como bom domínio na realização de apresentações e comunicação, combinadas com um talento para reportar e descrever estudos, definitivamente são essenciais. 

Se a apresentação não ativar o entendimento do público-alvo, isso significa que a comunicação não foi eficiente. É muito comum que sejam apresentados os resultados a uma audiência sem conhecimento técnico. Então, a maneira de comunicar a mensagem é fundamental.

Esperamos que você tenha compreendido melhor como um projeto de Ciência de Dados funciona de ponta a ponta. Se você estiver interessado em aprender como executar de fato um projeto dessa área, nosso curso de Ciência de Dados está com inscrições abertas.

Diego Alves

Diego Alves é Senior Data Science Consultant na KPMG Brazil. Anteriormente já trabalhou para a LexisNexis Risk Solutions e Instituto de pesquisas Eldorado.

Artigos recomendados: