Data Science

Qual a Diferença Entra o Analista de BI e o Cientista de Dados?

Por Luciano Santos, BIRENE/PAHO/WHO

Business Intelligence

Business Intelligence tem como objetivo converter dados brutos em insights de negócio, para que gestores possam usar em tomadas de decisões e em novas campanhas de marketing, além de alavancar vendas de algum produto em específico etc. 

Normalmente, os analistas de negócios utilizam ferramentas de BI para auxiliar nessas decisões e/ou criação de novos produtos, nas melhorias em processos de logística, nas sugestões de promoções em datas específicas, por exemplo.

Os analistas de BI são responsáveis por criar um processo de ETL para alimentar o Data Warehouse e/ou a Cubo OLAP e disponibilizar para as áreas de negócios um Dashboard, com uma rica visualização dos dados e respectivos indicadores como KPIs.

  • ETL – Integração de Dados em três etapas (extração, transformação e carregamento) para combinar dados de diversas fontes para os respectivos tratamentos. Normalmente, utilizado para construir um Data Warehouse.
  • Data Warehouse – Repositório de dados digitais que serve para armazenar informações detalhadas relativas a uma empresa, criando e organizando relatórios por meio de históricos que são depois usados pela organização para ajudar a tomar decisões importantes com base nos fatos apresentados.
  • OLAP – Processamento analítico online, permitindo análise aprofundada em diversos ângulos que capacita o usuário a ter ideias sobre os dados. E, com alta flexibilidade e performance, propicia a manipulação e análise de um grande volume de dados sob múltiplas perspectivas.

Em Business Intelligence é composta basicamente de:

  • Dados internos – dados coletados dentro da organização, gerados por colaboradores, gestores, sistemas e stakeholders;
  • Tecnologias e ferramentas – OLAP (online analytical process) 
    • ETL (extract, transforming and loading), 
    • Data Warehousing e Aplicações de Negócio;
  • Insights gerados em Business Intelligence são derivados de conjuntos de dados de tamanho padrão e estruturados; 
  • Soluções de BI são principalmente construídas para análise de informações transacionais – dados gerados durante uma determinada transação, como os gerados em uma venda, ou durante uma transferência de dinheiro entre contas bancárias, o registro de dados de rota de uma entrega, por exemplo; 
  • Os dados transacionais são criados/gerados/transferidos praticamente em todas as atividades de uma organização. 
  • O analista de BI obtém os seguintes tipos de informação:
    • Dados de Atendimento ao Cliente – ajuda a responder a seguinte questão: “Que áreas de negócio estão causando maior tempo de espera para nossos usuários?”;
    • Dados de Marketing e Vendas – ajuda a responder a esta pergunta: “Que estratégias de marketing são mais efetivas e por quê?”;
    • Dados Operacionais – ajuda a responder a seguinte questão: “Qual o nível de eficiência da operação de help desk?”;
    • Dados de Performance de Funcionários – ajuda a responder a esta pergunta: “Que colaboradores são mais produtivos?”

As empresas normalmente utilizam bancos de dados multidimensionais para agilizar o trabalho da área de BI e garantir que os dados estejam organizados, facilitando o acesso e a apresentação das informações. 

Ao contrário de bancos de dados relacionais, os multidimensionais organizam os dados em cubos que são armazenados como matrizes de várias dimensões. 

Para que as equipes de BI sejam capazes de trabalhar com os dados de forma rápida e fácil, pode-se usar bancos de dados multidimensionais para armazenar informações em um cubo, em vez de guardar os conteúdos em vários bancos de dados relacionais que podem ou não ser compatíveis uns com os outros.

Esta estrutura de dados em cubo permite a utilização de Online Analytical Processing (OLAP) – uma tecnologia que viabiliza acessar e usar as informações para todos os tipos de operações e análises. 

Para ilustrar esse conceito, vamos imaginar um cubo de dados de vendas com três dimensões: tempo, região e unidade de negócio. 

Podemos dividir os dados e visualizar somente um quadrado – para ver uma região de vendas, por exemplo: 

  • Separar os dados para ver um cubo menor composto de um subconjunto de tempo, região e unidade de negócio; 
  • Pesquisar para baixo ou para cima para visualizar os dados, de forma altamente detalhada ou muito resumida, respectivamente;
  • Totalizar os números ao longo de uma dimensão – para números totais em unidades de negócio, ou para ver as vendas por tempo e região apenas; 
  • Este é o trabalho de um analista de BI, que normalmente também apresenta habilidades e conhecimento na área de negócio.

Data Science

De forma macro, o cientista de dados tem o mesmo propósito que o analista de BI em uma empresa – converter dados brutos em insights de negócios para contribuir com líderes empresariais e gestores na tomada decisões baseadas em dados. 

Atualmente, as organizações armazenam e coletam um volume muito grande de dados. Assim, podem utilizar as informações como vantagem competitiva.

As empresas que utilizam esses dados de forma eficaz tomam melhores decisões e estão à frente da curva de crescimento. 

Para dar sentido a essas informações, houve a necessidade de criar um conjunto de habilidades que inclui: 

  • Definir e compreender problemas de negócio; 
  • Habilidades analíticas; 
  • Programação (com o surgimento de novas linguagens como: Python, R, Scala, Julia etc.); 
  • Estatísticas; 
  • Aprendizado de máquina; 
  • Visualização de dados. 

Dessa forma, foi criado o papel de cientista de dados. Quando a empresa se depara com uma grande quantidade de dados – estruturados e/ou não estruturados, completos ou incompletos – e precisa transformá-los em informações úteis e valiosas para apoio a tomada de decisão. Por isso, contrata ou cria equipes de cientistas de dados.

A Ciência de Dados é baseada em pilares multidisciplinares com os seguintes elementos:

  • Análise Quantitativa: modelagem matemática, análise estatística, previsões e simulações;
  • Programação: habilidades em programação para analisar dados brutos e torná-los acessíveis aos usuários de negócio;
  • Conhecimento do Negócio: domínio de diretrizes de negócio, para melhor compreender a relevância dos resultados encontrados;
  • Ciência de Dados (disciplina inovadora): cientistas de dados aplicam método científico para a exploração de dados, formação e testes de hipóteses (com de simulação e modelagem estatística). Cientistas de dados geram conhecimentos valiosos com foco em negócios, explorando padrões e/ou anomalias nos dados corporativos. 
  • Conjuntos de dados internos e externos – a Ciência de Dados é flexível, combina de fontes de informações (internas, externas, estruturados e não estruturados) com facilidade para analisá-los em conjunto, com o propósito de fornecer aos usuários uma visão mais completa da situação ou problema analisado;
  • Tecnologias e ferramentas – plataformas baseadas em nuvem, programação matemática, estatística e aprendizado de máquina, análise de dados utilizando Python, R, Java ou Scala com visualização avançada de dados;
  • Uma solução de Ciência de Dados não se limita somente a dados transacionais – conforme já mencionado – por envolver diversas fontes disponíveis como:
    • Dados Transacionais – são os mesmos dados estruturados utilizados em BI tradicional, que inclui informações de gerenciamento, atendimento ao cliente, vendas, marketing e setor operacional, além de desempenho do empregado;
    • Dados de Mídias Sociais – dados não estruturados gerados a partir de e-mails, fóruns, blogs e redes sociais, como Twitter, Facebook, LinkedIn, Pinterest e Instagram;
    • Dados de Máquinas e Operações de Negócio – dados não estruturados gerados automaticamente por máquinas, tal como informações de sensores de automóveis, máquinas industriais em uma linha de produção, por exemplo.
    • Dados de áudio, vídeo, imagem e arquivos PDF – fontes de informações comuns e bem estabelecidas.

Os produtos da Ciência de Dados, muitas vezes, são gerados a partir de Big Data. As soluções de plataformas de dados baseadas em nuvem também são muito adotadas.

Os dados são frequentemente derivados de soluções, como Hadoop, MapReduce, Spark e processamento paralelo. Por isso, os cientistas de dados devem ter visão inovadora e pensar fora da caixa, para buscar soluções para os problemas. 

Normalmente, são escolhidas ferramentas open-source (quando disponíveis), pensando em custo, para beneficiar os projetos e organizações que empregam esses cientistas.

O aprendizado de máquina (Machine Learning) é uma das técnicas utilizadas para encontrar padrões e obter insights de grandes conjuntos de dados, que estão relacionados a uma linha específica ou ao negócio em geral. 

O cientista de dados também apresenta habilidades, como Matemática, Estatística, modelagem preditivos, programação em Python, R, Java ou Scala. A maioria deles sabe como usar SQL para consultar dados relevantes.

Além disso, um cientista de dados deve ter um ótimo senso de negócios e capacidade de comunicar as conclusões baseadas em informações para os tomadores de decisão das empresas. É fundamental selecionar os problemas certos que tenham mais valor para a organização.

Conclusão

  • Enquanto o BI seja amplamente baseado na exploração de tendências passadas, a Ciência de Dados consiste em encontrar preditores (predizer o futuro) e o significado dessas tendências; 
  • Assim, o objetivo principal de um analista de BI é avaliar o impacto de certos eventos nas operações cotidianas de uma empresa ou comparar o desempenho de uma organização com o de outras do mesmo mercado;
  • O cientista de dados avalia como esses eventos impactam o futuro da empresa;
  • Utilizando diferentes ferramentas os analistas de BI e cientistas de dados têm objetivos diferentes a partir da análise de dados.
  • Conforme o quadro acima, podemos dizer, de modo simplista, que as principais diferenças entre analista de BI e o cientista de dados são: 
  • O analista de BI trabalha com dados históricos para saber o que aconteceu e contribuir para tomada de decisão de negócio determinar o que fazer desse ponto para frente;
  • O cientista de dados também analisa dados históricos, porém com o objetivo de prever o que pode acontecer, facilitando muito na tomada de decisão de negócio já com uma previsão de futuro;
  • Apesar de serem profissões diferentes, têm muitas características em comum. Ambas são focadas em análise de negócios e utilizam dados para trabalhar para o mesmo objetivo, porém com abordagem distintas, tecnologia e função diferem de várias maneiras. 

Abaixo uma tabela com o resumo das diferenças operacionais :

AtuaçãoAnalista de BICientista de Dados
FocoRelatório, KPI’s, TendênciasPadrões, Correlações, Modelos Preditivo
ProcessoEstático, ComparativoExploratórios, Experimenta, Visual
Fonte de DadosData Warehouse, Bancos TransacionaisBig Data, Dados Não-Estruturados, Bancos Transacionais e NoSQL, Dados Gerados em Tempo Real
Qualidade dos Dados na FonteAltaBaixa ou Média (requer processo de limpeza e transformação)
Modelos de DadosEsquema de dados bem definidos na fonteEsquema de dados definido nos momentos da consulta
Transformações nos DadosPouca ou nenhuma (dados já organizados na fonte)Transformação sob demanda, necessidade de complementar os dados
AnáliseDescritiva, RetrospectivaPreditiva, Prescritiva
Responde à perguntaO que aconteceu?O que pode acontecer?
Luciano Santos

Luciano Santos Data Analyst, BIRENE/PAHO/WHO anteriormente em Lojas Riachuelo.

Artigos recomendados: