Data Science

6 Jargões de Data Science que Você Precisa Conhecer

Por Leandro Silva, Lead Data Scientist na Kognita Lab

Inteligência Artificial, Machine Learning, Deep Learning, Big Data, Business Intelligence… Se você chegou até a este artigo, provavelmente já ouviu pelo menos alguns desses termos no seu dia a dia, certo? Agora, vamos discutir de forma introdutória os conceitos por trás dessas palavras que estão se tornando cada vez mais populares no mundo dos negócios e nos noticiários.

Data is the New Oil!

A história produtiva da humanidade é marcada por diversos pontos de inflexão e diversas mudanças de paradigma. No século 18, tivemos a primeira revolução industrial, que teve muitos avanços, e se caracterizou pela difusão das máquinas a vapor. Estas passaram a ser empregadas, por exemplo, no setor têxtil, acelerando processos e reduzindo a necessidade de esforço humano.

A segunda revolução industrial (iniciada na segunda metade do século 19) foi em parte fundamentada em aplicações práticas da termodinâmica (aperfeiçoamento das máquinas a vapor, invenção do motor de combustão interna e a adoção da refrigeração mecânica). Além disso, trouxe o advento das tecnologias baseadas no electromagnetismo e avanços na indústria química, de aviação e de materiais. 

No final dos anos 1950, o desenvolvimento e a produtivização da eletrônica (invenção dos circuitos lógicos e de componentes eletrônicos como os transistores, fundamentados na chamada mecânica quântica) impulsionaram a terceira revolução industrial.

Há um consenso de que estamos vivendo uma nova revolução industrial, no sentido mais amplo do termo. Uma prova de que grandes transformações no paradigma produtivo estão ocorrendo são as variações consistentes no ranking das companhias mais valiosas do planeta. Hoje, corporações cuja matéria-prima são dados e informação tornaram-se mais valiosas que empresas mais tradicionais, como as petrolíferas [1,2]. 

As Buzzwords Geradas pela Cultura de Dados

A cultura de dados é o novo paradigma da atualidade, e a tendência é que essa revolução perdure por vários anos, trazendo diversos avanços tecnológicos e mudanças estruturais na forma de as empresas gerarem produtos, negócios e, consequentemente, valor. Esse caminho é irreversível.

Toda mudança de paradigma traz novas ideias e conceitos que, aos poucos, se difundem pela sociedade. É da natureza humana a tendência de querer organizar ideias e conceitos em categorias, principalmente quando se trata de algum tema ou conhecimento novo. Por exemplo, uma nova doença ou novo planeta logo recebem um nome, mesmo sem ainda os conhecermos profundamente.

Certamente o mundo corporativo não foge a essa regra: quando alguma novidade surge e começa a ficar em voga, ou seja, quando um “buzz” é gerado ao redor de um novo tema, costuma-se atribuir a ele um rótulo para definir, delimitar e tornar comum a uma comunidade seu significado e valor. Surgem então as chamadas “buzzwords.

Se, por um lado, as buzzwords facilitam a comunicação e a referência a temas e assuntos, pois tacitamente têm um significado associado, é preciso também atentar para suas facetas não tão positivas. Buzzwords podem gerar uma falsa sensação de conhecimento sobre um dado tema, simplificando de maneira grosseira e imprecisa um assunto. 

Portanto, devemos entender o máximo possível sobre o que está por trás das buzzwords com as quais nos deparamos. O conhecimento é sempre mais importante que os rótulos. Os termos mencionados no início deste texto são algumas das buzzwords produzidas pela recente cultura de dados. Vamos agora discutir cada uma delas resumidamente, para dar um passo inicial na jornada de aprendizado do leitor.

Inteligência Artificial e Machine Learning

A humanidade sonha há tempos com a possibilidade de criação de inteligências artificiais: Hesíodo, em 700 a.c, narra a história de uma figura mitológica chamada Talos, que seria um autômato de bronze gigante, antropomórfico, encomendado por Zeus para proteger a Ilha de Creta de invasores. Talos marchava pela ilha três vezes ao dia arremessando pedras nos navios inimigos que se aproximavam do local [3].

Dos primórdios da computação até recentemente, os avanços principais foram no sentido de resolver problemas que eram difíceis e/ou demorados para humanos (p.ex.: resolver um sistema de equações de n dimensões e m variáveis, com n e m muito grandes).  Computadores eram bons (e superavam humanos) somente em problemas, cujas soluções podiam ser escritas explicitamente por um conjunto de regras matemáticas formais, como uma receita de bolo. 

Isso significa que as máquinas eram apenas extremamente velozes nos cálculos (se comparado ao cérebro humano), mas não tinham capacidade de aprendizado e de generalização: faltava aos computadores a capacidade de elaboração de hipóteses [5].

O verdadeiro desafio da Inteligência Artificial (IA) é resolver problemas que são aparentemente fáceis para pessoas e situações que que podem ser resolvidas por nós de maneira intuitiva, quase automática. Por exemplo, dado um contexto, é trivial para um humano identificar se um texto tem conotação positiva ou negativa. Ou ainda, é simples para uma pessoa verificar faces em imagens ou vídeos.

Um caminho viável e promissor para atacar essa classe de problemas é inspirado por teorias de aprendizado humano. Ao aprender a andar de bicicleta, você treinou em um ou alguns modelos de bicicletas e em algumas ruas específicas, certo? Mas, após algum tempo de treino, foi trivial (ou pelo menos mais fácil) se aventurar em outras bicicletas, ruas e terrenos, não é verdade?

A ideia central por trás desse exemplo é que nós (e outros seres vivos também) somos capazes de aprender por meio de alguns exemplos, e generalizarmos o nosso aprendizado para situações antes nunca vividas. Graças ao aumento do poder computacional disponível e do desenvolvimento de novas técnicas matemáticas, passamos essa prática para as máquinas, o que deu origem a uma subárea da IA denominada “aprendizado de máquina” (ou “machine learning“).

Como um parêntese, o que aplicamos hoje em problemas práticos de negócio é chamado de “IA restrita” [4]: os algoritmos de aprendizado têm habilidade de atingir apenas objetivos específicos, como identificar faces em vídeos e a polaridade em um texto. Em contrapartida, temos a “IA geral”, capaz de realizar qualquer tarefa cognitiva pelo menos tão bem quanto humanos, e a “Super IA”, que seria uma IA com nível superhumano. 

A “IA geral” e a “Super IA” estão ainda bem longe no horizonte e, portanto, são apenas especulativas. Não é possível provar que um dia existirão. Mas deixemos essas discussões mais filosóficas para outro momento. O importante é notar que, toda vez que o termo “IA” for mencionado no contexto de negócios, implicitamente está se assumindo que estamos tratando de uma “IA restrita”.

Voltemos às questões práticas. O aprendizado baseado em exemplos é uma das classes de aprendizado de máquina possíveis, sendo chamado de “aprendizado supervisionado”. Há também o “aprendizado não-supervisionado”, em que o algoritmo tenta encontrar padrões olhando apenas para a estrutura dos dados disponíveis, sem contar com exemplos que mostram o que é “certo” ou “errado”. Esse assunto será tratado com mais detalhes futuramente. Não se preocupe com ele agora, ok?

Deep Learning

Mais uma buzzword: Deep Learning (DL) ou “aprendizado profundo“, no bom e velho português. DL pode ser visto como uma subárea do Machine Learning.  A base das técnicas de DL consiste em utilizar modelos de aprendizado inspirados em aspectos funcionais do sistema nervoso central, ou seja, do cérebro. A unidade fundamental de processamento de informação no sistema nervoso é o neurônio. 

Neurônios funcionam sempre conectados a outros neurônios, formando o que conhecemos como rede neural. Em um sistema biológico real, milhares de neurônios (que podem ser de vários tipos) compõem uma ou mais redes, conectando-se de diversas maneiras distintas. Essa interconectividade faz com que apareça o que chamamos de complexidade, permitindo que funções de alto nível se manifestem, como as funções relacionadas à cognição [5, 6].

A ideia central dos algoritmos de DL é capturar, por meio de modelos matemáticos, a essência do que sabemos sobre os processos fisiológicos associados a essas funções de alto nível. Por exemplo, as redes neurais convolucionais (CNN), utilizadas amplamente em na área de visão computacional, são inspiradas no funcionamento do córtex visual, região do cérebro responsável pelo processamento de informações visuais.

Data Science

E como utilizar tudo o que foi discutido até aqui de forma prática? Como usar a matemática e a computação para gerar valor? A resposta está na Data Science (DS). DS (Ciência de Dados) é uma área de negócio que procura entender (baseando-se em dados, no pensamento analítico e no método científico) o problema que deve ser resolvido ou o que pode ser otimizado/melhorado nos processos inerentes ao negócio como um todo ou a algum aspecto dele.

O pipeline típico, para resolver um problema usando DS, envolve basicamente quatro etapas (não necessariamente sequenciais): 

i) levantamento das bases de dados (estruturados e não-estruturados) e aferição da qualidade dessas informações; 

ii) análise exploratória e descritiva dos dados de negócio. Que dados utilizar? Qual o status atual do negócio? Quais as variáveis relevantes para mapear e atacar o problema em mãos?; 

iii) análise preditiva: com os dados históricos e modelos matemáticos adequados (como os de aprendizado de máquina), como antevejo o status futuro do problema em mãos? e; 

iv) análise prescritiva: qual ação deve ser tomada para resolver o problema e/ou otimizar um dado processo? Que modelo (ou modelos) devo utilizar para a minha tomada de decisão baseada em dados ser a melhor possível?

É preciso reforçar que DS não é apenas sobre algoritmos e modelos matemáticos de aprendizado de máquina, mas também envolve como resolver problemas de negócio da forma mais eficiente possível, ou seja, sobre como tornar o negócio em questão data-driven. 

Os dados e a capacidade de extrair conhecimento útil a partir deles devem ser considerados ativos estratégicos fundamentais para praticamente toda atividade econômica (até mesmo para gestão e políticas públicas, por que não?). A missão do cientista de dados é colocar essa máxima em prática.

Big Data

Big Data é outra buzzword bastante em voga nos últimos anos. Vale a pena definir o conceito de Big Data com um pouco mais de detalhes.

O crescimento da aplicabilidade da Ciência de Dados (principalmente dos modelos de machine/deep learning em problemas práticos) só foi possível devido a dois fatores: o crescimento da quantidade de dados disponíveis; e o crescimento e barateamento do poder computacional (tanto de armazenamento quanto de processamento disponível) [7].

Esses dois fatores estão intimamente relacionados ao conceito de Big Data, que pode ser mais facilmente entendido como uma combinação dos chamados 5 V’s [8]:

Volume: refere-se ao crescimento da quantidade de dados acessíveis;

Velocidade: refere-se à velocidade com que novos dados são criados e à necessidade de, em alguns casos, o processamento e a análise desses dados serem feitos em tempo real;

Variedade: integrar as mais diversas fontes e tipos de dados (estruturados e não-estruturados) para tirar proveito de todas as ferramentas da Ciência de Dados;

Variabilidade: como estamos lidando com diversas fontes de dados, é possível (e bastante frequente) que haja inconsistências e/ou falhas na qualidade dessas informações, o que pode afetar a qualidade da tomada de decisão. Portanto, é fundamental que existam processos para lidar com a variabilidade dos dados;

Valor: se uma companhia investir capital em uma infraestrutura capaz de coletar e de fornecer suporte à atividade de DS, é importante ter um planejamento claro que assegure um retorno financeiro para o negócio.

Existem propostas que estendem os 5V’s originais para 7 V’s ou até 10 V’s, mas essa discussão fica para o futuro. O que é importante ficar claro é a diferença entre DS e Big Data. Data Science precisa ter acesso aos dados de negócio e, em muitas ocasiões, beneficia-se do sofisticado ecossistema de ferramentas de engenharia de dados, mas essas não são ferramentas de DS propriamente ditas.

Business Intelligence

Para finalizar esta breve introdução, uma última buzzword: Business Intelligence (BI). Talvez possamos ver a área de BI como uma das precursoras atualmente como Data Science. Um dos problemas fundamentais do BI tradicional, como apontado por diversos CIOs e CEOs [6], era a localização dessa área da empresa: BI surgiu como uma área interna da TI. 

Era papel do pessoal de TI gerar relatórios (com periodicidade semanal, mensal etc.) que no final das contas produzia pouco valor, tinham pouco alcance e utilidade. Eram análises apenas descritivas com uma defasagem temporal considerável, inadmissível para essa nova era, em que se espera tomar decisões orientadas a dados tão rápido quanto possível. 

Em resumo, a área de BI ajuda a monitorar e entender principalmente o estado atual e passado do negócio, enquanto que DS vai além, gerando insights sobre o futuro e prescrevendo tomadas de decisão.

Discutimos alguns conceitos introdutórios sobre algumas das palavras-chave que fazem parte do mundo da Ciência de Dados. Existe muito mais para explorar, ainda mais quando levamos em conta que essa área está em plena expansão e desenvolvimento, com novidades surgindo a todo instante. Seguem abaixo algumas referências para aprofundamento dos temas discutidos, caso queira se adiantar nos estudos:

[1] The Economist. (2019). The world’s most valuable resource is no longer oil, but data. [online] Available at: https://www.economist.com/leaders/2017/05/06/the-worlds-most-valuable-resource-is-no-longer-oil-but-data [Accessed 17 Jun. 2019];

[2] Forbes.com. (2019). Apple Is The New Exxon And Data Is The New Oil: The Path To The First $10 Trillion Company. [online] Available at: https://www.forbes.com/sites/markpmills/2018/08/09/apple-is-the-new-exxon-data-is-the-new-oil-and-the-path-to-the-first-10-trillion-company/#74e3d1451526 [Accessed 17 Jun. 2019] ;

[3] Lleo, Sébastien. “Gods and Robots: Myths, Machines, and Ancient Dreams of Technology.” (2019): 545-546;

[4] Tegmark, Max. Life 3.0: Being human in the age of artificial intelligence. Knopf, 2017;

[5] Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep learning. MIT press, 2016;

[6] Dayan, Peter, and Laurence F. Abbott. “Theoretical neuroscience: computational and mathematical modeling of neural systems.” (2001);

[7] Beyer, Mark. “Gartner Says Solving ‘Big Data’ Challenge Involves More Than Just Managing Volumes of Data.” Gartner. Archived from the original on 10 (2011);

[8] McAfee, Andrew, et al. “Big data: the management revolution.” Harvard business review 90.10 (2012): 60-68;

[9] Laney, Douglas B. Infonomics: how to monetize, manage, and measure information as an asset for competitive advantage. Routledge, 2017. 

Leandro Silva

Leandro Silva é Lead Data Scientist e possui experiência em resolver problemas de negócio nos mais diversos segmentos usando visão computacional, NLP, sistemas de recomendação, além de outras ferramentas de modelagem matemática. Possui doutorado em Física pela Uerj, e foi pós-doc e professor/pesquisador visitante no Centro de Matemática, Computação e Cognição da Ufabc.

Artigos recomendados: