Facebook pixel
Awari

26 de fevereiro de 2021

Data Science de A a Z: entenda os termos e as áreas de atuação

Na imagem vemos livros sobre Data Science em uma estante branca
Livros sobre Data Science

Inteligência Artificial, Machine Learning, Data Science, Deep Learning, Analista de Dados, Cientista de Dados…você, provavelmente, já deve ter ouvido falar sobre algum desses termos e profissões. Mas o que há de comum entre eles? A resposta é fácil: todos estão inseridos no universo de Data Science.

Em uma sociedade cada vez mais tecnológica e conectada, porém, esse vocabulário torna-se uma barreira comum que pode impedir muita gente com potencial de iniciar uma carreira em Data Science. 

Mas não desanime. O objetivo desta lista é, justamente, descrever de maneira objetiva algumas das principais expressões utilizadas nessa área, explicando seus significados e aplicações mais comuns.

Desta forma, esta lista está dividida em duas partes. Na primeira, mostraremos quais as principais áreas de atuação e skills de um profissional em Data Science. Isso porque, por ser uma área em constante evolução, as profissões possuem uma intersecção muito grande e nem sempre as empresas têm clareza da distinção entre as funções.

Já na segunda parte, explicaremos o significado de termos utilizados pelos profissionais do segmento. Vamos lá?

O que faz um Analista de Dados?

É o profissional que une as habilidades técnicas de exploração, análise, tratamento e manipulação de dados. Em uma empresa, é função dele, por exemplo: analisar e extrair dados para identificar correlações e descobrir padrões; identificar problemas de qualidade na aquisição de dados e implementar novas métricas para descobrir pontos de aperfeiçoamento de plataformas.

Para quem ingressa na área de tecnologia, a análise de dados é uma porta de entrada. Isso porque o Analista de Dados é reconhecido no mercado como um profissional mestre em SQL (Standard Query Language), uma linguagem padrão para trabalhar com bancos de dados relacionais – e que não exige um profundo conhecimento em programação para ser utilizada.

Em nosso intensivo de análise de dados, você aprenderá na prática por meio de projetos e receberá mentorias de analistas de dados experientes, tudo o que você precisa para aprender a interpretar dados e tomar melhores decisões em seu ambiente de trabalho. 

Dentre as responsabilidades de um Analista de Dados também estão:

  • Mapear e rastrear os dados de sistema para resolver um determinado problema de negócio;
  • Projetar e criar relatórios de dados usando várias ferramentas de relatórios para ajudar a empresa a tomar as melhores decisões;
  • Coletar e integrar os dados, fazer análises, além de gerenciar e resolver eventuais problemas de negócio por meio da elaboração de relatórios e dashboard.  

Linguagem de programação mais utilizada: Standard Query Language (SQL).

O que faz um Cientista de Dados?

Um cientista de dados, por outro lado, é menos proficiente na linguagem SQL do que o analista de dados. Ele até tem conhecimento sobre SQL, mas costuma trabalhar com outros dois tipos de linguagem de programação: Python, uma linguagem compatível com algoritmos de alto desempenho, e R, que se apoia fortemente em modelos estatísticos e computação.

Algumas das características de um cientista de dados é possuir uma base em modelagem, estatística e programação. Na prática, o que diferencia um cientista de um analista de dados dentro do universo de Data Science é a utilização da linguagem Python e R. 

Em um cenário de mercado de trabalho, o cientista de dados será o profissional responsável por análises preditivas com algoritmos de machine learning. Esse recurso é utilizado para analisar dados atuais e históricos, a fim de compreender melhor o cenário e identificar riscos e oportunidades potenciais para uma empresa.

Na Awari, você aprenderá a tratar diferentes tipos de dados para responder perguntas por meio de explorações e análises de forma prática – além de receber mentoria de profissionais experientes e suporte de carreira para se tornar um cientista de dados disputado pelas empresas.

Leia mais: conheça também o curso com Garantia de Emprego da Awari.

Dentre as responsabilidades de um Cientistas de Dados também estão:

  • Limpar, organizar e processar os dados para análise;
  • Identificar novos dados que podem agregar valor ao produto;
  • Conduzir experimentos de causalidade aplicando experimentos A / B para identificar os problemas na experiência do usuário.

Linguagens de programação mais utilizadas: Python e Linguagem R.

O que faz um Engenheiro de Dados?

Um engenheiro de dados é o profissional que desenvolve, constrói e mantém uma arquitetura e infraestrutura de um sistema para ser utilizada por cientistas e analistas de dados na área de Data Science. Ele é reconhecido como um especialista em software que projeta, cria, integra e gerencia o fluxo de diversos dados.

No mercado de trabalho, cabe ao engenheiro de dados estruturar a pipeline de dados da empresa, criar e dar manutenção a bancos de dados relacionais. 

Dentre as responsabilidades de um Engenheiro de Dados também estão:

  • Alinhar a arquitetura com os requisitos de negócios;
  • Identificar maneiras de melhorar a confiabilidade, eficiência e qualidade dos dados.

Linguagens de programação mais utilizadas: Python, Java, SQL.

O que faz um Engenheiro de Machine Learning?

Os Engenheiros de Machine Learning estão na interseção de software e da ciência de dados no universo de Data Science. Eles aproveitam as ferramentas e estruturas de programação para garantir que os dados brutos coletados das pipelines de dados sejam utilizados por modelos prontos.

Na prática, eles são responsáveis por pegar modelos teóricos de ciência de dados e ajudar a dimensioná-los para modelos de nível de produção que podem lidar com terabytes de dados em tempo real.

Dentre as responsabilidades de um Engenheiro de Dados também estão:

  • Criar programas que controlem computadores e robôs;
  • Implementar e refinar protótipos de modelos de machine learning;
  • Integrar sistemas machine learning/deep learning à pipeline de dados da empresa;
  • Refinar algoritmos que permitem que as máquinas identifiquem padrões em seus próprios dados.

Linguagens de programação mais utilizadas: Python, R, C, C++, Java e JavaScript.

Ok. Agora que você já entendeu as funções de cada especialista da área, vamos entender os termos? 

Algoritmo

O primeiro deles você pode ter ouvido recentemente, seja online ou talvez em alguma conversa sobre tecnologia ou Data Science. É uma palavra que é muito usada, mas o que significa exatamente? Bom, um algoritmo, basicamente, é o conjunto das regras e procedimentos lógicos perfeitamente definidos que levam à solução de um problema em número finito de etapas. 

Análise Exploratória de Dados (AED)

Pode-se entender a Análise Exploratória de Dados (AED) como o processo de realização de investigações iniciais sobre os dados, de modo a descobrir padrões, detectar anomalias, testar hipóteses e verificar suposições com a ajuda de estatísticas e representações gráficas.

Análise Preditiva

É o ramo da análise avançada que é usada para fazer previsões sobre eventos futuros desconhecidos em Data Science. A análise preditiva usa especialmente técnicas de machine learning e deep learning para a resolução de problemas de classificação, regressão, clusterização (entre outros) de dados futuros através da extração de padrões de dados passados.

Aprendizagem Supervisionada e Não Supervisionada

No aprendizado supervisionado, você treina a máquina usando dados que são bem “rotulados”, ou seja, alguns dados já estão marcados com a resposta correta. O método, pode ser comparado a uma aprendizagem que ocorre na presença de um supervisor ou professor.

Por outro lado, o ensino não supervisionado é uma técnica de aprendizado de máquina, em que você não precisa supervisionar o modelo. Em vez disso, você precisa permitir que o modelo trabalhe por conta própria para descobrir informações. Ele lida principalmente com os dados não rotulados no universo de Data Science.

Big data

Big data, como o próprio nome sugere, é um conceito que descreve o grande volume de dados estruturados e não estruturados que são gerados a cada segundo. Ele é fundamental, por exemplo, para gerenciar as grandes quantidades de dados que são produzidos e processados na atualidade – em dispositivos como celular, TVs, carros, dispositivos vestíveis (wearables).

Deep learning

Deep Learning é uma técnica de Machine Learning que é especializada em um algoritmo denominado Rede Neural e tem como principal highlight a possibilidade de que computadores aprendam através de dados não estruturados, como imagens, textos, etc. O Deep Learning é uma tecnologia chave por trás dos carros sem motorista – como os Teslas, criados por Elon Musk – permitindo-lhes reconhecer um sinal de pare ou distinguir um pedestre de um poste de luz. É a chave para o controle de voz em dispositivos de consumo, como telefones, tablets, TVs e alto-falantes viva-voz.

Inteligência artificial

Inteligência Artificial é a habilidade de um computador – ou robô, controlado por computador – de realizar tarefas comumente associadas a seres humanos. A Inteligência Artificial está aplicada a projetos que desenvolvem sistemas dotados dos processos intelectuais característicos dos humanos, como a habilidade de raciocinar, descobrir significados, generalizar ou aprender com a experiência passada.

Machine learning 

Machine Learning ou, em português, aprendizagem de máquina, é o processo de ensinar a um sistema de computador como fazer previsões precisas quando alimentado com dados. Na prática, essas previsões podem responder, por exemplo, qual é a probabilidade de um cliente realizar uma nova compra em uma determinada plataforma

Mineração de dados

A mineração de dados é o processo de análise de grandes volumes de dados para descobrir ações inteligentes que possam ajudar as empresas a resolver problemas, mitigar riscos e aproveitar novas oportunidades.

Pipeline de dados

Pode-se entender o conceito de pipeline de dados como um conjunto de ações que muda os dados brutos de várias fontes (pesquisas, feedbacks, lista de compras, votos, etc.) para um formato compreensível para que possamos armazená-los e usá-los para análise.

Processamento de Linguagem Natural (NPL)

Processamento de Linguagem Natural, do inglês Natural Language Process (NPL), é um campo da Inteligência Artificial que dá às máquinas a habilidade de ler, entender e interpretar  significado de linguagens humanas. Neste processo, é possível entender o significado por trás das palavras e identificar nuances como ironia ou análise de sentimentos. 

Escrito por

Eduardo Valim

é redator na Awari e escreve sobre carreira e tecnologia.