Facebook pixel
>Blog>Ciência de Dados
Ciência de Dados

Dataframe: Aprenda a criar e manipular dados com Python

Neste artigo, vamos explorar o conceito de DataFrame em Python e como criar e manipular dados usando a biblioteca pandas.



O que é um Dataframe em Python

O que é um Dataframe em Python

Introdução

Um DataFrame é uma estrutura de dados fundamental na linguagem de programação Python, especialmente quando se trata de análise de dados e manipulação de informações. Um DataFrame é essencialmente uma tabela bidimensional, semelhante a uma planilha do Excel, onde os dados são organizados em linhas e colunas. Cada coluna pode conter diferentes tipos de dados, como números, strings, datas ou até mesmo objetos complexos.

Trabalhando com DataFrames em Python

A biblioteca mais popular para trabalhar com DataFrames em Python é o pandas. O Pandas fornece uma ampla gama de ferramentas e funções para criar, manipular e analisar DataFrames de maneira eficiente. Com o pandas, você pode importar dados de diferentes fontes, como arquivos CSV, bancos de dados SQL, JSON, entre outros, e transformá-los em um DataFrame que pode ser facilmente explorado e manipulado.

Nossa metodologia de ensino tem eficiência comprovada
Nossa metodologia de ensino tem eficiência comprovada Aprenda uma nova língua na maior escola de idiomas do mundo! Conquiste a fluência no idioma que sempre sonhou com uma solução de ensino completa. Quero estudar na Fluency
Nossa metodologia de ensino tem eficiência comprovada

Como criar um Dataframe em Python

Para criar um DataFrame em Python usando o pandas, primeiro você precisa importar a biblioteca. Você pode fazer isso usando o comando import pandas as pd. Em seguida, você pode criar um DataFrame a partir de diferentes fontes de dados.

Uma maneira comum de criar um DataFrame é a partir de um dicionário de listas. Cada chave do dicionário representa o nome de uma coluna e cada lista representa os valores dessa coluna. Por exemplo, suponha que você queira criar um DataFrame com informações sobre alunos, incluindo nome, idade e nota. Você pode fazer da seguinte maneira:

import pandas as pd

dados = {
    'Nome': ['João', 'Maria', 'Pedro'],
    'Idade': [20, 18, 22],
    'Nota': [8.5, 9.2, 7.8]
}

df = pd.DataFrame(dados)
print(df)
  

Manipulando dados em um Dataframe com Python

Uma vez que você tenha criado um DataFrame em Python, existem várias operações que você pode realizar para manipular e transformar os dados.

Para começar, você pode selecionar colunas específicas do DataFrame usando a sintaxe df['nome_da_coluna']. Por exemplo, se você quiser selecionar apenas a coluna “Nome” do DataFrame, você pode fazer assim:

nomes = df['Nome']
print(nomes)
  

Você também pode filtrar linhas com base em certos critérios usando a função df.loc[condição]. Por exemplo, se você quiser selecionar apenas os alunos com nota maior que 8, você pode fazer assim:

alunos_aprovados = df.loc[df['Nota'] > 8]
print(alunos_aprovados)
  

Outra operação comum é a ordenação dos dados. Você pode ordenar o DataFrame com base em uma ou mais colunas usando o método df.sort_values(). Por exemplo, se você quiser ordenar os alunos por idade crescente, você pode fazer assim:

df_ordenado = df.sort_values('Idade')
print(df_ordenado)
  

Principais funções e métodos para manipulação de Dataframes em Python

Existem várias funções e métodos úteis no pandas para manipulação de DataFrames em Python. Aqui estão alguns dos mais comumente utilizados:

Nossa metodologia de ensino tem eficiência comprovada
Nossa metodologia de ensino tem eficiência comprovada Aprenda uma nova língua na maior escola de idiomas do mundo! Conquiste a fluência no idioma que sempre sonhou com uma solução de ensino completa. Quero estudar na Fluency
Nossa metodologia de ensino tem eficiência comprovada
  • df.head(n): retorna as primeiras n linhas do DataFrame.
  • df.tail(n): retorna as últimas n linhas do DataFrame.
  • df.shape: retorna a dimensão do DataFrame (número de linhas e colunas).
  • df.info(): exibe informações sobre o DataFrame, incluindo o tipo de dados de cada coluna e a quantidade de valores não nulos.
  • df.describe(): fornece estatísticas descritivas sobre as colunas numéricas do DataFrame, como média, desvio padrão, mínimo, máximo, quartis, etc.
  • df.groupby(): permite agrupar os dados com base em uma ou mais colunas e aplicar operações de agregação, como soma, média, contagem, etc.
  • df.merge(): permite combinar dois DataFrames com base em uma ou mais colunas em comum.
  • df.pivot(): permite transformar os dados do DataFrame, reorganizando as linhas e colunas com base em determinadas colunas de referência.

Essas são apenas algumas das muitas funções e métodos disponíveis para manipulação de DataFrames em Python. O pandas oferece uma ampla gama de recursos que permitem explorar e analisar dados de forma eficiente.

Conclusão

Neste artigo, exploramos o conceito de DataFrame em Python e como criar e manipular dados usando a biblioteca pandas. Os DataFrames são uma estrutura de dados poderosa para análise e manipulação de informações, permitindo que você realize uma ampla variedade de operações e transformações nos dados. Com o pandas, você pode importar dados de diferentes fontes, criar DataFrames a partir de dicionários ou arquivos, filtrar e selecionar dados, realizar operações matemáticas e estatísticas, entre muitas outras funcionalidades.

Ao dominar o uso de DataFrames em Python, você estará bem equipado para lidar com análise de dados, visualização e tomada de decisões informadas. O pandas é uma ferramenta essencial no kit de ferramentas de qualquer cientista de dados ou analista de dados, e dominar suas funcionalidades certamente abrirá novas oportunidades para você em sua carreira. Portanto, não deixe de explorar e praticar o uso de DataFrames em Python para aprimorar suas habilidades de manipulação de dados.

A Awari é a melhor plataforma para aprender sobre ciência de dados no Brasil.

Aqui você encontra cursos com aulas ao vivo, mentorias individuais com os melhores profissionais do mercado e suporte de carreira personalizado para dar seu próximo passo profissional e aprender habilidades como Data Science, Data Analytics, Machine Learning e mais.

Já pensou em aprender de maneira individualizada com profissionais que atuam em empresas como Nubank, Amazon e Google? Clique aqui para se inscrever na Awari e começar a construir agora mesmo o próximo capítulo da sua carreira em dados.

Nossa metodologia de ensino tem eficiência comprovada
Nossa metodologia de ensino tem eficiência comprovada Aprenda uma nova língua na maior escola de idiomas do mundo! Conquiste a fluência no idioma que sempre sonhou com uma solução de ensino completa. Quero estudar na Fluency
Nossa metodologia de ensino tem eficiência comprovada
Nossa metodologia de ensino tem eficiência comprovada
Nossa metodologia de ensino tem eficiência comprovada

Aprenda uma nova língua na maior escola de idioma do mundo!

Conquiste a fluência no idioma que sempre sonhou com uma solução de ensino completa.

+ 400 mil alunos

Método validado

Aulas

Ao vivo e gravadas

+ 1000 horas

Duração dos cursos

Certificados

Reconhecido pelo mercado

Quero estudar na Fluency

Sobre o autor

A melhor plataforma para aprender tecnologia no Brasil

A Awari é a melhor maneira de aprender tecnologia no Brasil.
Faça parte e tenha acesso a cursos com aulas ao vivo e mentorias individuais com os melhores profissionais do mercado.