Dataframe: Aprenda a criar e manipular dados com Python
Neste artigo, vamos explorar o conceito de DataFrame em Python e como criar e manipular dados usando a biblioteca pandas.
Glossário
O que é um Dataframe em Python
Introdução
Um DataFrame é uma estrutura de dados fundamental na linguagem de programação Python, especialmente quando se trata de análise de dados e manipulação de informações. Um DataFrame é essencialmente uma tabela bidimensional, semelhante a uma planilha do Excel, onde os dados são organizados em linhas e colunas. Cada coluna pode conter diferentes tipos de dados, como números, strings, datas ou até mesmo objetos complexos.
Trabalhando com DataFrames em Python
A biblioteca mais popular para trabalhar com DataFrames em Python é o pandas. O Pandas fornece uma ampla gama de ferramentas e funções para criar, manipular e analisar DataFrames de maneira eficiente. Com o pandas, você pode importar dados de diferentes fontes, como arquivos CSV, bancos de dados SQL, JSON, entre outros, e transformá-los em um DataFrame que pode ser facilmente explorado e manipulado.



Como criar um Dataframe em Python
Para criar um DataFrame em Python usando o pandas, primeiro você precisa importar a biblioteca. Você pode fazer isso usando o comando import pandas as pd
. Em seguida, você pode criar um DataFrame a partir de diferentes fontes de dados.
Uma maneira comum de criar um DataFrame é a partir de um dicionário de listas. Cada chave do dicionário representa o nome de uma coluna e cada lista representa os valores dessa coluna. Por exemplo, suponha que você queira criar um DataFrame com informações sobre alunos, incluindo nome, idade e nota. Você pode fazer da seguinte maneira:
import pandas as pd
dados = {
'Nome': ['João', 'Maria', 'Pedro'],
'Idade': [20, 18, 22],
'Nota': [8.5, 9.2, 7.8]
}
df = pd.DataFrame(dados)
print(df)
Manipulando dados em um Dataframe com Python
Uma vez que você tenha criado um DataFrame em Python, existem várias operações que você pode realizar para manipular e transformar os dados.
Para começar, você pode selecionar colunas específicas do DataFrame usando a sintaxe df['nome_da_coluna']
. Por exemplo, se você quiser selecionar apenas a coluna “Nome” do DataFrame, você pode fazer assim:
nomes = df['Nome']
print(nomes)
Você também pode filtrar linhas com base em certos critérios usando a função df.loc[condição]
. Por exemplo, se você quiser selecionar apenas os alunos com nota maior que 8, você pode fazer assim:
alunos_aprovados = df.loc[df['Nota'] > 8]
print(alunos_aprovados)
Outra operação comum é a ordenação dos dados. Você pode ordenar o DataFrame com base em uma ou mais colunas usando o método df.sort_values()
. Por exemplo, se você quiser ordenar os alunos por idade crescente, você pode fazer assim:
df_ordenado = df.sort_values('Idade')
print(df_ordenado)
Principais funções e métodos para manipulação de Dataframes em Python
Existem várias funções e métodos úteis no pandas para manipulação de DataFrames em Python. Aqui estão alguns dos mais comumente utilizados:



df.head(n)
: retorna as primeiras n linhas do DataFrame.df.tail(n)
: retorna as últimas n linhas do DataFrame.df.shape
: retorna a dimensão do DataFrame (número de linhas e colunas).df.info()
: exibe informações sobre o DataFrame, incluindo o tipo de dados de cada coluna e a quantidade de valores não nulos.df.describe()
: fornece estatísticas descritivas sobre as colunas numéricas do DataFrame, como média, desvio padrão, mínimo, máximo, quartis, etc.df.groupby()
: permite agrupar os dados com base em uma ou mais colunas e aplicar operações de agregação, como soma, média, contagem, etc.df.merge()
: permite combinar dois DataFrames com base em uma ou mais colunas em comum.df.pivot()
: permite transformar os dados do DataFrame, reorganizando as linhas e colunas com base em determinadas colunas de referência.
Essas são apenas algumas das muitas funções e métodos disponíveis para manipulação de DataFrames em Python. O pandas oferece uma ampla gama de recursos que permitem explorar e analisar dados de forma eficiente.
Conclusão
Neste artigo, exploramos o conceito de DataFrame em Python e como criar e manipular dados usando a biblioteca pandas. Os DataFrames são uma estrutura de dados poderosa para análise e manipulação de informações, permitindo que você realize uma ampla variedade de operações e transformações nos dados. Com o pandas, você pode importar dados de diferentes fontes, criar DataFrames a partir de dicionários ou arquivos, filtrar e selecionar dados, realizar operações matemáticas e estatísticas, entre muitas outras funcionalidades.
Ao dominar o uso de DataFrames em Python, você estará bem equipado para lidar com análise de dados, visualização e tomada de decisões informadas. O pandas é uma ferramenta essencial no kit de ferramentas de qualquer cientista de dados ou analista de dados, e dominar suas funcionalidades certamente abrirá novas oportunidades para você em sua carreira. Portanto, não deixe de explorar e praticar o uso de DataFrames em Python para aprimorar suas habilidades de manipulação de dados.
A Awari é a melhor plataforma para aprender sobre ciência de dados no Brasil.
Aqui você encontra cursos com aulas ao vivo, mentorias individuais com os melhores profissionais do mercado e suporte de carreira personalizado para dar seu próximo passo profissional e aprender habilidades como Data Science, Data Analytics, Machine Learning e mais.
Já pensou em aprender de maneira individualizada com profissionais que atuam em empresas como Nubank, Amazon e Google? Clique aqui para se inscrever na Awari e começar a construir agora mesmo o próximo capítulo da sua carreira em dados.


