关键词

Python pandas常用函数详解

Python pandas 常用函数详解

Python pandas 是一个用于数据分析的强大工具,提供了丰富的函数和方法用以处理数据。本文将详细讲解 pandas 中常用的函数,包括数据导入、索引与选择、数据处理、数据排序和数据统计等。

数据导入

pandas 提供了方便的数据导入功能,支持导入多种格式的数据,如 csv、Excel 或 SQL 数据库等。常用的函数有 read_csv、read_excel 和 read_sql。

read_csv()

import pandas as pd

df = pd.read_csv('data.csv')
print(df.head())

read_csv 函数将 csv 文件导入为一个 DataFrame 对象。上述代码读取名为 data.csv 的文件并输出前五行数据。read_csv 有很多可选参数,如 sep、header 和 index_col 等,可根据不同的数据设置不同的参数。

read_excel()

import pandas as pd

df = pd.read_excel('data.xlsx')
print(df.head())

类似于 read_csv,read_excel 函数也将数据读取为一个 DataFrame 对象,只不过读取的是 Excel 文件。可以通过设置参数来控制读取 Excel 的不同 sheet 或者选择需要读取的列数等等。

索引与选择

DataFrame 对象可以通过各种索引和切片方式进行数据选取和查找。以下是几种常用的索引方式:

位置索引

import pandas as pd

df = pd.read_csv('data.csv')
print(df.iloc[0])  # 输出第一行

iloc 是基于整数位置的索引方式,可以通过传入行号和列号来定位数据。

标签索引

import pandas as pd

df = pd.read_csv('data.csv', index_col='ID')
print(df.loc['001'])  # 输出 ID 为 '001' 的行

loc 是基于标签名的索引方式,可以通过传入列名和行名来定位数据,其中 index_col 参数可以用于指定使用哪一列作为索引列。

数据处理

数据处理是 pandas 中非常重要的一部分,其中包括数据清洗、数据变换、数据合并等等。下面是几个常用的函数和方法:

drop_duplicates()

import pandas as pd

df = pd.read_csv('data.csv')
df = df.drop_duplicates()

drop_duplicates 可以用于删除 DataFrame 中的重复行。默认情况下,drop_duplicates 函数会保留第一个重复行,并删除其余的重复行,也可以通过设置 keep 参数来指定保留最后一个重复行。

groupby()

import pandas as pd

df = pd.read_csv('data.csv')
grouped = df.groupby('Type')
print(grouped['Sales'].sum())

groupby 是基于某些列的值对 DataFrame 进行分组操作,可以进行分组运算、聚合、转换等等。上述代码按照 Type 列对 DataFrame 进行分组,并计算每个组的 Sales 值之和。

数据排序

排序是数据分析中必不可少的操作,pandas 中提供了 sort_values 函数和 sort_index 函数用于对 DataFrame 对象进行排序操作。

sort_values()

import pandas as pd

df = pd.read_csv('data.csv')
df.sort_values(by=['Sales'], inplace=True)
print(df.head())

sort_values 可以按照指定列的值进行排序,其中 by 参数可以指定按照哪些列进行排序,inplace 参数可以指定是否对原 DataFrame 进行修改。

sort_index()

import pandas as pd

df = pd.read_csv('data.csv', index_col='ID')
df.sort_index(inplace=True)
print(df.head())

sort_index 可以按照索引进行排序操作,inplace 参数同样可以指定是否对原 DataFrame 进行修改。

数据统计

数据统计是数据分析中不可或缺的一环,pandas 中提供了许多统计函数进行数据分析,如 sum、mean、max、min 等等。

import pandas as pd

df = pd.read_csv('data.csv')
print(df['Sales'].sum())  # 计算 Sales 列的总和
print(df.describe())  # 对 DataFrame 进行描述性统计

上述代码分别计算了 Sales 列的总和和对 DataFrame 进行描述性统计,其余的统计函数在使用时也非常简单,只需要将统计函数作用于 DataFrame 对象的列即可。

以上就是 Python pandas 常用函数详解的完整攻略,其中包括数据导入、索引与选择、数据处理、数据排序和数据统计等方面。通过学习这些常用函数和示例代码,可以更好地掌握 pandas 的应用。

本文链接:http://task.lmcjl.com/news/17334.html

展开阅读全文