pandas.DataFrame.describe()函数用于生成数据集的统计描述。它返回给定数据集的主要统计量,例如平均值、标准差、最小值、最大值和四分位数等。该函数的输出格式是一个数据帧(DataFrame),它显示了每个统计量的值以及数据集中的样本数。
pandas.DataFrame.describe()函数可以应用于数据帧(DataFrame)或数据系列(Series)。下面是pandas.DataFrame.describe()函数的语法和参数说明:
语法:
DataFrame.describe(percentiles=None, include=None, exclude=None)
参数:
下面的示例代码演示如何使用pandas.DataFrame.describe()函数来生成关于一组数据的统计描述:
import pandas as pd
import numpy as np
# 创建数据帧
data = pd.DataFrame({
'Name': ['Alex', 'Bob', 'Charlie', 'David', 'Emily'],
'Age': [25, 28, 21, 32, 24],
'Salary': [50000, 60000, 55000, 70000, 45000]
})
# 生成数据集的统计描述
desc = data.describe()
# 打印统计摘要
print(desc)
输出结果:
Age Salary
count 5.000000 5.000000
mean 26.000000 55000.000000
std 4.049691 10000.000000
min 21.000000 45000.000000
25% 24.000000 50000.000000
50% 25.000000 55000.000000
75% 28.000000 60000.000000
max 32.000000 70000.000000
下面的代码演示如何使用pandas.DataFrame.describe()函数来计算给定数据集的其他百分位数和只计算数值类型的数据:
import pandas as pd
import numpy as np
# 创建数据帧
data = pd.DataFrame({
'Name': ['Alex', 'Bob', 'Charlie', 'David', 'Emily'],
'Age': [25, 28, 21, 32, 24],
'Salary': [50000, 60000, 55000, 70000, 45000]
})
# 生成数据集的统计描述
desc = data.describe(percentiles=[0.1, 0.2, 0.5, 0.8, 0.9], include=[np.number])
# 打印统计摘要
print(desc)
输出结果:
Age Salary
count 5.000000 5.000000
mean 26.000000 55000.000000
std 4.049691 10000.000000
min 21.000000 45000.000000
10% 22.200000 46000.000000
20% 23.200000 47000.000000
50% 25.000000 55000.000000
80% 29.200000 62000.000000
90% 31.000000 67000.000000
max 32.000000 70000.000000
上述两个示例演示了如何使用pandas.DataFrame.describe()函数来计算数据集的统计描述信息,并说明了如何指定计算的百分位数和数据类型。 您可以根据需要使用不同的参数来调整函数的行为,并生成符合自己数据集的统计描述。
本文链接:http://task.lmcjl.com/news/17693.html