关键词

详解pandas.DataFrame.describe()(计算数据框统计信息)函数使用方法

pandas.DataFrame.describe()的作用

pandas.DataFrame.describe()函数用于生成数据集的统计描述。它返回给定数据集的主要统计量,例如平均值、标准差、最小值、最大值和四分位数等。该函数的输出格式是一个数据帧(DataFrame),它显示了每个统计量的值以及数据集中的样本数。

使用方法

pandas.DataFrame.describe()函数可以应用于数据帧(DataFrame)或数据系列(Series)。下面是pandas.DataFrame.describe()函数的语法和参数说明:

语法:

DataFrame.describe(percentiles=None, include=None, exclude=None)

参数:

  • percentiles:是一个浮点值或数组,可选参数,指定要计算的百分位数。默认为 [0.25,0.5,0.75],即计算Q1、Q2和Q3(四分位数)。
  • include:是一个字符串或列表,可选参数,指定要计算的数据类型,例如数值或对象。默认为 None,即计算所有类型的数据。
  • exclude:是一个字符串或列表,可选参数,用于排除要计算的数据类型。默认为 None。

示例1:对pandas数据帧进行描述性分析

下面的示例代码演示如何使用pandas.DataFrame.describe()函数来生成关于一组数据的统计描述:

import pandas as pd
import numpy as np

# 创建数据帧
data = pd.DataFrame({
   'Name': ['Alex', 'Bob', 'Charlie', 'David', 'Emily'],
   'Age': [25, 28, 21, 32, 24],
   'Salary': [50000, 60000, 55000, 70000, 45000]
})

# 生成数据集的统计描述
desc = data.describe()

# 打印统计摘要
print(desc)

输出结果:

             Age        Salary
count   5.000000      5.000000
mean   26.000000  55000.000000
std     4.049691  10000.000000
min    21.000000  45000.000000
25%    24.000000  50000.000000
50%    25.000000  55000.000000
75%    28.000000  60000.000000
max    32.000000  70000.000000

示例2:指定计算的百分位数和数据类型

下面的代码演示如何使用pandas.DataFrame.describe()函数来计算给定数据集的其他百分位数和只计算数值类型的数据:

import pandas as pd
import numpy as np

# 创建数据帧
data = pd.DataFrame({
   'Name': ['Alex', 'Bob', 'Charlie', 'David', 'Emily'],
   'Age': [25, 28, 21, 32, 24],
   'Salary': [50000, 60000, 55000, 70000, 45000]
})

# 生成数据集的统计描述
desc = data.describe(percentiles=[0.1, 0.2, 0.5, 0.8, 0.9], include=[np.number])

# 打印统计摘要
print(desc)

输出结果:

             Age        Salary
count   5.000000      5.000000
mean   26.000000  55000.000000
std     4.049691  10000.000000
min    21.000000  45000.000000
10%    22.200000  46000.000000
20%    23.200000  47000.000000
50%    25.000000  55000.000000
80%    29.200000  62000.000000
90%    31.000000  67000.000000
max    32.000000  70000.000000

上述两个示例演示了如何使用pandas.DataFrame.describe()函数来计算数据集的统计描述信息,并说明了如何指定计算的百分位数和数据类型。 您可以根据需要使用不同的参数来调整函数的行为,并生成符合自己数据集的统计描述。

本文链接:http://task.lmcjl.com/news/17693.html

展开阅读全文
上一篇:MongoDB原子操作 下一篇:MongoDB高级索引