关键词

Pandas描述性统计常用的方法

什么是描述性统计?

描述统计学(descriptive statistics)是一门统计学领域的学科,是一种利用某些指标对数据进行概括和描述的一种统计方法。

描述性统计通过统计数据的集中趋势、离散程度、分布形态、相关性等特征来描述数据的基本情况和规律,常用于数据分析、数据挖掘、商业分析等领域。常见的描述性统计指标包括均值、中位数、标准差、方差、极差、四分位数等。

Pandas提供了丰富的描述性统计方法,可以轻松地计算数据集的各种统计信息。下列表格对 Pandas 常用的统计学函数做了简单的总结:

函数名称 描述说明
count() 统计某个非空值的数量。
sum() 求和
mean() 求均值
median() 求中位数
mode() 求众数
std() 求标准差
min() 求最小值
max() 求最大值
abs() 求绝对值
prod() 求所有数值的乘积。
cumsum() 计算累计和,axis=0,按照行累加;axis=1,按照列累加。
cumprod() 计算累计积,axis=0,按照行累积;axis=1,按照列累积。
corr() 计算数列或变量之间的相关系数,取值-1到1,值越大表示关联性越强。

这些方法可以应用于Series和DataFrame对象,并且可以根据需要指定轴向、跳过缺失值等参数进行计算。

接下来我们将详细说明Pandas常用的描述性统计方法。

Pahndas描述性统计常用的方法

mean():计算平均值

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 计算每列的平均值
print(df.mean())

# 计算每行的平均值
print(df.mean(axis=1))

输出结果:

A    2.0
B    5.0
C    8.0
dtype: float64
0    4.0
1    5.0
2    6.0
dtype: float64

median():计算中位数

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 计算每列的中位数
print(df.median())

# 计算每行的中位数
print(df.median(axis=1))

输出结果:

A    2.0
B    5.0
C    8.0
dtype: float64
0    4.0
1    5.0
2    6.0
dtype: float64

std():计算标准差

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 计算每列的标准差
print(df.std())

# 计算每行的标准差
print(df.std(axis=1))

输出结果:

A    1.0
B    1.0
C    1.0
dtype: float64
0    2.160247
1    2.160247
2    2.160247
dtype: float64

describe():给出数据的基本描述统计信息

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 给出每列的基本描述统计信息
print(df.describe())

# 给出每行的基本描述统计信息
print(df.describe(include='all'))

输出结果:

         A    B    C
count  3.0  3.0  3.0
mean   2.0  5.0  8.0
std    1.0  1.0  1.0
min    1.0  4.0  7.0
25%    1.5  4.5  7.5
50%    2.0  5.0  8.0
75%    2.5  5.5  8.5
max    3.0  6.0  9.0
         A    B    C
count  3.

本文链接:http://task.lmcjl.com/news/4497.html

展开阅读全文