描述统计学(descriptive statistics)是一门统计学领域的学科,是一种利用某些指标对数据进行概括和描述的一种统计方法。
描述性统计通过统计数据的集中趋势、离散程度、分布形态、相关性等特征来描述数据的基本情况和规律,常用于数据分析、数据挖掘、商业分析等领域。常见的描述性统计指标包括均值、中位数、标准差、方差、极差、四分位数等。
而Pandas提供了丰富的描述性统计方法,可以轻松地计算数据集的各种统计信息。下列表格对 Pandas 常用的统计学函数做了简单的总结:
函数名称 | 描述说明 |
---|---|
count() | 统计某个非空值的数量。 |
sum() | 求和 |
mean() | 求均值 |
median() | 求中位数 |
mode() | 求众数 |
std() | 求标准差 |
min() | 求最小值 |
max() | 求最大值 |
abs() | 求绝对值 |
prod() | 求所有数值的乘积。 |
cumsum() | 计算累计和,axis=0,按照行累加;axis=1,按照列累加。 |
cumprod() | 计算累计积,axis=0,按照行累积;axis=1,按照列累积。 |
corr() | 计算数列或变量之间的相关系数,取值-1到1,值越大表示关联性越强。 |
这些方法可以应用于Series和DataFrame对象,并且可以根据需要指定轴向、跳过缺失值等参数进行计算。
接下来我们将详细说明Pandas常用的描述性统计方法。
import pandas as pd
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
# 计算每列的平均值
print(df.mean())
# 计算每行的平均值
print(df.mean(axis=1))
输出结果:
A 2.0
B 5.0
C 8.0
dtype: float64
0 4.0
1 5.0
2 6.0
dtype: float64
import pandas as pd
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
# 计算每列的中位数
print(df.median())
# 计算每行的中位数
print(df.median(axis=1))
输出结果:
A 2.0
B 5.0
C 8.0
dtype: float64
0 4.0
1 5.0
2 6.0
dtype: float64
import pandas as pd
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
# 计算每列的标准差
print(df.std())
# 计算每行的标准差
print(df.std(axis=1))
输出结果:
A 1.0
B 1.0
C 1.0
dtype: float64
0 2.160247
1 2.160247
2 2.160247
dtype: float64
import pandas as pd
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
# 给出每列的基本描述统计信息
print(df.describe())
# 给出每行的基本描述统计信息
print(df.describe(include='all'))
输出结果:
A B C
count 3.0 3.0 3.0
mean 2.0 5.0 8.0
std 1.0 1.0 1.0
min 1.0 4.0 7.0
25% 1.5 4.5 7.5
50% 2.0 5.0 8.0
75% 2.5 5.5 8.5
max 3.0 6.0 9.0
A B C
count 3.
本文链接:http://task.lmcjl.com/news/4497.html