pandas.DataFrame.boxplot()是Pandas库中的一个函数,它可以将数据框的数据进行箱线图的可视化展示,从而帮助我们更好地理解数据的分布情况及异常值情况。本文将对该函数的作用、使用方法进行详细讲解,并提供两个实例说明。
函数的作用是将数据框的每个列进行箱线图的可视化展示,我们可以通过观察图表来判断数据分布的偏态及异常值情况。箱线图用于展示数据的分布情况,其中箱体代表数据的中位数,箱子上下两端的线段代表75%分位数与25%分位数,箱子外部的小点则代表异常值。
下面提供两个示例,以便更好地理解函数的使用方法。
导入Pandas库并创建数据框:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(10, 3), columns=['col1', 'col2', 'col3'])
输出:
col1 | col2 | col3 | |
---|---|---|---|
0 | 0.420447 | 0.029967 | 0.854970 |
1 | 0.574840 | 0.182032 | 0.627002 |
2 | 0.387047 | 0.757678 | 0.288685 |
3 | 0.437122 | 0.058667 | 0.957747 |
4 | 0.496488 | 0.268264 | 0.150822 |
5 | 0.798227 | 0.605551 | 0.493125 |
6 | 0.460259 | 0.333671 | 0.858922 |
7 | 0.446345 | 0.357164 | 0.536836 |
8 | 0.463891 | 0.743068 | 0.601117 |
9 | 0.807246 | 0.550213 | 0.430407 |
绘制所有列的箱线图:
df.boxplot()
plt.show()
输出:
可以看出,三列数据的分布情况大致相同,没有异常值。
继续使用示例1中的数据框,按照col2列进行分组绘制箱线图:
df.boxplot(by='col2')
plt.show()
输出:
由于col2列中的数值不同,因此在绘图中出现了分组的情况,可以看出col2=0.33和col2=0.43的数据存在较多的异常值。
pandas.DataFrame.boxplot()函数是Pandas库中的一个可视化函数,用于绘制数据框中数据的箱线图,可以帮助我们更好地理解数据的分布情况及异常值情况。通过该函数的示例,我们可以从实际应用中更好地理解其使用方法。
本文链接:http://task.lmcjl.com/news/4596.html