关键词

Pandas中的数据结构

Pandas是一个数据处理工具,其核心模块是pandas库。在Pandas中,有两种基础的数据结构:Series和DataFrame。

Series

Series是一种类似于一维数组的数据结构,它由一组数据和一组相关的标签组成,我们可以通过索引来访问数据。Series的标签又叫索引,它们可以是整数、浮点数或字符串等类型。

下面是一个创建Series的例子:

import pandas as pd

s = pd.Series([1, 2, 3, 4, 5])
print(s)

输出:

0    1
1    2
2    3
3    4
4    5
dtype: int64

上述代码中,我们创建了一个名为s的Series,由一组数字1、2、3、4、5组成,并自动分配了默认的整数索引。可以看到,Series中的每个元素都有一个索引,从0开始递增。

我们可以自定义Series的索引,如下所示:

s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s)

输出:

a    1
b    2
c    3
d    4
e    5
dtype: int64

上述代码中,我们使用提供的索引为Series创建了一个自定义的索引。

DataFrame

DataFrame是一种类似于二维数组或SQL表的数据结构,它由行索引和列索引组成,以及每列的数据类型可以不同。DataFrame中的每列数据可以是一个Series,也可以是Python中的列表、字典等数据结构。

下面是一个创建DataFrame的例子:

import pandas as pd

data = {
    'name': ['Jack', 'Tom', 'Mary'],
    'age': [18, 20, 22],
    'gender': ['M', 'M', 'F']
}

df = pd.DataFrame(data)
print(df)

输出:

   name  age gender
0  Jack   18      M
1   Tom   20      M
2  Mary   22      F

可以看到,我们使用一个Python字典创建了一个名为df的DataFrame,其中每个键对应DataFrame中的一列数据。在这个例子中,数据包含了每个人的姓名、年龄和性别。

我们也可以自定义DataFrame的行索引,如下所示:

df = pd.DataFrame(data, index=['student1', 'student2', 'student3'])
print(df)

输出:

          name  age gender
student1  Jack   18      M
student2   Tom   20      M
student3  Mary   22      F

上述代码中,我们使用提供的索引为DataFrame创建了一个自定义的行索引。

除了以上提到的两种数据结构之外,Pandas还有其他类型的数据结构,如Panel和Panel4D,但这些类型用得并不多。以上两种数据结构已经足够我们完成大部分的数据处理任务。

本文链接:http://task.lmcjl.com/news/17397.html

展开阅读全文