关键词

使用Python Pandas将多个文件中的Excel数据连接起来

首先,需要确保安装了pandas库。可以通过终端或命令行窗口中运行以下命令来安装pandas库:

pip install pandas

接着,将需要连接的Excel文件放置在同一个目录下。为了方便操作,可以将这些文件以相同的文件命名格式放在同一个子目录中。

下面是一个示例,假设我们有三个Excel文件,分别命名为file1.xlsxfile2.xlsxfile3.xlsx,它们均包含名为Sheet1的工作表,我们将它们放在名为data的子目录中。这样,文件的目录结构如下:

.
└── data
    ├── file1.xlsx
    ├── file2.xlsx
    └── file3.xlsx

接下来,可以使用pandas库中的concat函数来将这些Excel文件的数据连接起来。具体操作如下:

import pandas as pd
import os

# 获取当前工作目录
cwd = os.getcwd()
# 拼接数据子目录的路径
data_dir = os.path.join(cwd, 'data')

# 存储多个Excel文件数据的列表
data_frames = []
# 遍历数据子目录下的所有Excel文件
for file in os.listdir(data_dir):
    if file.endswith('.xlsx'):
        # 读取Excel文件中名为Sheet1的工作表
        df = pd.read_excel(os.path.join(data_dir, file), sheet_name='Sheet1')
        # 将数据添加到列表中
        data_frames.append(df)

# 使用pandas库中的concat函数将多个DataFrame连接起来
result = pd.concat(data_frames)

# 打印连接后的结果
print(result.head())

上述代码中,首先用os库获取当前工作目录,再使用os.path.join函数拼接出数据子目录的路径。接下来创建一个空的列表data_frames,用于存储读取出的多个DataFrame对象。然后使用os.listdir函数遍历数据子目录下的所有文件,如果文件名以.xlsx结尾,则使用pd.read_excel函数读取Excel文件中名为Sheet1的工作表,将其转换为DataFrame对象,然后将其添加到data_frames列表中。

最后,使用pd.concat函数将data_frames列表中的所有DataFrame对象连接起来,然后将连接后的结果存储在result变量中,并打印出结果的前几行。

通过上述操作,就可以将多个Excel文件中的数据连接起来,实现了数据的整合和分析。

本文链接:http://task.lmcjl.com/news/17284.html

展开阅读全文