XPath(XML Path Language)是一种用于在XML文档中进行元素遍历和信息提取的语言。在Python中,使用XPath可以解析HTML、XML等网页文档,并且与正则表达式相比,XPath更加方便、简洁。下面是使用XPath解析数据的详细攻略。
如果我们把HTML或XML文档看做一个树形结构,那么XPath就是通过路径来找到该树形结构中唯一或者多个节点的一种语言。
XPath语法较为简洁,其可以使用各种轴找到元素、属性及元素关系,将复杂的数据结构展现为一系列简单的节点集合。
Python中有多个XPath解析库可供选择,比如:lxml、html5lib、pyquery等。这里以lxml为例,介绍XPath的使用方法。
可以使用以下命令安装lxml库:
pip install lxml
在安装完成后,我们就可以开始使用lxml库进行XPath解析。
我们以“百度百科”为例子,准备解析该网页上的一些数据。下面是解析步骤:
第一步:使用requests库获得网页HTML代码
import requests
url = "https://baike.baidu.com/item/Python/407313"
response = requests.get(url)
html = response.content.decode('utf-8')
第二步:使用lxml库解析HTML代码,并使用XPath定位元素
from lxml import etree
selector = etree.HTML(html)
result = selector.xpath('//div[@class="lemma-summary"]/div[contains(@class, "para")]//text()')
上述代码中,我们首先用etree模块将html转化为XML格式,其中selector.xpath()函数里的参数为XPath语句,通过该语句,我们可以定位到数据所在的元素。
第三步:提取数据
summary = ''.join(result).strip()
print(summary)
上述代码使用Python内置函数join将列表中的所有字符串连接起来,并使用strip()方法去除首尾空格。
结果输出:
Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。Python语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进。
我们以下面这段XML文件为例:
<?xml version="1.0" encoding="UTF-8"?>
<student>
<name>Tom</name>
<age>12</age>
<gender>male</gender>
<address>Beijing</address>
</student>
第一步:使用lxml库解析XML文件
from lxml import etree
root = etree.parse('student.xml')
第二步:使用XPath定位元素
name = root.xpath('/student/name/text()')[0]
age = root.xpath('/student/age/text()')[0]
gender = root.xpath('/student/gender/text()')[0]
address = root.xpath('/student/address/text()')[0]
上述代码中,使用XPath语句以根节点/开始逐级定位,最后获取所需的文本内容。
第三步:提取数据
info = f"Name: {name}\nAge: {age}\nGender: {gender}\nAddress: {address}"
print(info)
结果输出:
Name: Tom
Age: 12
Gender: male
Address: Beijing
使用XPath解析数据可以方便、快捷地获取所需数据,并且与正则表达式相比,比较易懂和语法简洁。当然,对于特别大的XML文件,XPath也可能会有性能问题,需要注意优化。
本文链接:http://task.lmcjl.com/news/6779.html