lxml是一个Python解析库,可以解析HTML和XML文档,可以用pip安装,在终端输入:
pip install lxml
安装完成后,可以import lxml来使用,也可以使用from lxml import etree来导入etree模块,etree模块可以更方便的操作XML文档,比如:
from lxml import etree html = etree.HTML('<div>Hello World</div>') print(etree.tostring(html))
输出:
b'<div>Hello World</div>'
使用etree.HTML()方法,可以将HTML文档解析为Element对象,就可以通过Element对象的API来操作HTML文档。比如:
html = etree.HTML('<div>Hello World</div>') div = html.xpath('//div')[0] print(div.text)
输出:
Hello World!
使用etree.parse()方法,可以将XML文档解析为ElementTree对象,就可以通过ElementTree对象的API来操作XML文档。比如:
xml = etree.parse('test.xml') root = xml.getroot() print(root.tag)
输出:
root
使用etree.Element()方法,可以创建一个Element对象,就可以通过Element对象的API来操作XML文档,比如:
root = etree.Element('root') child = etree.Element('child') child.text = 'Hello World!' root.append(child) print(etree.tostring(root))
输出:
b'<root><child>Hello World!'
本文链接:http://task.lmcjl.com/news/8511.html