在互联网时代的今天,获取信息已经变得非常容易,网页中的信息成为了获取有用信息的新途径。爬虫是获取网页信息的最佳工具,而Python作为一门强大的编程语言,能够通过requests和etree两个库来轻松地实现爬虫操作。
本篇文章将详细讲解使用Python实现简单的爬虫操作,包括如何发送请求、如何获取响应、如何解析HTML页面等内容。
requests是Python中用于发送HTTP请求的库,通过requests库可以方便地发送GET、POST等请求。
以下是使用requests库发送GET请求的代码:
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
print(response.text)
解释一下上述代码:
以下是使用requests库发送POST请求的代码:
import requests
url = 'http://httpbin.org/post'
data = {
'key1': 'value1',
'key2': 'value2'
}
response = requests.post(url, data=data)
print(response.text)
解释一下上述代码:
etree是Python中用于解析HTML的库,通过etree库可以轻松地从HTML文档中提取所需信息。
以下是解析HTML文档的代码:
import requests
from lxml import etree
url = 'http://www.zhihu.com'
response = requests.get(url)
html = etree.HTML(response.text)
links = html.xpath('//a/@href')
for link in links:
print(link)
解释一下上述代码:
以下是一个简单的示例,演示如何通过爬虫获取网页中的图片信息:
import requests
from lxml import etree
url = 'https://www.baidu.com'
response = requests.get(url)
html = etree.HTML(response.text)
imgs = html.xpath('//img/@src')
for img in imgs:
print(img)
解释一下上述代码:
以下是另一个示例,演示如何通过爬虫获取网页上的文章:
import requests
from lxml import etree
url = 'https://www.zhihu.com/question/364945793'
response = requests.get(url)
html = etree.HTML(response.text)
titles = html.xpath('//div[@class="QuestionRichText"]/span/p/text()')
for title in titles:
print(title)
解释一下上述代码:
以上就是使用Python实现简单的爬虫操作的完整攻略。借助requests库和etree库,我们可以轻松地发送HTTP请求、获取响应、解析HTML文档获取信息。当然这只是一个简单的示例,爬虫操作还远远不止这些,但这是一个很好的开始。
本文链接:http://task.lmcjl.com/news/14866.html