首先,确定你想要爬取的新闻门户网站,例如新浪新闻、腾讯新闻等等。以新浪新闻为例,新浪新闻的网址为http://news.sina.com.cn/
。
使用Chrome浏览器或者其他现代浏览器的开发者工具,查看目标网站网页源代码,分析目标网站的结构。主要了解目标网站的页面布局、新闻列表、新闻详情、新闻分类等。
我们使用Python来写爬虫程序。安装Python爬虫库requests、BeautifulSoup和lxml,通过如下命令安装:
pip install requests
pip install beautifulsoup4
pip install lxml
我们首先需要获取新浪新闻的网页内容,代码如下:
import requests
url = "http://news.sina.com.cn/"
response = requests.get(url)
html_doc = response.text
print(html_doc)
运行上述代码,输出的便是新浪新闻的网页源代码。可以先输出网页源代码,以便分析目标网站的结构。
新浪新闻的新闻列表通过HTML标签<ul>
和<li>
来实现。我们可以使用BeautifulSoup来解析这些标签,代码如下:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'lxml')
news_list = soup.select('ul.news > li')
for news in news_list:
title = news.select_one('a').text
link = news.select_one('a').get('href')
print(title, link)
可以看到,我们使用BeautifulSoup的select
方法来选择标签,然后使用select_one
方法来获取标签的文本和链接。在此处,我们选择了页面上ul
标签的class为news
,然后获取每一条新闻的标题和链接。
要获取新闻的详情,我们需要访问每条新闻的URL链接,然后解析新闻内容。代码如下:
for news in news_list:
title = news.select_one('a').text
link = news.select_one('a').get('href')
response = requests.get(link)
soup = BeautifulSoup(response.text, 'lxml')
content = soup.select_one('div.article').text
print(title, link, content)
在这段代码中,我们通过requests
库访问每一条新闻的链接,然后使用BeautifulSoup
解析相应的网页。在解析的结果中,我们选择了页面上div
的class为article
,获取到了新闻的具体内容。
下面提供两个爬取新闻门户网站的示例:
第一财经新闻的网站为http://www.yicai.com/
。我们可以使用与上述新浪新闻爬取类似的方法,来获取第一财经的新闻列表和详情。示例代码如下:
import requests
from bs4 import BeautifulSoup
url = "http://www.yicai.com/"
response = requests.get(url)
html_doc = response.text
soup = BeautifulSoup(html_doc, 'lxml')
news_list = soup.select('ul.newsList > li')
for news in news_list:
title = news.select_one('a').text
link = news.select_one('a').get('href')
print(title, link)
response = requests.get(link)
soup = BeautifulSoup(response.text, 'lxml')
content = soup.select_one('div.TextContent').text
print(content)
网易新闻的网站为http://news.163.com/
。与上述新浪新闻爬取类似,我们可以通过以下代码,来爬取网易新闻的新闻列表和详情:
import requests
from bs4 import BeautifulSoup
url = "http://news.163.com/"
response = requests.get(url)
html_doc = response.text
soup = BeautifulSoup(html_doc, 'lxml')
news_list = soup.select('div#instant-news > ul > li')
for news in news_list:
title = news.select_one('a').text
link = news.select_one('a').get('href')
print(title, link)
response = requests.get(link)
soup = BeautifulSoup(response.text, 'lxml')
content = soup.select_one('div.post_content_main').text
print(content)
本文介绍了如何通过Python爬取新闻门户网站的完整攻略,包括目标网站确定、网站结构分析、Python爬虫库的安装、Python代码编写等流程,并提供了两个示例说明。通过本文的学习,读者可以学习到如何使用Python和Python爬虫库来实现网站爬虫,并用爬虫程序获取新闻门户网站的新闻列表和详情。
本文链接:http://task.lmcjl.com/news/7103.html