正则表达式是一种用于匹配字符串的强大工具,可以在Python中用于解析HTML、XML等文本数据。本攻略将详细讲解中正则表达式的基本语法、常用函数和示例应用。
正则表达式由普通字符和特殊字符组成的字符串,用于描述一类字符串的模式。下面是一些常用的正则表达式特字符:
.
:匹配任意字符,除了换行符。*
:匹配前面的字符零次或多次。+
:匹配前面的字符一次或多次。?
:匹配前面的字符零或一。^
:匹配字符串的开头。$
:匹配字符串的结尾。[]
:匹配括号中的意字符。()
:将括号中的字符作为一个整体进行匹配。|
:匹配两个或多个正则表式中的任意一个。中常用的正则表达式函数包括:
re.search(pattern, string, flags=0)
在字符串中搜索正则表达式的第一个匹配项。re.match(pattern, string, flags=0)
:在字符串的开头匹配正则表达式。re.findall(pattern, string, flags=0)
:在字符串中搜索正则表达式的所有匹配项。re.sub(pattern, repl, string, count=0, flags=0)
:在字符串中搜索正则表达式的所有匹配项,并将其替换为指定的字符串。下面是一个例子,演示如何使用正则表达式提取HTML标签中的文本内容:
import re
text = '<h1>Welcome to my website</h1>'
pattern ='<.*?>(.*?)</.*?>'
result = re.search(pattern, text)
if result:
print('Match found:', result.group(1))
else:
print('Match not found')
在上面的代码中,我们使用正则表达式<.*?>(.*?)<!--.*?-->
提取HTML标签中的文本内容。<.*?>
表示匹配一个或多个任意字符,.*?
表示非贪婪匹配,()
表示将.*?
匹配到的字符串作为捕获组。search()
函数用于在字符串中搜索正则表达式的第一个匹配项。运行代码后,输出结果为Match found: Welcome to my website
。
下面是另一个例子,演示如何使用正则表达式提取网页中的图片链接:
import re
import requests
url = 'https://www.example.com'
response = requests.get(url)
text = response.text
pattern = r'<img.*?src="(.*?)".*?>'
result = re.findall(pattern, text)
if result:
print('Matches found result)
else:
print('Matches not found')
在上面的代码中,我们使用正则表达式<img.*?src="(.*?)".*?>
提取页中的图片链接。<img.*?>
表示匹配一个或多个任意字符,src="(.*)"
表示匹配src
属性值,()
表示将.*?
匹配到的字符串作为捕获组。findall()
函数可以返回所有匹配的结果。运行代码后,输出结果为所有图片链接的具体内容。
本攻略详细讲解了Python则表达式的基本语法、常用函数和示例应用。正则表达式是一种用于匹配字符串的强大工具可以在Python爬虫中用于解析HTML、XML等文本数据。演示了如何使用正则达式匹配字符串中的数字、替换字符串中的空格、提取HTML标签中的文本、提取网页中的图片链接。希望读者可以通过这些示例更好地理解正则表达式的应用。
本文链接:http://task.lmcjl.com/news/7433.html