正则表达式新解

2023-09-20 21:47:14

是什么?

正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符"),可以用来描述和匹配字符串的特定模式。

正则表达式是一种用于模式匹配和搜索文本的工具。

正则表达式提供了一种灵活且强大的方式来查找、替换、验证和提取文本数据。

正则表达式可以应用于各种编程语言和文本处理工具中,如 JavaScript、Python、Java、Perl 等。

也就是说,正则表达式是用来筛选信息的工具,用于匹配查找替换等操作,它是一串特殊字符的集合。正则表达式用来匹配有相似特征的字符串

#为什么要用正则表达?

就是在表单验证时,准确的判断一个字符串是不是某种固定格式。比如邮箱的验证、手机号的验证等。目的是避免恶意用户的乱输入,使表单的收集是我们想要的格式!

想象一下,您正在编写应用程序,并且您希望在用户选择用户名时设置规则。我们希望用户名可以包含字母,数字,下划线和连字符。
为了让它看起来不丑,我们还想限制用户名中的字符数量。这时我们可以使用正则表达式来验证用户名

也就是说,使用正则表达式的意义在于将数据转化为用户需要的格式,使信息更加形象表达,方便查找是否有恶意信息

正则用法

匹配单个字符

记号说明
.匹配任意单个字符(换行符除外). 表示真正的.
[…x-y…]匹配字符集合里的任意单个字符
[^…x-y…]匹配不在字符组里的任意单个字符
\d匹配任意数字,与[0-9] 同义
\w匹配任意数字、字母、下划线,与[0-9a-zA-Z_] 同义
\s匹配空白字符,与[\r\v\f\t\n] 同义

匹配一组字符

记号说明
字符串匹配字符串值
字符串1|字符串2匹配字符串1或字符串2
*左邻第一个字符出现0 次或无穷次
+左邻第一个字符最少出现1 次或无穷次
?左邻第一个字符出现0 次或1 次
{m,n}左邻第一个字符出现最少m 次最多n 次

其他元字符

记号说明
^匹配字符串的开始 集合取反
$匹配字符串的结尾
\b匹配单词的边界,单词包括\w 中的内容
()对字符串分组
\数字匹配已保存的子组

核心函数

核心函数说明
re.findall()在字符串中查找正则表达式的所有(非覆盖)出现;返回一个匹配对象的列表。
re.match()尝试用正则表达式模式从字符串的开头匹配 如果匹配成功,则返回一个匹配对象 否则返回None
re.search()在字符串中查找正则表达式模式的第一次出现 如果匹配成,则返回一个匹配对象 否则返回None
re.group()使用match 或者search 匹配成功后,返回的匹配对象 可以通过group() 方法获取得匹配内容
re.finditer()和findall() 函数有相同的功能,但返回的不是列表而是迭代器 对于每个匹配,该迭代器返回一个匹配对象
re.split()根据正则表达式中的分隔符把字符分割为一个列表,并返回成功匹配的列表字符串也有类似的方法,但是正则表达式更加灵活
re.sub()把字符串中所有匹配正则表达式的地方换成新的字符串

贪婪匹配和非贪婪匹配

贪婪匹配:尽可能匹配多的字符

非贪婪匹配:尽可能匹配少的字符

如下面的代码,要匹配中间的数字,但是他的输出结果只有7,这是因为在贪婪匹配下,(\d+)前的.*会尽可能匹配多的字符,而(\d+)是匹配任意个数字,没有说具体几个数字,这样他就会匹配将llo 123456都匹配,只留一个数字给(\d+)匹配,这样(\d+)就只能匹配到7

import re
 
s='hello 1234567 world'
res = re.match('he.*(\d+).*rld$',s)
 
print(res.group(1))

如果要输出1234567,就要将匹配变为非贪婪匹配,在.*后加一个?,匹配尽可能少的字符,这样一来,.*?匹配到llo后面的空格后就不再匹配,而是交给(\d+)匹配,这样就能匹配到1234567了:

import re
 
s='hello 1234567 world'
res = re.match('he.*?(\d+).*rld$',s)
 
print(res.group(1))

正则练习

Python环境下引入re模块,定义一个字符串:

>>> import re
>>> s="I say food not Good"

匹配ood字符串:

在这里插入图片描述

匹配出food,Good:
在这里插入图片描述

贪婪匹配:
在这里插入图片描述

非贪婪匹配:

在这里插入图片描述

用点和中括号匹配:

在这里插入图片描述

更多推荐

springboot大学生体质测试管理系统springboot009

大家好✌!我是CZ淡陌。一名专注以理论为基础实战为主的技术博主,将再这里为大家分享优质的实战项目,本人在Java毕业设计领域有多年的经验,陆续会更新更多优质的Java实战项目,希望你能有所收获,少走一些弯路,向着优秀程序员前行!🍅更多优质项目👇🏻👇🏻可点击下方获取🍅文章底部或评论区获取🍅Java项目精品实

flask要点与坑

简介Flask是一个用Python编写的Web应用程序框架,该框架简单易用、模块化、灵活性高。该笔记主要记录Flask的关键要点和容易踩坑的地方Flask日志配置Flask中的自带logger模块(也是python自带的模块),通过简单配置可以实现将日志记录到日志文件中(记录关键日志有助于以后分析问题);更详细的log

领域知识图谱的医生推荐系统:利用BERT+CRF+BiLSTM的医疗实体识别,建立医学知识图谱,建立知识问答系统

项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户更好利用CSDN平台,自主完成项目设计升级,提升自身的硬实力。专栏订阅:项目大全提升自身的硬实力[专栏详细介绍:项目设计

Golang goroutine MPG模式浅析

协程是通过使用关键字go调用(或执行)一个函数或者方法来实现的(也可以是匿名函数)。Go语言在语言层面上支持了并发,goroutine是Go语言提供的一种用户态线程,有时我们也称之为协程。所谓的协程,某种程度上也可以叫做轻量线程,它不由os而由应用程序创建和管理,因此使用开销较低(一般为4K)。我们可以创建很多的gor

【无公网IP内网穿透】Windows搭建Web站点

什么是cpolar?cpolar是一个非常强大的内网穿透工具,开发调试的必备利器。它可以将本地内网服务器的HTTP、HTTPS、TCP协议端口映射为公网地址端口,使得公网用户可以轻松访问您的内网服务器,无需部署至公网服务器。支持永久免费使用,无需公网IP,也无需设置路由器。概述本次教程中,我们将实现在windows上搭

第十九章、【Linux】开机流程、模块管理与Loader

19.1.1开机流程一览以个人计算机架设的Linux主机为例,当你按下电源按键后计算机硬件会主动的读取BIOS或UEFIBIOS来载入硬件信息及进行硬件系统的自我测试,之后系统会主动的去读取第一个可开机的设备(由BIOS设置的),此时就可以读入开机管理程序了。开机管理程序可以指定使用哪个核心文件来开机,并实际载入核心到

【Java系列】深入解析 Lambda表达式

序言你只管努力,其他交给时间,时间会证明一切。文章标记颜色说明:黄色:重要标题红色:用来标记结论绿色:用来标记一级论点蓝色:用来标记二级论点希望这篇文章能让你不仅有一定的收获,而且可以愉快的学习,如果有什么建议,都可以留言和我交流1基础介绍1.1概念介绍JavaLambda表达式是Java8中最重要的新特性之一。它们是

MySQL常见面试题(三)

😀前言在当今数据驱动的时代,数据库管理成为企业和组织的核心组件。其中,数据库的性能优化是确保信息可以快速、准确地检索的关键要素。这通常通过正确实现和管理数据库索引来实现。索引不仅可以大大提高数据库的查询性能,还可以帮助维持数据的完整性和一致性。本文将深入探讨MySQL数据库中的不同类型的索引,包括其特点和实现方式。我

《计算机视觉中的多视图几何》笔记(6)

前面的1-5章在序号上被标为Part0,标题是TheBackground:ProjectiveGeometry,TransformationsandEstimation,讲述了一些背景知识,包括投影几何、变换和估计。接下来的部分进入到Part1,标题是CameraGeometryandSingleViewGeometr

CDN内容分发系统

CDN分发系统的架构。CDN系统的缓存,也是一层一层的,能不访问后端真正的源,就不打扰它。在没有CDN的情况下,用户向浏览器输入www.web.com这个域名,客户端访问本地DNS服务器的时候,如果本地DNS服务器有缓存,则返回网站的地址;如果没有,递归查询到网站的权威DNS服务器,这个权威DNS服务器是负责web.c

JavaScript Iterator 迭代器:简化集合遍历的利器

🎬岸边的风:个人主页🔥个人专栏:《VUE》《javaScript》⛺️生活的理想,就是为了理想的生活!目录引言1.迭代器的概念2.迭代器的属性3.迭代器的应用场景3.1数组遍历3.2对象遍历3.3Map遍历#3.4Set遍历4.自定义迭代器结论引言在JavaScript中,迭代器(Iterator)是一种用于遍历集

热文推荐