Python Cookbook --第二章：字符串和文本（1）

章节概述：几乎所有有用的程序都会涉及到某些文本处理，不管是解析数据还是产生输出。这一章将重点关注文本的操作处理，比如提取字符串，搜索，替换以及解析等。大部分的问题都能简单的调用字符串的内建方法完成。但是，一些更为复杂的操作可能需要正则表达式或者强大的解析器，所有这些主题我们都会详细讲解。并且在操作 Unicode时候碰到的一些棘手的问题在这里也会被提及到。

问题1：使用多个界定符分隔字符串

需要将一个字符串分隔为多个字段，但是分隔符（还有周围的空格）并不是固定的。

String对象的split()方法只适应于非常简单的字符串分割情形，它并不允许有多个分隔符或者分隔符周围不确定的空格。此时使用re.split()方法是最好的。

>>> line = \"asdf fedsf; fdswf, few,fds, fgs\"

>>> import re

>>> re.split(r\"[;,\\s]\\s*\",line)

[\'asdf\', \'fedsf\', \'fdswf\', \'few\', \'fds\', \'fgs\']

使用re.split()时需要注意正则表达式中是否包含一个括号捕获分组，如果使用了捕获分组，那么被匹配的文本也将出现在结果列表中。示例如下：

>>> re.split(r\"(;|,|\\s)\\s*\",line)

[\'asdf\', \' \', \'fedsf\', \';\', \'fdswf\', \',\', \'few\', \',\', \'fds\', \',\', \'fgs\']

问题2:字符串开头或者结尾匹配

需要通过指定的文本模式去检查字符串的开头或者结尾，比如文件名后缀，URL Scheme等等。

检查字符串开头或者结尾的一个简单方法是使用str.startswith()或者是str.endswith()方法。

>>> filename = \"spam.txt\"

>>> filename.endswith(\".txt\")

True

>>> url = \"http://www.python.org\"

>>> url.startswith(\"http:\")

True

如果想检查多种匹配可能，只需要将所有的匹配项放入到一个元组(必须放置元组中)中去，然后传给startswitn()或者endswith()方法。

>>> import os

>>> filenames = os.listdir(\'.\')

>>> filenames

[ \'Makefile\', \'foo.c\', \'bar.py\', \'spam.c\', \'spam.h\' ]

>>> [name for name in filenames if name.endswith((\'.c\', \'.h\')) ]  # 多种匹配放在元组中

[\'foo.c\', \'spam.c\', \'spam.h\']



#any() --->只要()中不为空则为True,反之为False.

>>> any(name.endswith(\'.py\') for name in filenames)

True

使用切片也可以做，只是看起来没有没有那么优雅。

>>> filename = \"spam.txt\"

>>> filename[-4:] == \".txt\"

True

使用正则表达式也可以实现，但是对于简单的匹配过于大材小用

>>> import re

>>> url = \"http://www.python.org\"

>>> re.match(\"http:|https:|ftp:\",url)

<_sre.SRE_Match  ; span=(0, 5), match=\'http:\'>

问题3：用Shell通配符匹配字符串

若要使用Unix Shell中常用的通配符（比如：*.py, Dat[0-9]*.csv等）去匹配文本字符串。

fnmatch模块提供了两个函数—fnmatch()和fnmatchcase()，可以用来实现这样的匹配。

#fnmatch()模块介绍

fnmatch(name, pat)

    Test whether FILENAME matches PATTERN.

    Patterns are Unix shell style:

    *       matches everything

    ?       matches any single character

    [seq]    matches any character in seq

    [!seq]    matches any char not in seq

>>> from fnmatch import fnmatch,fnmatchcase

>>> fnmatch(\"foo.txt\",\"*.txt\")

True

>>> fnmatch(\"foo.txt\",\"?oo.txt\")

True

fnmatch() 函数使用底层操作系统的大小写敏感规则 (不同的系统是不一样的) 来匹配模式。

>>> fnmatch(\"foo.txt\",\"*.TXT\")  #On windows

True



>>> from fnmatch import fnmatch

>>> fnmatch(\"foo.txt\",\"*.TXT\")  #On Ubuntu

False

fnmatchcase()是按照你的pattern来匹配的。不受操作系统干预。

问题4：字符串匹配和搜索

若需要匹配或者搜索特定模式的文本

如果匹配的是字面字符串，那么通常只需要调用基本字符串方法就可以。比如：str.find()，str.endswith()，str.startswith()或者类似的方法。

>>> text = \"year, 1028, but 2018, dsf year\"

>>> text == \"year\"  #准确匹配

False

>>> text.endswith(\"year\")  # 匹配结束

True

>>> text.startswith(\"year\")  # 匹配开始

True

>>> text.find(\"2018\")  #寻找，返回起始位

16

>>> text.find(\"hh\")  # 若查找失败，则返回-1

-1

对于复杂的匹配，需要使用正则表达式和re模块。

>>> import re

>>> date = \"12/19/2018\"

>>> re.match(r\"\\d+/\\d+/\\d+\",date)

<_sre.SRE_Match  ; span=(0, 10), match=\'12/19/2018\'>

问题5：字符串搜索和替换

若需要在字符串中搜索和匹配指定的文本模式

对于简单的字面模式，直接使用str.replace()方法即可。

>>> text = \"year, 1028, but 2018, dsf year\"

>>> text.replace(\"year\",\"years\")

\'years, 1028, but 2018, dsf years\'

对于复杂的模式，则需要使用re.sub()函数。

sub(pattern, repl, string, count=0, flags=0)



>>> text = \"Today is 12/19/2018.PyCon starts 3/13/2013\"

>>> import re

>>> re.sub(r\"(\\d+)/(\\d+)/(\\d+)\",r\"\\3-\\1-\\2\",text)

\'Today is 2018-12-19.PyCon starts 2013-3-13\'

如果多次用到相同的模式做匹配替换，考虑先编译它来提升性能。

>>> pattern = re.compile(r\"(\\d+)/(\\d+)/(\\d+)\") #先进行编译

>>> pattern.sub(r\"\\3-\\1-\\2\",text)

\'Today is 2018-12-19.PyCon starts 2013-3-13\'

问题6：字符串忽略大小写的搜索替换

需要以忽略大小写的方式搜索与替换文本字符串

在处理文本时忽略大小写，可以使用re模块中提供的flags标志位àre.IGNORECASE。

>>> text = \"year, but 2018, dsf Year\"

>>> re.findall(\"year\",text,flags=re.IGNORECASE)

[\'year\', \'Year\']

>>> re.sub(\"year\",\"Python\",text,flags=re.IGNORECASE)

\'Python, but 2018, dsf Python\'

问题7：最短匹配模式

当试图用正则表达式匹配某个文本模式时，但是它找到的是模式的最长可能匹配。但是需求却是查找最短的可能匹配。

比如在匹配一对分隔符之间的文本的时候

>>> pattern = re.compile(r\'\\\"(.*)\\\"\')

>>> text1 = \'Computer says \"no.\"\'

>>> pattern.findall(text1)

[\'no.\']

>>> text2 = \'Computer says \"no.\" Phone says \"yes.\"\'  # *是贪婪操作符

>>> pattern.findall(text2)

[\'no.\" Phone says \"yes.\']

为了让贪婪匹配变成非贪婪模式，只要在模式中的 * 操作符后面加上？修饰符。

>>> pattern = re.compile(r\'\\\"(.*?)\\\"\')

>>> pattern.findall(text2)

[\'no.\', \'yes.\']

通过在 * 或者 + 这样的操作符后面添加一个 ? 可以强制匹配算法改成寻找最短的可能匹配。

问题8：多行匹配模式

如果使用正则表达式去匹配一大块的文本，则需要跨多行去匹配。

匹配C语言分割的注释：

>>> pattern = re.compile(r\"/\\*(.*?)\\*/\")  # . 无法匹配换行符

>>> pattern.match(text)

<_sre.SRE_Match  ; span=(0, 9), match=\'/*ddasd*/\'>

>>> text = \'\'\'/*ddas

... fdsfs*/\'\'\'

>>> pattern.match(text) #匹配失败，返回None

>>>

为了修正这个问题，需要修改模式字符串，增加对换行的支持。

>>> pattern = re.compile(r\"/\\*((?:.|\\n)*?)\\*/\")  # ?: 表示不保存分组

>>> pattern.match(text)

<_sre.SRE_Match  ; span=(0, 14), match=\'/*ddas\\nfdsfs*/\'>

Python Cookbook --第二章：字符串和文本（1）

浏览：973 2026-05-09

继续阅读与本文标签相同的文章

LED灯杆屏是否行走在智慧应用的尖端？

（域名解析过程）web请求过程全解析一

特别推荐 2026年05月18日星期一

精彩发现

热门标签

Python Cookbook --第二章：字符串和文本（1）

浏览：973 2026-05-09

继续阅读与本文标签相同的文章

2026-05-18栏目： 教程

2026-05-18栏目： 教程

2026-05-18栏目： 教程

2026-05-18栏目： 教程

2026-05-18栏目： 教程

2026-04-23栏目： 教程

2026-04-23栏目： 教程

2026-04-23栏目： 教程

2026-04-23栏目： 教程

2026-04-24栏目： 教程

特别推荐 2026年05月18日 星期一

精彩发现

热门标签

相关文章

2026-05-18栏目：教程

2026-05-18栏目：教程

2026-05-18栏目：教程

2026-05-18栏目：教程

2026-05-18栏目：教程

2026-04-23栏目：教程

2026-04-23栏目：教程

2026-04-23栏目：教程

2026-04-23栏目：教程

2026-04-24栏目：教程

特别推荐 2026年05月18日星期一