引言
若文件夹下没有子文件夹,则遍历其下文件的最好方法是 os.listdir()
。但如果文件夹下有子文件夹,并且还想用正则匹配的话,使用 Python 内置标准模块 glob
是最好的选择。
安装
不需要安装,Python 内置标准模块。
用法
glob 模块可根据 Unix 终端所用规则找出所有匹配特定模式的路径名,但会按不确定的顺序返回结果。此外,glob 还支持三种正则匹配模式:
*
:匹配 0 个或多个字符?
:匹配单个字符[]
:匹配指定范围内的字符,如 [0-9] 匹配数字,[a-z] 匹配字母
测试样例:
root:.
│ 1.gif
│ 2.txt
│ cart.gif
└──sub
3.txt
4.gif
实战代码:
# 遍历 root 目录
>>> glob.glob('root/*')
['root\\1.gif', 'root\\2.txt', 'root\\cart.gif', 'root\\sub']
# 遍历 root 目录下的所有文件(不含子目录中的文件)
>>> glob.glob('root/*.*')
['root\\1.gif', 'root\\2.txt', 'root\\cart.gif']
# 遍历 root 目录下的所有文件(包含子目录中的文件)
>>> glob.glob('root/**/*.*', recursive=True)
['root\\1.gif', 'root\\2.txt', 'root\\cart.gif', 'root\\sub\\3.txt', 'root\\sub\\4.gif']
# 遍历 root 目录下的所有 .gif 后缀的文件(不含子目录中的文件)
>>> glob.glob('root/*.gif')
['root\\1.gif', 'root\\cart.gif']
# 遍历 root 目录下的所有 .gif 后缀的文件(包含子目录中的文件)
>>> glob.glob('root/**/*.gif', recursive=True)
['root\\1.gif', 'root\\cart.gif', 'root\\sub\\4.gif']
# 遍历 root 目录下以数字命名的所有文件(不含子目录中的文件)
>>> glob.glob('root/[0-9].*')
['root\\1.gif', 'root\\2.txt']
# 遍历 root 目录下以数字命名的所有文件(包含子目录中的文件)
>>> glob.glob('root/**/[0-9].*', recursive=True)
['root\\1.gif', 'root\\2.txt', 'root\\sub\\3.txt', 'root\\sub\\4.gif']
# 遍历 root 目录下文件名为单个字符的所有文件(不含子目录中的文件)
>>> glob.glob('root/?.*')
['root\\1.gif', 'root\\2.txt']
# 遍历 root 目录下文件名为单个字符的所有文件(包含子目录中的文件)
>>> glob.glob('root/**/?.*', recursive=True)
['root\\1.gif', 'root\\2.txt', 'root\\sub\\3.txt', 'root\\sub\\4.gif']
注意
glob.glob() 返回结果(列表类型)的顺序是不确定的。想要确定的返回顺序,可以使用 sorted() 或 .sort() 进一步排序处理。
参考
插画
【画师】しきなしゅーいち 【P站ID】71253216