Python中的诡异事:不可见字符!

前言

  今天分享一件很诡异的事情,我写代码的时候遇到了不可见的字符!!!

1. 起因

  今天在使用pipreqs导出项目中所依赖的库时突然报错了:

pipreqs . --encoding=utf-8 --force

# 以下是报错信息
ERROR: Failed on file: ./build.py
Traceback (most recent call last):
  File "/usr/local/bin/pipreqs", line 8, in <module>
    sys.exit(main())
  File "/usr/local/lib/python3.8/dist-packages/pipreqs/pipreqs.py", line 528, in main
    init(args)
  File "/usr/local/lib/python3.8/dist-packages/pipreqs/pipreqs.py", line 455, in init
    candidates = get_all_imports(input_path,
  File "/usr/local/lib/python3.8/dist-packages/pipreqs/pipreqs.py", line 131, in get_all_imports
    raise exc
  File "/usr/local/lib/python3.8/dist-packages/pipreqs/pipreqs.py", line 117, in get_all_imports
    tree = ast.parse(contents)
  File "/usr/lib/python3.8/ast.py", line 47, in parse
    return compile(source, filename, mode, flags,
  File "<unknown>", line 1
    # -*- coding:utf-8 -*-
    ^
SyntaxError: invalid character in identifier

  直接来了SyntaxError#竟然是个无效字符,字符#表示十分的无辜,当事人表示十分的震惊!!!这不是离天下之大谱,滑天下之大稽吗???这就一行代码注释,能够错到哪里去!

在这里插入图片描述

2. 调查

  头一次遇到这种邪门的事情,我就查看了一下pipreqs 源码,代码很简单,我就摘取了报错的部分:

# pipreqs/pipreqs.py line 112
for file_name in files:
    file_name = os.path.join(root, file_name)
    with open(file_name, "r", encoding=encoding) as f:
        contents = f.read()
    try:
        tree = ast.parse(contents)	# 在这里报错了
        for node in ast.walk(tree):
            if isinstance(node, ast.Import):
                for subnode in node.names:
                    raw_imports.add(subnode.name)
            elif isinstance(node, ast.ImportFrom):
                raw_imports.add(node.module)
    except Exception as exc:
    	...

  意思也很好理解,pipreqs读取当前工程下的所有python文件,然后使用ast库进行语法分析,获取python文件所依赖的库名。既然这部分报错了,我就直接拿了出来,此时,我高度怀疑ast存在重大bug

3. 高能

  为了确认ast在解析文件时存在bug,我对当前工程下的所有python文件进行一一测试,然而,事情的发展却超出了我的预料:第二个文件(process_data.py)竟然能够可以解析!
  我看了下这个文件,开头也是一样的注释,然而却没有报错。难道是编码有问题?我打开了Pycharm看了一下,也没有问题:

在这里插入图片描述
  这也太诡异了吧,然后我又debug了一下,看下文件的内容,确定也没有问题:

在这里插入图片描述
  想不通了,于是问了下ChatGPT

在这里插入图片描述
  给出了四个怀疑点,基本都是一一排除了,python 3.8、文件为utf-8编码,无语法错误,注释也没有什么问题。但有一个点却无法理解:不可见的特殊字符?
  不可见?既然是个字符,即使不可见也得有位置吧。于是乎,最诡异的事情来了:

在这里插入图片描述
  还真的有一个空字符,在第一个位置,这。。。空字符还能占个位置?
  打印了一下ASCII,发现其值竟然是65279,空字符竟然有ASCII值,顿时觉得这个问题不简单,难道还真的不可见?

在这里插入图片描述

4. 释惑

  百度了一下发现,ASCII值为65279是因为文件采用UTF-8 BOM编码导致的,这是Windows环境下创建文件时默认的编码方式,对此还专门看了一下,还真是:

在这里插入图片描述
  这在Pycharm中也有这项设置,默认情况下在Pycharm中创建新文件时会采用UTF-8 with NO BOM编码,也就是常说的UTF-8,而之所以ast库有的能够正常解析文件有的却不可以,是可能有的文件不是在Pycharm中创建的,导致了这种诡异的时间发生了。同时,我用二进制的方式读了一下文件,发现前三个字节是\xEF\xBB\xBF,这也正是UTF-8 BOM编码时自动添加的。

py_file = './build.py'
with open(py_file, 'r', encoding='utf-8') as f:
    contents = f.read()
    if ord(contents[0]) == 65279:
        print('UTF-8 BOM')

with open(py_file, 'rb') as f:
    contents = f.read(3)
    if contents == b'\xEF\xBB\xBF':
        print('UTF-8 BOM')

# UTF-8 BOM
# UTF-8 BOM

  于是将文件编码由UTF-8 BOM改为UTF-8,问题就解决了!

在这里插入图片描述


  关注微信公众号:夏小悠,以获取更多文章、论文PPT等资料^_^

猜你喜欢

转载自blog.csdn.net/qq_42730750/article/details/132249961