python 中利用字典给所有的符号编号

有时候,需要将某些特定的符号进行编号,变成计算机可以处理的形式,从而让程序可以进行后续操作,比如进一步进行one-hot编码或者Embedding嵌入。那么,如何快速给特定的符号进行快速的编码呢?具体如下:

例如,给所有的大小写英文字母进行编码,并且进行正向和反向映射:

symbols = list("ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz")

# Mappings from symbol to numeric ID and vice versa:
symbol_to_id = {s: i for i, s in enumerate(symbols)}
id_to_symbol = {i: s for i, s in enumerate(symbols)}

print('symbol_to_id:',symbol_to_id)
print('id_to_symbol:',id_to_symbol)

 

同理,也可以给所有的音素、所有的词性标注,甚至给所有的汉字等信息进行编码 。

猜你喜欢

转载自blog.csdn.net/m0_46483236/article/details/123765147