简易处理字典MDX文件的方法

字典文件是各种字典的词库文件。

网上叫做多维数据库,呼起来很高大尚的!既然是数据库,总希望能用SQL或ACCESS来处理这些数据。这样,运用起来就灵活得

多了。但网上好像没有现在的的简单处理方法。找了半天,说是GetDict可以把MDX转换成TXT文件。一试还真行。可是一打开,全是HTML的代码。直接咽存为HTML文件,可以用浏览器打开。但这不是我所需要的。我想做的是,把MDX文件做成一个带分隔符的TXT,这样就可以直接转成ACCESS的数据库了。

先想的是把那些HTML的代码替换掉。但记事本、WORD、WPS打开几十兆,甚至几百兆的TXT文件都很困难,不用说替换了。所以在网上找能处理大TXT文件的软件。先是找了一个大txt文件打开工具、大文本编辑器_Editor V1.4 中文版,这个不好用。然后又找了一个国外的P什么软件。这个软件能打开,时间也短,可惜不能替换。也不是我想要的。最后找到一个叫EMEDit的。这个能打开,也能替换,而且替换速度还很快。最后,就用EmEdit成功地把MDX文件做成了带分隔符的TXT文件,且导入了ACCESS。

这里用的是《21世纪大英汉词典》,词条有32万多,足够用了。

一、先用GetDict将MDX文件转成TXT。

二、用EmEditror打开TXT,

三、进行替换

替换时首先要使用“正侧表达式”

在查找的内容里写上引号里的内容"<.*?>"

“查找下一个”EmEditor把HTML的代码全都找了出来。替换为空值。几秒钟就替换了1200万个字符!

拉下来的就好处理多了。还是替换,直到替换成需要的格式。

猜你喜欢

转载自blog.csdn.net/whbtomt/article/details/82151477
MDX