使用wikiextractor 提取wiki数据 - 代码天地

使用wikiextractor 提取wiki数据

企业开发 2023-07-23 00:27:46 阅读次数: 0

wikiextractor包链接地址：GitHub - attardi/wikiextractor: A tool for extracting plain text from Wikipedia dumps
安装wikiextractor: pip install wikiextractor
然后下载wiki语料库，下载地址: Index of /zhwiki/latest/
我下载的是：zhwiki-latest-pages-articles.xml.bz2
然后使用下面命令：

python -m wikiextractor.WikiExtractor -b 1024M -o /home/work/ljs/wiki/wiki_data /home/work/wiki/zhwiki-latest-pages-articles.xml.bz2
-b 1024M 其中1024M是指单个文件允许的最大的占用硬盘的大小
/home/work/ljs/wiki/wiki_data 指输出数据存放文件夹
/home/work/wiki/zhwiki-latest-pages-articles.xml.bz2 指原始语料存放文件夹

然后就开始提取wiki数据了，如果上述命令执行错误，应该是环境有问题，请检查环境，还有尽量使用ubuntu系统，否则可能出错哦。
运行过程中：
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/131850424

使用wikiextractor 提取wiki数据

使用WikiExtractor提取维基百科语料

使用wiki中文数据训练词向量模型

wiki 使用

wiki使用

［例说NLP］使用gensim处理wiki百科中文数据

使用pymysql，提取数据库的数据

confluence wiki搭建使用

使用和创建wiki

使用XPath提取xml文档数据

使用Chrome console提取页面数据

在scrapy中使用Selector提取数据

使用xpath提取页面数据-代码实例

Python使用pickle保存和提取数据

如何使用scrapy中的ItemLoader提取数据？

如何使用JMeter从文件中提取数据

Python使用xslt提取网页数据

Python Xpath解析数据提取基本使用

如何使用 Python 提取 JSON 中的数据？

使用FFMPEG提取音频数据

wiki与sharepoint使用优劣对比

Python爬虫数据提取方式——使用bs4提取数据

使用 JDBC 提取数据库元数据

Scrapy 使用 LinkExtractor 提取链接和使用 Exporter 导出数据

wiki

在Java中使用tabula提取PDF中的表格数据

Python爬虫数据提取方式——使用PyQuery查找元素

python locust 性能测试：locust 关联---提取返回数据并使用

scrapy使用Item Loaders加载器来提取数据

如何使用Hadoop捆绑的低级工具进行数据提取？

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)