目录
介绍
BOLT English SMS/Chat语料库由语言数据联盟 (LDC) 开发,包含通过数据捐赠和英语母语人士的实时采集而收集的自然生成的短信服务 (SMS) 和聊天 (CHT) 数据。该语料库包含 18,429 条对话,共计 3,674,802 个单词,涵盖 375,967 条消息。
BOLT (广义操作语言翻译)项目开发了针对非正式语种的机器翻译和信息检索,尤其侧重于用户生成内容。LDC 通过收集中文、埃及阿拉伯语和英语的非正式数据源(讨论论坛、短信和聊天)来支持 BOLT 项目。收集到的数据经过翻译和注释,可用于各种任务,包括词对齐、树状结构构建、词义库构建和共指。
数据
本次发布的数据采用两种方式收集:通过 LDC 的收集平台进行全新收集,以及 BOLT 收集参与者捐赠的短信或聊天档案。所有收集的数据均经过人工审核,以排除任何非目标语言或包含敏感内容(例如个人身份信息 (PII))的消息/对话。所有数据均以 UTF-8 XML 格式呈现。