网易有道QAnything开源:探索个性化问答的新纪元

网易有道最新开源力作:QAnything引擎。是基于RAG(Retrieval Augmentated Generation)的引擎,可以用于建立本地知识库做问答,解锁本土ChatGPT般的问答体验。☝

「QAynthing」是一个成熟的系统,有着准确率高、速度快、纯离线,易于使用(一键部署),占用资源小(只要16G显存即可)的特点。

目前,「QAynthing」已经在有道的多个产品中落地应用,包括有道词典的文档问答,有道速读,以及有道课程业务(高中、少儿围棋等)的客服系统等,在有道合作的2B客户的场景中已经落地应用。

 

chatgpt的大模型能力很强,但其训练耗时很长,无法利用用户的私有数据,且有胡乱编造的幻觉问题。

与ChatGPT相比,有道自研的QAynthing」有自己的突出优势。它能够快速塞入各种格式的文档,如doc、ppt、excel、图片、pdf等,系统将在很短的时间内对这些文档进行处理并根据语义建立知识库,用户可以基于这样的知识库做各种问答。系统将理解用户的意图,在全库中寻找相关的内容,理解、提取用户关心的要点,并加以总结后呈现给用户。

 

「QAynthing」包含的模型和系统代码,我们都全面开源了。此次开源还包含了一个应用系统,用户可以通过前端页面上传文档,直接使用。也可以通过我们提供的API接口做二次开发,搭建诸如智能客服等应用。用户直接一键下载我们的代码和模型即可开始使用。

  

在模型部分,我们开源了有道自研的BCE embedding和rerank,用来做语义检索和相关性排序。得益于有道在翻译领域的积累,有道自研的embedding/rerank模型在跨语种场景下表现尤其好。比如知识库的文档有中文、英文混合语种的内容,当用中文去问问题的时候,我们能够很好的检索出英文内容。目前所有的开源embedding模型都忽略了跨语种检索的问题,在跨语种上表现不佳。此外,开源的embedding很多时候忽略了RAG的问题,只是单纯追求语义相似。我们的embedding和rerank模型专门针对RAG的场景做了训练,所以有着更高的准确率

系统部分,我们对文档的解析、切片、建库、embedding/LLM的推理做了大量的优化,具有稳定、速度快、易于安装使用的特点。

目前该项目还处于不断迭代的阶段欢迎大家参与开发,并给予我们更多反馈

官网地址:https://github.com/netease-youdao/QAnything

某中学采购“智能互动宣泄仪”——实则为任天堂 Wii 的套壳 TIOBE 2023 年度编程语言:C# 金山 WPS 崩了 Linux 的 Rust 试验取得成功、Firefox 能否抓住机会……关于开源的 10 条预测 女高管开除员工事件后续:公司董事长称员工“惯犯”并质疑“学历简历造假” 开源神器 LSPosed 宣布停更,作者称遭受大量恶意攻击 2024 前端圈“开年之战”:React 挖坑不填,要靠文档来补? Linux Kernel 6.7 正式发布 “后开源”时代已来:许可证失效、无法为普罗大众服务 被女高管违法开除员工发声,因反对用盗版 EDA 工具设计芯片遭针对
{{o.name}}
{{m.name}}