利用doccano平台进行实体标注

一、基础配置

1.本地安装(请勿在AI Studio内部运行)

AI Studio是一款由百度推出的AI开发平台,AI Studio充分利用了百度在人工智能领域的技术积累和优势资源,提供了丰富的算法模型、数据集、工具和云计算资源,帮助开发者轻松实现各种AI应用场景,如图像识别、语音合成、自然语言处理等。

在命令行运行如下代码:
pip install doccano

2.初始化数据库和账户

在命令行运行如下代码:
doccano init
doccano createuser --username your_admin_name --password your_password

其中your_admin_name是用户自定义的账户名,your_password是用户自定义的账户密码。

3.启动doccano

(1)在一个窗口启动doccano的WebServer,并保持窗口。代码如下:
doccano webserver --port 8000
(2)在另一个窗口启动doccano的任务队列。代码如下:
doccano task

4.运行doccano来标注实体和关系

(1)打开浏览器,在地址栏中输入http://127.0.0.1:8000/后回车即得以下界面。
在这里插入图片描述
(2)登录账户,点击右上方的
LOGIN
,输入上述步骤中设置的用户名和密码登录。
在这里插入图片描述
(3)创建项目,点击左上角的CREATE,跳转至如下界面。

在这里插入图片描述

  • 鼠标选择序列标注(Sequence Labeling)
  • 填写项目名称(Project name)等必要信息
  • 勾选允许实体重叠(Allow overlapping entity)使用关系标注(Use relation labeling)
    在这里插入图片描述

(4)开始标注

  • 设置标签,在Labels一栏点击Actions,Create Label手动设置或者Import Labels从文件导入。

在这里插入图片描述

最上边Span表示实体标签,Relation表示关系标签,需要分别设置。下面以实体标签为例:

在这里插入图片描述

其中Label name表示标签名称,Key表示改标签的标识,Color表示该标签的颜色标注。Preview表示该标签的预展。
现设置了三个实体标签如下:

在这里插入图片描述

  • 导入数据。在Datasets一栏点击Actions、Import Dataset从文件导入文本数据。
  • 根据文件格式(File format)给出的示例,选择适合的格式导入自定义数据文件。
  • 导入成功后即跳转至数据列表。下面以.txt文件为例:

在这里插入图片描述
下面说明导入成功:
在这里插入图片描述

  • 标注数据。点击每条数据最右边的Annotate按钮开始标记。
    在这里插入图片描述

  • 标记页面右侧的 标签类型(Label Types) 开关可在实体标签和关系标签之间切换。
    在这里插入图片描述

  • 实体标注:直接用鼠标选取文本即可标注实体。
  • 关系标注:首先点击待标注的关系标签,接着依次点击相应的头尾实体可完成关系标注。

这里以实体标注为例:

直接用鼠标选取文本即可标注实体。

在这里插入图片描述

标注后显示效果如下:

在这里插入图片描述

全部标注后效果如下:
在这里插入图片描述

  • 导出数据。在Datasets一栏点击Actions、Export Dataset导出已标注的数据。
    在这里插入图片描述

最后就可以得到一个.jsonl文件,里面就包含了标注好的数据。

猜你喜欢

转载自blog.csdn.net/weixin_56242678/article/details/131264941