cube studio 标注平台label studio,aihub自动化标注能力,大模型自动化标注

全栈工程师开发手册 (作者:栾鹏)
一站式云原生机器学习平台


前言

开源地址:https://github.com/data-infra/cube-studio

cube studio 开源的国内最热门的一站式机器学习mlops/大模型训练平台,支持多租户,sso单点登录,支持在线镜像调试,在线ide开发,数据集管理,图文音标注和自动化标注,任务模板自定义,拖拉拽任务流,模型分布式多机多卡训练,超参搜索,模型管理,推理服务弹性伸缩,支持ml/tf/pytorch/onnx/tensorrt/llm模型0代码服务发布,以及配套资源监控和算力,存储资源管理。支持机器学习,深度学习,大模型 开发训练推理发布全链路。支持元数据管理,维表,指标,sqllab,数据etl等数据中台对接功能。支持多集群,边缘集群,serverless集群方式部署。支持计量计费,资源额度限制,支持vgpu,rdma,国产gpu,arm64架构。

aihub模型市场:支持AI hub模型市场,支持400+开源模型应用一键开发,一键微调,一键部署。

gpt大模型:支持40+开源大模型部署一键部署,支持ray,volcano,spark等分布式计算框架,支持tf,pytorch,mxnet,mpi,paddle,mindspre分布式多机多卡训练框架,支持deepspeed,colossalai,horovod分布式加速框架,支持llama chatglm baichuan qwen系列大模型微调。支持llama-factory 100+llm微调,支持大模型vllm推理加速,支持智能体私有知识库,智能机器人。

背景介绍

做图文音项目过程中,我们通常会需要进行数据标注。label studio是一个比较好上手的标注平台,可以直接搜索label studio使用,也可以在cube studio中使用,在cube studio中不仅可以直接使用原生的label studio,还打通了模型训练和数据存储,可以直接使用我们自己训练好的AI模型,对我们的图文音数据来进行自动化标注。

1. 进入标注平台

体验环境可以直接使用,也可以根据https://github.com/tencentmusic/cube-studio/wiki来部署之后使用。
在这里插入图片描述
进入cube studio界面后,点击“数据资产”-“标注平台”,即可进入标注平台。体验环境的登录账号和密码可以扫描最上方的二 维码咨询,自己部署的话就可以自己设置。

2. 创建项目

进入label studio之后,可以点击“create”按钮,创建项目。
在这里插入图片描述
如果我们项目需要标注的内容已经准备好了,那可以直接通过“Data Import”来导入。
在这里插入图片描述

3. 手动标注

平台本身已经提供了很多模型,可以进入项目后,点击右上角的“settings”-“labeling interface”查看,可以手动添加标注项,也可以使用自带的模板。
在这里插入图片描述
通过“browse Templates”可以查看自带的模板。
在这里插入图片描述
定义好可以标注的内容后,就可以点击单个项目,进行标注了。
在这里插入图片描述
标注完成后点击“submit”即可。

4. 自动标注

想要完成批量的自动化标注,可以使用在cube studio训练好的模型,发布成推理服务后,在label studio中直接使用。
在这里插入图片描述
比如这里,我们想进行目标识别的自动化标注,我们选择yolo模型,部署web,发布为推理服务,等待推理服务发布完成后,刷新该界面,“部署web”会变为“卸载web”,表示服务发布完成。

点击该模型,进入接口查看页面。
在这里插入图片描述
拖到最底部,可以看到在labelstudio中可用的接口。
在这里插入图片描述
在label studio中,进入导入好了需要标注的图片的自动化标注项目,点击“settings”,点击“Machine learning”,选择“add model”,将ip+自动化标注接口这个url填入,添加模型。
在这里插入图片描述
配置好之后,下面就会出现该模型的信息,再回到标注界面,点击单个项目时,会出现缓冲,就表示模型在进行标注,之后就可以查看自动化标注的结果了。
在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/luanpeng825485697/article/details/139971881