数据采集及部分数据标注平台工具说明

采集任务的类别

数据采集任务有很多种,可以分为图片,语音,视频,文本等几大类
图片类采集任务常见的有:人像采集,动作采集 ,生活场景采集,车辆采集,,商品采集。
语音类采集任务常见的有:外文录音采集,普通话录音采集,通话长语音采集,方言采集。
视频类的项目也分很多种,比如人流视频,人物面部表情视频,路况视频等。
采集任务还有一些文本采集任务包括广告、杂志、报纸、教材等。
还有一些其他类型的采集任务如:
网页信息采集:商品价格,用户评价,租房信息等
问卷调研:市场机会调研、广告效果调研、使用体验调研等
数据采集及部分数据标注平台工具说明

数据采集的形式

数据采集的形式是多样的,图片类的采集任务可以使用手机或相机进行现场采集,也可以在网上图库搜索或使用数据爬取软件进行线上采集。
语音类的采集任务像通话长语音,可以通过手机或其他移动设备进行录音也可以从视频中截取相应语音进行采集。而普通话录音,方言录音等采集一般则需要符合要求的人员去录音棚中使用录音设备录取指定的语句。
数据采集的形式会根据采集任务的类别和具体要求而不同。

数据采集服务平台

京东众智
为企业提供各种类型的数据采集服务,并且支持数据私有化交付,通过在企业内网部署数据工具,可以在企业内网批量提交数据并获取结果数据,数据隐私性更高。
http://dt.jd.com/dataServer/jdzz
百度众测
提供各类采集服务和标注服务,具有较强平台功能和工具,拥有数量庞大的数据标注和采集人员。但由于采取众包模式且人员众多数据反馈较慢且质量难以把控。
http://zhongbao.baidu.com/
龙猫数据
龙猫数据致力于人工智能大数据清洗、数据标注、数据校验等服务。在数据采集方面具有较大优势,但由于平台体量限制不适合承接太大规模的项目。
http://www.longmaosoft.com/cn/contact.html

数据爬取工具说明

在进行线上数据采集时,根据采集任务的具体要求我们可以使用合适的数据爬取工具来减少我们的工作量进而提升数据采集的效率。下面介绍一款免费的网页数据采集工具
八爪鱼
八爪鱼是一款免费的网络爬虫制作工具,可视化操作 无需编写代码,内置有大量的模板,支持任意网络数据抓取。
http://www.bazhuayu.com/download

1.百度“八爪鱼”点击下载安装,并注册登录
数据采集及部分数据标注平台工具说明

2.登陆之后可以发现,八爪鱼分为两个模式-----简易采集和自定义采集
数据采集及部分数据标注平台工具说明

3.点击使用简易采集,选择一个需要的模板,在此我们以京东商品信息的模板为例讲解使用
数据采集及部分数据标注平台工具说明

4.进入模板后在搜索关键词参数中可以填入搜索的关键词并选择需要爬取数据的页数点击保存并使用
数据采集及部分数据标注平台工具说明

5.数据采集完成,点击导出数据,可以导出成excel,csv,html等格式文件还可以导出到数据库
数据采集及部分数据标注平台工具说明

6.自定义采集:
自定义采集模式和简易采集模式大体相同,不同之处在于自定义采集可以自定义自己采集的网页和想要的标签数据。
数据采集及部分数据标注平台工具说明
输入需要采集数据的网址并进入该网址后自定义需要的标签点击保存并使用开始数据采集。

采集数据的提交

采集数据的提交方式可分为公有化交付和私有化交付
公有化交付:常见的方式是将采集数据打包后通过邮件或是开放云端等进行交付
私有化交付:通过在企业服务器中部署工具并在此基础上开发出相应的小程序或APP进行数据交付,数据隐私性更高。
数据采集及部分数据标注平台工具说明数据采集及部分数据标注平台工具说明

以上是一款为图片采集开发的小程序,采集者采集到合适数据后可通过此小程序直接上传采集数据,很多有数据服务的企业都开发有类似的产品,如京东,百度等。

猜你喜欢

转载自blog.51cto.com/14065470/2314920
今日推荐