从数据仓库到百万标签库, 这样做够了

大数据深度挖掘、大数据精准营销、大数据科研等是目前比较热门的大数据应用关键词,随着大数据发展,利用大数据做营销的手段越来越丰富,但也越来越难了。

很多企业通过大数据深度爬虫技术采集了各种数据集合,但是很多数据是不是标准化的,在使用的上很难完全爆发出它的价值,所以很多企业都采用“数据标签”的方式给每个数据库打上各种应用场景的标签,每个企业有自己的标签库,或者说是DMP吧,但毕竟不是每个企业的产品经理都可以有能力做到对几十万亿数据库建立标签的,原因很简单,主要是数据量太大、数据维多太多、数据集合太杂、数据库太多。关联穿透非常大,而且需要对数据库设计数据表熟悉。

因为一直研究大数据深度爬虫技术,通过技术3个月完成了9000万企业工商完整数据挖掘和存储、通过5个月的爬取建立完9000万的裁判文书数据库、专利库和商标库也是几千万还有其他土地数据库、医疗数据库等等数十亿的数据库,那么庞大的数据量,存储就是个问题,然后搜索查询又是问题,因为很多时候 不能单单查询一个数据,而是需要关联多种数据库去查询 找到各自特征的数据。那么需要实现大数据库的多种数据库的穿透关联就得使用标签库方法来实现,就是为每个数据库都打上各种标签,主要包括五大部分内容:标签库定位、标签体系、产品功能、平台架构

一、标签库定位

标签库以标签形式统一客户群数据的封装规范和操作风格,从而实现客户洞察知识的沉淀及共享,并通过产品化的形式实现目标客户群的快速生成和发布,提升营销渠道的客户群投放效率,标签库建设的目的就是为了营销,而不是为了分析。

企业的标签库跟广告产业的DMP是类似的,企业内部对自己的用户进行精准投放依赖的是标签库,广告产业DSP依赖的则是DMP。

二、标签体系

标签库的核心当然是标签体系,但每个企业打造的标签体系其实都不太一样,既有共性,也有个性。

共性主要体现在用户的一些基础属性,比如年龄、性别、职业、住址等等,个性是由于每个企业的产品特点、基础数据、目标受众都不太一样,比如运营商的标签会侧重通信消费、通信行为,而电商的标签则会侧重线上消费的各种特征。

三、标签库功能

标签体系是标签库的内涵,而标签库的功能决定了这些标签能否方便使用,酒香也怕巷子深。

标签库的核心功能包括标签创建、标签查询、客户群生成、客户群推送、标签元数据、调度管理这几项,其他的诸如标签编辑、标签停用、标签下线、标签评论、标签审批、标签推荐、安全管理等等,可以放到次优先级。很多看起来挺好的功能在运营初期一点价值都没有,你需要聚焦核心功能。

如何为数据库创建标签

标签创建一般要支持三种模式:简单模式,高级模式,导入模式

简单模式:面向业务人员,可以基于现成的模型宽表选择属性字段生成标签,如下图所示,但受限于开放的宽表的能力和业务人员的驱动力,在我们的实践中,这种简单模式并没有获得成功。

一直在研究大数据挖掘深度技术,后面讲不断给大家分享个人的心得和经验,目前因为各种数量太大,确实遇到如何把这些数据抽出来标准化、标签化。欢迎对大数据和爬虫技术感兴趣朋友一起交流。

猜你喜欢

转载自www.cnblogs.com/itdaka/p/12718118.html