短文本相似度 笔记

0.99656   99%相似

0.91050   91%,编码化完成无效!

0.94050   91%,中间插入关键词,无效!

0.90531   90%,警戒线!!(同义词替换,+相同长度,)   

0.86941   86%,安全线,稍微不同,(重要词差不多,句子有不一样)

0.63821   63%,原创,几乎可以算原创

0.38711   38%,绝对安全!!!

百度,短文本相似度,测量的大概数据。

可以看到词语向量在检测原创里发挥了多大的重量!算法还有词义,词法分析,还有些特征码检测。

如果光是句子检测,100%无法逃脱检测!但如果是文章,就还有些不一样的空间,因为需要采集信息指纹,检测的前提是要找到2个对应的样本句子。

#开发文档:
https://www.cnblogs.com/simuhunluo/p/7519712.html

#应用入口:(超级难找)
https://console.bce.baidu.com/ai/?locale=zh-cn&fromai=1#/ai/ocr/app/detail~appId=381238
https://console.bce.baidu.com/ai/?locale=zh-cn&fromai=1#/ai/ocr/overview/index


AppID:11333867
API Key:mz34N7Uxhl13CX0oDc3Pbzf6
Secret Key:yr8ssh7QFmqL0nq9XGqlYWTa0GRXKsci 



#Token是通过这个页面申请的:(还需要php调用代码)
#获取token文档:http://ai.baidu.com/docs#/Auth/top

https://aip.baidubce.com/oauth/2.0/token?

grant_type=client_credentials&client_id=mz34N7Uxhl13CX0oDc3Pbzf6&client_secret=yr8ssh7QFmqL0nq9XGqlYWTa0GRXKsci&


24.f2e540fc13e88a5b772fb48c3a82faf8.2592000.1530417406.282335-11333867


#最开始指南文档:(总的流程步骤,先要3个秘钥,再生成token,再开始具体的)
http://ai.baidu.com/docs#/Begin/top



#调用接口文档:
https://ai.baidu.com/docs#/NLP-API/c150c35a



#token页面:
https://console.bce.baidu.com/iam/?_=1527821881616/&locale=zh-cn#/iam/accesslist


#监控调用是否成功:
https://console.bce.baidu.com/ai/?_=1527820978800&fromai=1#/ai/nlp/report/index~apiId=9

猜你喜欢

转载自my.oschina.net/afengzxf/blog/1822673