代码天地

文本挖掘中使用的通用规范字3500个

通用规范字3500个文本挖掘中，有些模型需要使用常用字来构建词袋模型，并基于此进一步的进行建模分析。本文列举了国务院公布的《通用规范汉字表》中一级词汇3500个。据统计，3500个常用字能够覆盖日常使用的98%的文本。因此，基于本字库进行文本向量建模基本满足模型的使用需求。 **《通用规范汉字表》**是《中华人民共和国国家通用语言文字法》的配套规范，是现代记录汉语的通用规范字集，体现着现代通用汉字在字量、字级和字形等方面的规范。2013年6月5日，国务院发出关于公布《通用规范汉字表》的通知

分类: 其他发布时间: 01-17 23:13 阅读次数: 0

one-hot编码方式的python实现

one-hot编码方式的实现什么是One-Hot编码？ One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。 One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。我们可以使用以下三种方式来实现one-hot： 1python代码编写 // An highlighted block from

分类: 其他发布时间: 01-17 23:12 阅读次数: 0

基于机器学习的网页抽取

基于机器学习的网页抽取最近在做一个网站信息爬取并分析的项目，要将几百个网站的数据标题，正文，发布机构，发布时间等信息提取出来。经过搜索资料，找到了下面这篇博客，引用下来分享。作者的项目，给了36个安全网站相关的博客网站，需要将其中的博客正文都抽取出来，而且需要满足以后添加一个博客网站的链接，就可以自动完成正文的抽取工作。以前写过的爬虫是正则或CSS选择器(或xpath)的网页抽取都基于属于基于包装器(wrapper)的网页抽取，但是这类抽取算法有一个通病，对于不同结构的网页，要制定不同的

分类: 其他发布时间: 01-17 23:12 阅读次数: 0

CSDN-markdown编辑器讲解

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右 SmartyPants 创建一个自定义列表如何创建一个注脚注释也是必不可少的 KaTeX数学公式新的甘特图功能，丰富你的文章 UML 图表 FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markd

分类: 其他发布时间: 01-17 23:12 阅读次数: 0

TensorFlow 实现堆叠自编码器ASE

TensorFlow 实现堆叠自编码器ASE 自编码器（Auto Encoder）神经网络常常用于分类，通过定义一个目标函数衡量输出与目标值之间的差异，然后通过调整系统的参数使系统尽量拟合训练数据．而对每一层神经网络来说，前一层的输出都是可看做未加工的初始数据，而这一层则是对初始数据进行加工组织的更高阶的特征．设由无类别标签的训练样本集合｛x(1)　x(2)　x(3)　…｝,x(i)∈Rn 自编码神经网络是一种无监督学习算法，使用反向传播算法，并让目标值等于输出值．自编码神经网络结构

分类: 其他发布时间: 01-17 23:12 阅读次数: 0

keras上实现AutoEncoder自编码器

keras上实现AutoEncoder自编码器一、自编码器简介无监督特征学习（Unsupervised Feature Learning）是一种仿人脑的对特征逐层抽象提取的过程，学习过程中有两点：一是无监督学习，即对训练数据不需要进行标签化标注，这种学习是对数据内容的组织形式的学习，提取的是频繁出现的特征；二是逐层抽象，特征是需要不断抽象的。自编码器（AutoEncoder），即可以使用自身的高阶特征自我编码，自编码器其实也是一种神经网络，其输入和输出是一致的，借助了稀疏编码的思想，目标

分类: 其他发布时间: 01-17 23:11 阅读次数: 0

python对文件的读写

python对文件的读写(持续更新中) 1、读写txt文件读取文件夹中所有的txt文件，并且拼接成字符串代码： all_text="" txt_data=[] for s in range(10,100): try: s=str(s) txt_name="path/%s.txt" % s f=open(txt_name,"r") all_text=all_text+f.read() f.close

分类: 其他发布时间: 01-17 23:11 阅读次数: 0

Keras构建CNN讲解及代码

Keras构建CNN 摘要：keras能够极其简单的构造出CNN网络使用TensorFlow创建卷积神经网络（CNN）来对MNIST手写数字数据集进行分类的方法很经典。TensorFlow是一款精湛的工具，具有强大的功能和灵活性。然而，对于快速原型制作工作，可能显得有些麻烦。Keras是一个运行在TensorFlow或者Theano的更高级别的库，旨在流线化构建深度学习网络的过程。事实上，在TensorFlow教程中，TensorFlow大约需要42行完成的内容，在Keras中只需11行就

分类: 其他发布时间: 01-17 23:11 阅读次数: 0

基于词向量和卷积神经网络的文本相似度计算

基于CNN和词向量的文本相似度分析 1. 前言众所周知，现在的时代就是海量数据暴增的时代，每天的各种聊天工具和数以亿计的网页产生了海量的人工无法高效处理的各种文字信息。由此而生，我们自然想到通过分类来减少信息检索，分类的依据就是文本之间的相似度，同时人们希望电脑能帮助人们来实现这一难题，从而各种基于语句格式和语义统计的语言表示方法诞生了。在这样一个大环境下，人们接触文本数据也越来越多，而在中文的语义环境下，每一个语义，可能对应着许多不同的文本。而不管是搜索引擎或是社区问答系统都需要我们在给

分类: 其他发布时间: 01-17 23:10 阅读次数: 0

寻找根治重症肌无力的金钥匙

重症肌无力是自身免疫性疾病在发病的时候身体会出现，声音嘶哑，眼睛下垂，吞咽困难，咀嚼无力。也有一些患者会出现，呼吸困难，表情无表情等症状。如得不到有效治疗，将导致呼吸衰竭。不但给患者的身体，心里造成一定的伤害，如果没能够及时的进行治疗，还会引起一些其他病症的发生，最终影响生命健康。但是，有这样一个主任，坚持研究重症肌无力二十多年，把一些身体“没劲儿”的病人变成“有劲儿”的健康人，他就是我院主任，北