keras+lstm+crf命名实体识别

前阵子用crf++工具做了命名实体识别,这次用keras中的keras_contrib来试下,结合lstm。

keras_contrib使用过程的一些问题详见https://blog.csdn.net/m0_49621298/article/details/115535976

一、操作系统

window10

二、版本

Python 3.6.5、TensorFlow 2.1.0、Keras 2.3.1

三、原始数据处理过程

同之前的处理,详见https://blog.csdn.net/m0_49621298/article/details/109896619

本次开始的文件内容如下 train.txt,三列分别是分词、词性、标签,分词和词性做输入用

初步统计    l  o
,  w  o
全市 n  o
国内生产总值 nz w
达  v  o
1020   m  o
亿元 q  o
,  w  o
按  p  o
可比价格   n  o
计算 v  o
,  w  o
比  p  o
上年 t  o
增长 v  o
12.2   m  o
%  nx o
   w  o
第一 mq b
产业 n  m

四、特征、标签处理

vocab1=list(set([j[0] for i in data for j in i]))
word_idx1 = dict((w, i+2) for i, w in enumerate(vocab1))#分词的词典
x1 = [[word_idx1.get(w[0], 1) for w in s] for s in data] # 转化为整数,字典中没有的词设置为1   dict.get(key, default=None)
x1 = pad_sequences(x1, maxlen)#特征1
vocab2=list(set([j[1] for i in data for j in i]))
word_idx2 = dict((w, i+2) for i, w in enumerate(vocab2))#词性的词典
x2 = [[word_idx2.get(w[1], 1) for w in s] for s in data]
x2 = pad_sequences(x2, maxlen)#特征2
x1=np.array(x1)
x2=np.array(x2)
y_vocab=list(set([j[2] for i in data for j in i]))
y2idx = dict((w, i+2) for i, w in enumerate(y_vocab))#标签的词典
y = [[y2idx.get(w[2], 1) for w in s] for s in data]
y = pad_sequences(y, maxlen)
y = np.expand_dims(y, 2)

五、搭建模型

特征1(分词)和特征2(词性)分别Embedding,再融合为首层;中间层是双向lstm;输出层是crf

word_embedding_layer = Embedding(len(vocab1)+2,32,input_length=maxlen)(word_input)
pos_embedding_layer = Embedding(len(vocab2)+2,10,input_length=maxlen)(pos_input)
emb= concatenate([word_embedding_layer, pos_embedding_layer], axis=-1)#融合层
lstm = Bidirectional(LSTM(64, return_sequences=True))(emb)
crf = CRF(len(y_vocab)+2, sparse_target=True)
out = crf(lstm)
model = Model([word_input, pos_input], out)

六、编译、训练、保存、预测

model.compile(optimizer="rmsprop", loss=crf.loss_function, metrics=[crf.accuracy])
model.fit([x1,x2], y,batch_size=16,epochs=5,verbose=2)
model.save('./model/mymodel')
print(y[:10])
print(np.argmax(model.predict([x1[:10],x2[:10]]), axis=-1))

 loss: 0.0624 - crf_viterbi_accuracy: 0.9763 - val_loss: 0.0706 - val_crf_viterbi_accuracy: 0.9718

准确率97%,f1、召回值啥的还没计算~

全代码详见https://blog.csdn.net/m0_49621298/article/details/115585857

猜你喜欢

转载自blog.csdn.net/m0_49621298/article/details/115585346