"자연 언어 이해 - 깊은 학습에 규칙에서"독서 노트

원본 링크 : https://yq.aliyun.com/articles/158691
저자 : 리튬 Yongbin
게시 : 2017년 8월 4일 10시 53분 48초

NUI 플랫폼 상세한 설명 및 분류 의도 특성 추출 시스템 개의 코어 알고리즘 이해 특정 자연 언어 조합이 논문에서는.

어려움 자연 언어 이해

  • 언어 다양성
    • 나는 나에게 전화 순찰에 왕을 듣고 싶어
    • 나 모돈 왕을 부여 순찰에 나에게 전화
    • 나는 음악 왕을 듣고 싶습니다 순찰에 나에게 전화
    • 왕은 최초의 공원 레인저를 넣어 나에게 말했다
    • 킹 공원 레인저 노래를 나에게 말했다
    • 음악을 재생 왕 순찰에 나에게 전화
    • 킹 노래 등산객을 넣어달라고 부탁
    • 삼촌은 첫 번째 왕이 순찰에 나에게 전화를 할 수
  • 언어 모호성
    • 나는 라사에 갈거야
      • 기차 티켓?
      • 항공 티켓?
      • 음악?
      • 찾거나 관광 명소?
  • 강력한 언어
    • 오타 : 왕이 조호 바루에 나에게 물었다
    • 많은 단어 : 왕이 순찰에 나에게 전화
    • 몇몇 단어 : 왕이 레인저를 주차 나에게 말했다
    • 닉네임 : 곰 곰이 (곰의 손가락)
    • 모순 : 나는 천 골을 보내고 은혜를보고 싶어
    • 소음 : 킹 가족 약간 등산을 가기로 나에게 말했다
  • 의 지식 언어 별
    • 큰 배 : 그 과일뿐만 아니라, 그것은 또한 레스토랑의 이름을 표시 할 수 있습니다
    • 세븐 일 : 그 시간에 더하여, 또한 호텔 이름을 표시 할 수 있습니다
    • 일반 직원 : 일반 직원은 그 외에, 그것은 또한 레스토랑의 이름을 표시 할 수 있습니다
    • 일기 예보 : 또는 노래
    • 굿나잇 :이 노래는
  • 언어의 문맥
    • 회화 컨텍스트
    • 장치 컨텍스트
    • 응용 프로그램 컨텍스트
    • 사용자 초상화
    • ...

구현 의도 분류
- 기반 규칙 (규칙 기반)
- CFG
- JSGF
- ......
- 기존의 기계 학습 방법
- SVM
- ME
- ......
- 깊이 학습
- CNN
- RNN / LSTM
- ...

규칙 기반 (예의 CFG의 방식에 따라) 접근 방식

참고 : 워드 및 Issar, CMU 피닉스 시스템, 1996


베이징에서 항저우 행

基于传统统计的方法(基于SVM的方法)

基于深度学习的方法,两种典型网络结构:

  • CNN(卷积神经网络)
  • RNN(循环神经网络)

几种衍生变型:

  • CNN (Yoon Kim, Neural Networks for Sentence Classification, EMNLP, 2014)
  • LSTM (Suman Ravuri and Andreas Stolcke, Recurrent Neural Network and LSTM Models for Lexical Utterance Classification, InterSpecch, 2015)
  • RCNN (Siwei Lai, Liheng Xu, Kang Liu, Jun Zhao, Recurrent Convolutional Neural Networks for Text Classification, AAAI, 2015)
  • C-LSTM (Chunting Zhou, Chonglin Sun, Zhiyuan Liu, Francis C.M. Lau, A C-LSTM Neural Network for Text Classification, arXiv, 2015)

单纯的CNN分类效果无法超越复杂特征工程的SVM分类器,尤其是在像音乐、视频等大量依赖世界知识的领域中。

深度学习在取得巨大成功后,慢慢开始显露出瓶颈,比如如何表示知识、存储知识,如何推理等。其中一个探索方向就是试图把联结主义和符号主义进行融合。纯粹的基于联结主义的神经网络的输入是distributed representation,把基于符号主义的symbolic representation融合到网络中,可以大大提高效果。

属性抽取的实现方法

  • 基于规则(rule-based)
    • Lexicon-based
    • CFG
    • JSGF
    • ……
  • 传统机器学习方法
    • HMM
    • CRF
    • ……
  • 深度学习方法
    • RNN/LSTM
    • ……

基于规则的方法

  • JSGF(JSpeech Grammar Format)

JSGF is a BNF-style, platform-independent, and vendor-independent textual representation of grammars for use in speech recognition.

示例

展开图

“帮我打开空调”匹配路径

基于传统统计的方法(基于CRF的方法)

基于深度学习的方法(Grégoire Mesnil, et. al, Using Recurrent Neural Networks for Slot Filling in Spoken Language Understanding, TASLP, 2015)

  • RNN
  • LSTM
  • Bi-LSTM
  • Bi-LSTM-Viterbi
  • Bi-LSTM-CRF

还有一些联合模型:

  • Xiaodong Zhang, HoufengWang, A Joint Model of Intent Determination and Slot Filling for Spoken Language Understanding, IJCAI, 2016
  • Bing Liu, Ian Lane, Joint Online Spoken Language Understanding and Language Modeling with Recurrent Neural Networks, arxiv, 2016

在实际的系统中,基于规则的方法和基于深度学习的方法并存。基于规则的方法主要用来快速解决问题,比如一些需要快速干预的BUG;基于深度学习的方法是系统的核心。

추천

출처www.cnblogs.com/CheeseZH/p/12022963.html