Embedding Multimodal Relational Data for Knowledge Base Completion理解

Pouya Pezeshkpour et al. , Proceddings of the 2018 Conference on Empirical Methods in Natural Language Processing

现有知识库(Knowledge Bases)的表示方法未考虑到多种常用数据类型(见图1),如文本、图像和数字等,本文基于encoder提出了多模知识库embeddings方法MKBE(multimodal knowledge base embeddings),并进一步基于decoder提出了新型多模填补(imputation)模型生成缺失的多模数据。最后基于改进的YAGO-10和MovieLens-100k数据集验证了模型。
在这里插入图片描述
图1: 知识库数据类型示例。 黑色箭头为基本类型,紫色箭头为特殊类型。

本文使用的模型架构如下图2所示。模型主要分为encoder和decoder两块。

Encoder:

  • 结构化数据(structured knowledge): a one-hot coding through a dense layer with selu activation.
  • 数值(Numerical): a feed forward layer after standardzing the input.
  • 文本(Text): bidirectional GRUs for fairly short attributes and CNN over the word embedding for strings that are much longer.
  • 图像(Images): the last hidden layer of VGG pretrained network on Imagenet, followed by compact bilinear pooling.

Decoder:

  • 数值和类别数据(Numerical and Categorical data): a simple feed-forward network.
  • 文本(Text): adversarially regularized autoencoder (ARAE).
  • 图像(Images): conditional GAN structure.

在这里插入图片描述
图2: MKBE架构图。

个人总结:这是一篇工作量很大的论文,需要实现多种网络。
未来的工作方向:添加更多的数据类型和decoder直接用知识图谱实现。

猜你喜欢

转载自blog.csdn.net/dreamweaverccc/article/details/88365241
今日推荐