지식 정보 개념 및 지식 정보 구성 프로세스 (KGC) 개요

지식 정보 정보

지식 그래프의 개념

먼저 지식의 개념을 명확히합시다. 지식은 인간에게 매우 추상적입니다. 인간의 두뇌에있는 유용한 정보는 지식으로 간주 될 수 있습니다. 예를 들어 중국의 수도는 지식인 베이징입니다.

인간이 글쓰기를 발명하기 전에 지식은 언어를 통해 대대로 이어졌습니다. 인간이 글쓰기를 발명했을 때 벽화, 도기, 책은 모두 지식을 전달하고 전파하는 매개체였습니다. 지금까지 지식은 하드 디스크에 저장되고 데이터베이스에 저장 될 수 있습니다.

그러나 이러한 방법은 다소 문제가 있습니다. 하나는 인간에게 직관적이지 않고 지식의 구조와 의미를 한 눈에 보여주지 못하여 인간이 지식을 빨리 이해할 수 있도록 도와 줄 수 없다는 것입니다. 둘째, 이러한 지식을 저장하는 것이 편리하지 않다는 것입니다. 비정형 데이터의 효과적인 사용, 비효율적 인 사용. 기존 지식 저장 방법은이 두 가지 점을 동시에 완벽하게 달성하기가 어렵습니다.

따라서 지식 그래프가 생겨 났고, 연구 학자들은 철학에서 온톨로지의 개념을 인공 지능 분야에 도입하고 지식을 표현하기 위해 온톨로지를 사용했으며 번역을위한 중개 언어로 의미 네트워크를 사용했습니다. 동시에 시맨틱 네트워크의 경계를 제한하십시오. 객관적 이벤트의 문자열 설명에서 구조화 된 의미 설명으로의 매핑을 설정합니다.

동시에 RDF (Resource Description Framework)를 사용하여 지식 그래프의 기본 구조를 지정하고 기본 트리플을 사용하여 지식을 나타냅니다 (예 : <Beijing, is the capital, China>, (head entity, relationship, tail)). 엔터티)이 트리플 제가 위의 예를 들었던 지식을 구조화했고, 트리플렛도 이미지의 네트워크로 잘 그려져있어서 한눈에 베이징이 중국의 수도라는 것을 분명히 알 수 있습니다.

(즉, 지식 그래프의 기본 지식 단위는 구조화 된 데이터 형식 인 트리플렛입니다. 동시에 트리플렛은 그래프 또는 네트워크에서 노드와 방향성 에지를 나타낼 수 있으므로 다음과 같이 할 수 있습니다. 다음과 같이 쉽게 그릴 수 있습니다. 그림과 같이 네트워크 이미지를 직관적으로 표시 할 수 있습니다.)

일반적으로 지식 맵은 추상적 인 지식을 구조화되고 시각화 된 방식으로 우리 마음 속에 저장하고 표시하는데, 풍부한 구조적 정보, 의미 론적 정보, 속성 정보가있는 데이터베이스로 이해하는 것을 선호합니다. 그 자체로는 아무것도 할 수 없으며 데이터 저장, 구조화 및 시각화를위한 도구 일 뿐이며 궁극적으로 수행 할 수있는 작업은 우리가이를 이해하고 사용하는 방법에 달려 있습니다. (개인적 겸손한 의견, 비공식적 이해)
여기에 사진 설명 삽입

지식 정보 및 이기종 네트워크

일부 독자는 이기종 네트워크와 지식 그래프의 차이를 구별하지 못할 수 있습니다. 나는 또한 한동안 어려움을 겪었다가 선생님과 대화를 나눈 후 Ishikawa의 이기종 정보 네트워크 분석 및 응용 프로그램 개요에 대한 기사를 읽고 둘의 차이점을 파악했습니다.

일반적으로 지식 그래프와 이기종 네트워크는 하나의 것으로 볼 수 있습니다 .Ishikawa의 기사에서 Ishikawa는 지식 그래프를 풍부한 패턴을 가진 이기종 네트워크, 즉 네트워크 패턴이 너무 복잡하고 너무 풍부하다는 것을 정의합니다.
복잡한 네트워크의 관점에서 볼 때 지식 그래프와 이기종 네트워크는 다릅니다.

  • 복잡한 네트워크의 이기종 네트워크는 구조 정보에 더 많은 관심을 기울입니다.
  • 지식 그래프는 의미 지식에 더 많은 관심을 기울입니다.

토폴로지 구조에서 지식 그래프는 이기종 네트워크로 간주 될 수 있습니다.
본질적으로 지식 그래프는 이기종 네트워크 범주에 속합니다.
따라서 지식 그래프를 이해할 때 네트워크 개념을 사용하여 이해할 수 있습니다.
그러나 일부 용어와 정의는 다릅니다. 예를 들어 온톨로지와 네트워크 모델 (여기서는 개인적 겸손한 의견, 비공식적)은 같지만 이름은 다릅니다.

지식 정보 및 지식 기반

많은 지식 그래프 기사에서 지식 그래프는 온톨로지의 제약 아래 예제로 구성된 정리 된 지식 기반으로 간주됩니다. 그런 다음 지식 그래프 = 온톨로지 + 지식 기반으로 간주 할 수 있습니다.

지식 그래프 구축 연구 배경

Metaweb에서 개발 한 freebase, Wikimedia Foundation에서 개발 한 wikidata, Microsoft에서 개발 한 개념 그래프, Google에서 개발 한 지식 그래프, Princeton University의 wordnet, 연구소의 Max Planck Yago 등 국내외에서 여전히 많은 오픈 소스 지식 그래프가 있습니다. , 국내 지식 그래프 프로젝트에는 openKG 및 Baidu의 지식 그래프 프로젝트가 포함됩니다.
그중 freebase는 상식적인 지식 그래프이고 wordnet은 단어 지식 그래프입니다. 이 두 가지는 일반적인 이기종 네트워크 분석에 자주 사용됩니다. 물론 여기에있는 각 지식 그래프는 매우 큽니다. 저는 일반적으로 위의 두 지식 그래프의 하위 집합 인 FB-15K 또는 WN-18을 사용합니다., 규모는 매우 큽니다. 더 작고 다루기 쉽습니다.

지식 그래프 연구 초기에는 지식 그래프의 구성이 주로 도메인 전문가에 의존하고 있었는데 당시에는 지식 그래프 단계가 전문가를 중심으로 이루어졌고 지식의 출처는 도메인 전문가로부터 나왔다. 그러나 그 단점은 명백하고 효율성이 낮고 비용이 높으며 지식의 양이 제한적이었습니다.
오늘날 지식 그래프의 구성은 기계 학습 방법에 의한 지식 자동 획득의 자동화 단계로 이동했습니다. 엔터티의 유형은 방대한 양의 데이터에서 엔터티와 엔터티 간의 관계 (지식)를 얻기 위해 전문가에 의해 정의 될 수 있습니다. 폭발적으로 증가하는 데이터와 지식에 적응할 수 있습니다.

지식 그래프의 데이터 소스는 이제 대부분 관계형 데이터베이스, Wikipedia 및 시맨틱 웹 표준을 기반으로하는 웹 페이지에서 가져옵니다.

지식 그래프 구성

지식 그래프 구축 과정

지식 그래프의 구성은 카테고리 방향에 따라 주로 다릅니다.

일반 지식 그래프는 일반적으로 상향식 구성 방식을 채택 합니다 . 즉, 특정 기술적 수단을 사용하여 대상 엔티티 또는 관계가 될 수있는 콘텐츠를 획득하고 전문가 검토를 통해 신뢰도가 표준에 맞는지 확인한 다음 추가합니다. 지식 그래프에.
도메인 지식 그래프 의 구성은 일반적으로 먼저 범위와 목표, 즉 미리 정의 된 엔터티 범주 속성 및 관계의 범주 집합을 지정하고 정의 된 범주에 따라 데이터를 추출하여 여기에 포함 된 데이터를 추가합니다. 지식 기반.

지식 정보 온톨로지 구성

온톨로지의 개념을 너무 많이 논의하는 대신 온톨로지를 구축하는 목적은 지식 그래프의 골격을 구축하는 것이며, 지식 그래프 구축의 기초가되며 지식 그래프 구축을 안내 할 수있다.
제 생각에는 지식 그래프의 온톨로지와 이기종 네트워크의 네트워크 모델은 하나이며, 둘 다 지식 그래프와 이기종 네트워크의 형성을 안내하는 규칙 또는 지침입니다.
여기에 사진 설명 삽입
예를 들어, 위 그림의 상단은 온톨로지이고, 다음은 온톨로지 아래의 구체적인 예입니다.

지식 그래프 구성의 핵심 단계

위에서 우리는 또한 RDF 프로토콜 프레임 워크를 기반으로하는 지식 그래프의 일반적인 개념을 소개했으며 데이터 단위는 <head entity, relationship, tail entity>의 트리플입니다. 예를 들어 다음 그림은 스크린 샷 I입니다. WN-18 데이터 세트에서 가져 왔습니다.
여기에 사진 설명 삽입
우리는 이러한 트리플을 구성하는 것으로 간주 될 수있는 지식 그래프를 구성하고자합니다. 즉, 트리플의 엔터티와 관계입니다.
(우리는 지식 그래프가 본질적으로 이기종 네트워크라고 위에서 언급 했으므로 엔티티를 네트워크의 노드로 생각하고 관계를 에지로 생각할 수 있습니다)

따라서 우리는 엔티티와 관계가 지식 그래프에서 가장 기본적인 요소라고 결정했습니다.
그런 다음 우리의 주요 목표는 방대한 양의 데이터에서 항목과 관계를 추출하는 것입니다.
이 두 가지 목표에는 명명 된 엔티티 인식 및 관계 추출이라는 해당 기술 또는 단계가 있습니다. 지식 그래프 구성 프로세스에서 명명 된 엔터티 인식은 엔터티와 엔터티 속성을 추출하는 것이고 관계 추출은 엔터티 간의 사전 정의 된 관계를 얻는 것입니다.

명명 된 개체 인식 의 목적은 단순히 개체를 식별하는 것입니다. 특히 텍스트에서 이러한 대상 개체의 특정 위치를 식별하고 대상 명명 된 개체 개체의 미리 정의 된 정의 및 범주를 결정하는 것입니다.
명명 된 엔티티 인식은 nlp에 편향된 개념입니다. 일반적으로 개체 명 인식 연구 주제는 개 체형, 시간 형, 숫자 형으로 나뉘며 과거에도 세분화 할 수있다. 주요 방법 :

  • 규칙 및 사전을 기반으로하는 엔티티 인식 방법이 있습니다. 규칙을 수동으로 정의하고 언어 기능에 따라 지정합니다. 불만 기능에는 문장 구문 정보, 단어 클래스, 대문자, 접두사 및 접미사 등이 포함됩니다. 또한 구축 된 관련 사전 사용도 고려할 것입니다.
  • 엔터티 인식 방법은 기계 학습을 기반으로합니다.
  • 딥 러닝에 기반한 개체 인식 방법.

관계 추출의 목적은 단순히 관계를 추출 하는 것인데, 구체적으로 주어진 자연어 텍스트와 텍스트에 나타나는 엔티티를 기반으로 문장의 의미 정보를 사용하여 두 엔티티 사이에 관계가 있는지 유추하고 분류합니다. 관계.
예를 들어 문장이 주어지면 천안문은 베이징에 있고 엔티티 천안문과 베이징은 위치하며 의미론에 따라 위치 관계를 얻습니다.
주요 방법 :

  • 규칙 템플릿 기반 관계 추출 방법
  • 통계적 학습에 기반한 관계 추출 방법
  • 딥 러닝 기반 관계 추출 방법

엔티티 명확성

엔터티 명확성 : 명명 된 엔터티의 모호성은 엔터티 참조 항목이 가리키는 실제 엔터티를 결정하기 위해 엔터티 참조 항목이 여러 실제 엔터티에 해당 할 수 있다는 사실을 나타냅니다.
시나리오 : 여러 데이터 소스에서 추출 된 관계의 융합에서 일부 모호한 엔터티가 발생하고 모호한 엔터티 개념 및 인스턴스를 명확하게해야합니다.
여기에 사진 설명 삽입
그림에서 볼 수 있듯이 같은 요르단 (이름)은 다른 데이터 소스의 다른 사람입니다. 왼쪽은 인공 지능 전문가의 종이 협력지도, 오른쪽은 음향 연구 전문가의 종이 협력지도입니다. 여러 데이터 소스에서 지식을 추출 할 때 이름이 같고 둘의 정보를 병합하기 때문에 두 Jordan이 동일하다고 생각할 수 없습니다.

지식 그래프의 구성에는 명확하게해야하는 동일한 이름을 가진 엔터티의 인스턴스가 있습니다. 기존의 명확화 방법은 다량의 도메인 전문 지식과 높은 인건비를 필요로하는 텍스트 또는 소규모 지식 기반의 엔티티 명확화에만 적합하며, 대규모 지식 그래프를위한 자동 엔티티 명확화 방법을 설계해야합니다.
기존 솔루션 : 엔티티를 의미 엔티티 임베딩 벡터로 변환하고 그래프 기반 방법을 사용하여 엔티티 임베딩 벡터의 유사성을 기반으로 문서의 엔티티를 지식 기반 엔티티에 연결합니다.

지식 그래프 관계 완료

우리의 데이터는 완전히 완전 할 수 없기 때문에 항상 누락 된 정보, 즉 누락 된 지식이있을 것입니다.
이때 기존 지식을 바탕으로 엔티티 간의 잠재적 인 관계를 파헤칠 필요가 있습니다.
지식 완성은 링크 예측이라고도합니다.
여기에 사진 설명 삽입
그림과 같이 기존 지식을 바탕으로 샬럿이 작가라고 추론 할 수 있습니다.

기존의 지식 완성 방법, 텐서 분해 방법, 시맨틱 임베딩 방법은 경로를 기반으로합니다.
제가 연락 한 매우 고전적인 방법 중 하나는 Trans 제품군입니다. 가장 기본적인 TransE에 연락했는데 제 블로그에도 기록되어 있습니다. 관심이 있으시면 읽을 수 있습니다. TransE 입구

지식 정보 관계 추론

지식 추론은 관계 추론을 통해 엔티티 간의 새로운 지식 을 얻는 것 입니다.
지식 그래프에 새로운 사실 을 추가하기 위해 엔티티 간의 알려진 관계를 기반으로 엔티티 간의 잠재적 관계를 추론합니다 .

여기에 사진 설명 삽입
그림과 같이 톰과 마이크가 같은 회사와 같은 멘토를 기준으로 점선으로 동급생이라고 판단 할 수 있습니다.

이것은 통계적 관계 학습의 하위 분야에 속하며, 그 방법에는 Markov 논리 네트워크를 기반으로 한 추론과 귀납적 논리를 기반으로 한 추론이 포함됩니다.

일반적으로 지식 그래프의 관계 완성과 지식 그래프의 관계 추론은 지식 완성 또는 지식 추론의 범주로 볼 수 있습니다.

지식 갈등 해결

시간이 지남에 따라 지식 그래프는 계속 발전하고 이전 지식 그래프의 특정 사실은 잘못되었습니다. 또는 지식은 시간에 민감하기 때문에 지식은 시간이 지남에 따라 변하고 때로는 오류 또는 충돌이 발생하므로 지식 충돌 문제를 해결해야합니다.
이것에 대해 잘 모르기 때문에 자세히 설명 할 필요가 없습니다.

지식 그래프 구성의 전체 과정

여기에 사진 설명 삽입

참조

Ma Jiangtao. 소셜 네트워크 기반 지식 그래프 구축 기술 연구 [D]. 전략적 지원군 정보 공학 대학, 2018.
다수. 소셜 네트워크에서 감성 지식 그래프 구축의 핵심 기술 연구 [D]. Shanghai Normal University , 2020.
Wang Rui. 인터넷 여론 이벤트 지식 그래프 구축 기술 및 응용 연구 [D]. Huaqiao University , 2020.
Ji S, Pan S, Cambria E, 외. 지식 그래프에 대한 조사 : 표현, 획득 및 응용 [ J]. arXiv 사전 인쇄 arXiv : 2002.00388, 2020.

추천

출처blog.csdn.net/qq_34687559/article/details/111687126