ナレッジグラフとは、実世界のエンティティ(人物、場所、概念など)とそれらの関係性をネットワーク状に表現したもの。Googleが「文字列ではなく、モノを理解する」仕組みであり、最近ではAIシステムが事実に基づいて推論するための基盤として急速に重要性を増している。
君が知っている全てのことが、巨大なクモの巣みたいにつながっているところを想像してみて。真ん中に「君」がいて、そこから友達、学校、好きな食べ物、ペットへと線がのびている。それぞれのものも、また別のものとつながっているんだ。
ナレッジグラフは、コンピューターのためのそういうクモの巣なんだ。コンピューターが「パリ」がただの言葉じゃなくて、都市で、フランスにあって、エッフェル塔があって、それは1889年に建てられた…ということを理解できるようにするんだ。
「エッフェル塔の高さは?」とGoogleに聞くと、その言葉が入ったページを探すんじゃなくて、エッフェル塔という「モノ」を知っていて、その「モノ」についての事実——高さが330メートルだということ——を教えてくれるんだよ!
歴史的背景:「ナレッジグラフ」という用語は1972年に言語学者エドガー・W・シュナイダーによって造られたが、この概念が本格的に普及したのは2012年。Googleが「文字列ではなく、モノ(things, not strings)」というスローガンでナレッジグラフを発表したのがきっかけだ。
ナレッジグラフ以前の検索エンジンは、すべてをテキストとして扱っていた。「水銀」と検索すると、惑星、元素、ローマの神、フレディ・マーキュリーの結果が混在していた。ナレッジグラフは、これらが同じ名前を持つ別々のエンティティであることを理解することで、この問題を解決した。
3つの構成要素:
「オバマ 年齢」と検索すると、Googleはウェブページをスキャンするのではなく、ナレッジグラフで「バラク・オバマ」というエンティティを検索し、生年月日のプロパティ(1961年8月4日)を見つけ、年齢を計算して直接表示する。
ナレッジグラフは、従来のデータベースとは根本的に異なる。リレーショナルデータベースでは、事前に厳格なスキーマ(顧客テーブル、注文テーブル)を定義する。ナレッジグラフでは、世界を有機的に成長できる柔軟なネットワークとしてモデル化する。
主要な技術概念:
主要な公開ナレッジグラフ:
Googleで有名人、企業、ランドマークを検索すると、右側に表示されるボックスがナレッジパネル——そのエンティティに関するナレッジグラフデータの直接的な可視化である。
グラフデータベースとクエリ言語:
ナレッジグラフは通常、関係性のトラバースに最適化された専用のグラフデータベースに格納される。SQL(行ベースのクエリ用に設計)とは異なり、グラフクエリ言語はマルチホップトラバースに優れている。
ナレッジグラフ埋め込み:
機械学習アプリケーションでは、エンティティと関係をベクトルとして表現する必要がある。TransE、RotatE、ComplExなどのモデルは、関係構造を保持する埋め込みを学習し、以下を可能にする:
仮想vs実体化ナレッジグラフ:
実体化グラフはデータをグラフデータベースに直接格納する。仮想ナレッジグラフはマッピングレイヤー(オントロジーベースのデータアクセス)を通じて基盤となるリレーショナルデータベースにクエリを実行する——既存データを移行できない企業に有用。
ナレッジグラフを統合する際、同じエンティティが異なる識別子で出現することが多い。「NYC」、「New York City」、「ニューヨーク市」は同じエンティティとして認識される必要がある。この曖昧性解消は、文字列マッチング、構造的類似性、学習済み埋め込みを組み合わせた活発な研究分野である。
LLMグラウンディングのためのナレッジグラフ(GraphRAG):
2024年のGraphRAG(Microsoft Research)の登場はパラダイムシフトを象徴している。従来のRAGはテキストチャンクを取得するが、GraphRAGはソース文書からナレッジグラフを構築し、グラフ構造を使用して文脈的に関連する情報を取得する。利点:
自動ナレッジグラフ構築:
LLMはKG構築を手動キュレーションから半自動抽出へと変革した。現代のパイプラインは以下を使用:
エンタープライズナレッジグラフアーキテクチャ:
本番システムは通常、(1) 生データソース、(2) ETL/マッピングレイヤー、(3) グラフストレージ、(4) 推論エンジン、(5) API/クエリレイヤー、(6) アプリケーション層をレイヤリングする。課題にはバージョニング、来歴追跡、時間的動態(時間とともに変化する事実)の処理が含まれる。
ニューロシンボリック統合:
フロンティアはニューラルネットワーク(データからの学習)とシンボリック推論(KG上の論理的推論)の組み合わせである。これはLLMの事実精度とマルチステップ推論における弱点に対処しつつ、柔軟性と言語理解を保持する。
創薬はHetionet(遺伝子、疾患、化合物、経路をリンクする5万以上のノード)のようなKGにますます依存している。GNNベースのモデルはこれらのグラフをトラバースして新規の薬物標的相互作用を予測し、発見パイプラインを数年から数ヶ月に短縮する。
業界をリードするグラフデータベースプラットフォーム。eBay、NASA、Fortune 500企業の大半でナレッジグラフを支える。$582M調達、評価額$2B以上。
AIを使ってウェブ全体をクロール・理解し、世界最大の商用ナレッジグラフを構築。累計$50M以上調達。
データファブリックと仮想グラフ機能に特化したエンタープライズナレッジグラフプラットフォーム。シリーズC、$45M調達。
GraphDBの開発元でセマンティック技術企業。BBC、フィナンシャル・タイムズ、アストラゼネカのナレッジシステムを支える。
エンタープライズAI推論に特化したナレッジグラフ計算プラットフォーム。データベースのパイオニアが設立。シリーズC、$122M調達。
RAGアプリケーション向けに非構造化テキストからの自動ナレッジグラフ構築を開発するスタートアップ。シード段階。
ナレッジグラフ理解を用いたAIネイティブ検索エンジン。コンシューマーからAPIへピボット。シリーズA $17M調達。
プロパティグラフとRDFの両方をサポートするAWSのマネージドグラフデータベースサービス。AWSエコシステムと統合。