学術的AIコンペに挑戦しよう!

「Wikipedia + 拡張固有表現」構造化プロジェクト

Wikipediaのページ間の関係を推定する技術が AI の説明可能性への道を切り拓く

NEWS

LLMと知識グラフの活用のためのワークショップの詳細録画を公開しました。(2023/08/04)

キックオフMTGの詳細、発表資料、録画を公開しました。(2023/06/02)

森羅APIのドキュメントを公開しました。(2023/05/18)

NLP2023における大規模言語モデルと知識グラフに関するサーベイを公開しました。[資料]  (2023/05/17)

3 つのタスクにそれぞれ挑戦可能

Task 1 分類

Wikipediaの各ページを拡張固有表現定義の末端カテゴリに分類しよう!

例)Wikipediaのページ「島崎藤村」を「人名」に分類

SOTA(森羅2022)

Micro-F1 96.13

(Yusuke Kimura様)

データセット、データ形式、評価方法等をご確認ください。

Task 2 属性値抽出

分類されたページから、拡張固有表現定義で定義された属性の値を抽出しよう!

例)Wikipediaのページ「島崎藤村」から、拡張固有表現定義の末端カテゴリ「人名」の属性「作品」の属性値として「嵐」を抽出

SOTA(森羅2022)

Macro-F1 55.15

(JRIRD様)

データセット、データ形式、評価方法等をご確認ください。

Task 3 リンキング

抽出した属性値を、その値を表すWikipediaのページにリンクしよう!

例)属性値「嵐」をWikipediaページの「嵐(小説)」に紐づけ

SOTA(森羅2022)

Micro-F1 83.55

(aiprb)

データセット、データ形式、評価方法等をご確認ください。

リーダーボード

スケジュール

結果の提出方法は森羅コミュニティ (Slack) で案内しますので
ご登録お願いします!

※登録しても結果の提出義務は生じません

森羅プロジェクト紹介

森羅プロジェクトは、 Wikipediaに書かれている世界知識を計算機が扱えるような形に変換することを目的として、Wikipediaを構造化するプロジェクトです。私達は、名前のオントロジーである「拡張固有表現」にWikipediaのページを分類し、拡張固有表現に定義されている属性情報をWikipediaページにアノテーションし、対象Wikipediaページにリンクすることで、計算機利用可能な知識の構造化を目指しています。Wikipediaの過去のページにこれまで人手でアノテーションしたデータセットを元に、最新のWikipedia全ページのデータセットを自動で構築するシステムを開発する評価型タスクを実施しています。

森羅コミュニティ (Slack) はタスク参加の有無に関わらず、どなたでもご参加いただけます。
データセット、 タスク等に関するアナウンスや議論を行い、ご質問も受け付けております。

プロジェクトにご興味のある方は、ぜひご参加ください。