概要
- 目的
- 属性値と意味的に合致するWikipediaページを見つけて紐づける。
- 意味的に合致するとは、以下の完全一致と準一致が対象
- 完全一致:
- 準一致:
- 後の名称:旭硝子 ⇔ AGC
- 含まれている:東京女子大学現代教養学部 ⇔ 東京女子大学
- 形態違い(形態とは、文字、映像、舞台等):真夏の夜の夢(舞台) ⇔ 夏の夜の夢(小説)
- 入力(および知識源)
- page_idと属性の組ごとに網羅した属性値のテキストおよび位置情報
- Wikipedia(2021年度)のダンプデータ
- page_idと本文が記述されている。
- HTML版とPlainText版の2種類を用意している(好きな方を使用してよい)。
- 出力
- 属性値と意味的に合致するWikipedia(2021年度)のpage_id
- page_idはWikipedia(2021年度)のダンプデータに記述されているものを使用
- 対象となる属性の一覧はこちら
- 対象ページが存在しない場合は、nullを明示的に指定する。
- 例
- カテゴリ番号「1.7.18.3」(飛行機名)と属性「種類」が付与された「フォッカーF.XXXVI」のページ(page_id: 2725947)にある属性値「旅客機」 → 80372(リンク対象である「旅客機」ページのpage_id)
- カテゴリ番号「1.7.18.3」(飛行機名)と属性「バリエーション」が付与された「ユーロコプター EC 155」のページ(page_id: 2240470)にある属性値「EC 155B1」 → null(対象ページが存在しない)
- 評価ポイント
- 対象ページが存在しないことを正しく指定した場合も正解にカウントする。
データセット
- 拡張固有表現ver9.0定義書
- 教師データ
- 以下のコンテンツが含まれています。
- ene_annotation(page_idと属性の組ごとに網羅した属性値のテキストおよび位置情報。入力に相当。JSONL形式)
- link_annotation(属性値と紐づくWikipedia(2019年度)のpage_id。出力に相当。JSONL形式)
- html(Wikipedia2019のHTML版。ただし、annotation対応部分のみ)
- plain(Wikipedia2019のPlainText版。ただし、annotation対応部分のみ)
- 統計情報
- カテゴリー数:178
- ページ数:1,397
- 属性種類数:958
- リンク元数:59,429
- リンク先数:59,715
- テストデータ
- リーダーボード用(Wikipediaの一部に対する予測、近日公開)
- 以下のコンテンツが含まれています。
- ene_annotation(page_idと属性の組ごとに網羅した属性値のテキストおよび位置情報。入力に相当。JSONL形式)
- html(Wikipedia2021のHTML版。ただし、annotation対応部分のみ)
- plain(Wikipedia2021のPlainText版。ただし、annotation対応部分のみ)
- 拡張固有表現ver9.0定義書
- 全体のWikipediaデータが欲しい方は、Wikipedia2021 (HTML)またはWikipedia2021 (PlainText)からどうぞ
データ形式について
ラベル | 説明 | 備考 |
---|
page_id | ページID | |
title | ページタイトル | |
attribute | 属性 | |
ENE | 予測カテゴリ | |
text_offset | PlainText版でのオフセット情報 | |
html_offset | HTML版でのオフセット情報 | |
start | 開始位置 | |
end | 終了位置 | |
line_id | 行番号 | |
offset | オフセット情報 | |
text | 文字列 | |
link_page_id | リンク先のページID | 推測対象 |
サンプルデータ(入力相当)
{
"page_id": "8881",
"title": "漢方医学",
"attribute": "上位の学問",
"ENE": "1.7.19.13",
"text_offset": {
"start": {
"line_id": 47,
"offset": 114
},
"end": {
"line_id": 47,
"offset": 118
},
"text": "東洋医学"
},
"html_offset": {
"start": {
"line_id": 47,
"offset": 733
},
"end": {
"line_id": 47,
"offset": 737
},
"text": "東洋医学"
}
}
サンプルデータ(出力相当)
{
"page_id": "8881",
"title": "漢方医学",
"attribute": "上位の学問",
"ENE": "1.7.19.13",
"text_offset": {
"start": {
"line_id": 47,
"offset": 114
},
"end": {
"line_id": 47,
"offset": 118
},
"text": "東洋医学"
},
"html_offset": {
"start": {
"line_id": 47,
"offset": 733
},
"end": {
"line_id": 47,
"offset": 737
},
"text": "東洋医学"
},
"link_page_id": "20025",
"link_type": {
"later_name": false,
"part_of": false,
"derivation_of": false
}
}
入力データ(属性値抽出タスクの出力結果、PlainText版)
{
"page_id": "8881",
"title": "漢方医学",
"attribute": "上位の学問",
"ENE": "1.7.19.13",
"text_offset": {
"start": {
"line_id": 47,
"offset": 114
},
"end": {
"line_id": 47,
"offset": 118
},
"text": "東洋医学"
}
}
入力データ(属性値抽出タスクの出力結果、HTML版)
{
"page_id": "8881",
"title": "漢方医学",
"attribute": "上位の学問",
"ENE": "1.7.19.13",
"html_offset": {
"start": {
"line_id": 47,
"offset": 733
},
"end": {
"line_id": 47,
"offset": 737
},
"text": "東洋医学"
}
}
提出データ(PlainText版)
{
"page_id": "8881",
"title": "漢方医学",
"attribute": "上位の学問",
"ENE": "1.7.19.13",
"text_offset": {
"start": {
"line_id": 47,
"offset": 114
},
"end": {
"line_id": 47,
"offset": 118
},
"text": "東洋医学"
},
"link_page_id": "20025"
}
提出データ(HTML版)
{
"page_id": "8881",
"title": "漢方医学",
"attribute": "上位の学問",
"ENE": "1.7.19.13",
"html_offset": {
"start": {
"line_id": 47,
"offset": 733
},
"end": {
"line_id": 47,
"offset": 737
},
"text": "東洋医学"
},
"link_page_id": "20025"
}
評価方法
森羅プロジェクトについて
拡張固有表現について