概要
- 目的
- カテゴリが付与されたWikipedeiaのページからカテゴリがもつ属性と属性値を網羅的に抽出する。
- どのカテゴリがどの属性をもつかは「拡張固有表現(ENE9.0)」に従う。
- 「人名」カテゴリであれば「国籍」や「生年月日」など、「国名」カテゴリであれば「首都」や「人口」など
- 入力(および知識源)
- ENE9.0のカテゴリ番号を付与したpage_id
- 分類タスクの出力と同じ
- Wikipedia(2021年度)のダンプデータ
- page_idと本文が記述されている。
- HTML版とPlainText版の2種類を用意している(好きな方を使用してよい)。
- ENE9.0のカテゴリ番号を付与したpage_id
- 出力
- page_id毎かつ属性毎に網羅した属性値のテキストおよび位置情報
- カテゴリごとの属性の一覧はこちら。
- 同一ページに同一属性値が複数回出現する場合、全ての位置情報を抽出する。
- 位置情報は、HTML版またはPlainText版のどちらか一方でよい。
- page_id毎かつ属性毎に網羅した属性値のテキストおよび位置情報
- 例
- カテゴリ番号「1.7.19.13」(学問名)が付与された「人体解剖学」のページ
- → テキスト「human anatomy」、位置情報「27行88字」から「27行101字」
- → テキスト「human anatomy」、位置情報「27行592字」から「27行605字」
- カテゴリ番号「1.7.19.13」(学問名)が付与された「人体解剖学」のページ
- 評価ポイント
- テキストと位置情報の全てが一致した場合に正解としてカウントする。
データセット
- 拡張固有表現ver9.0定義書
- 教師データ
- 以下のコンテンツが含まれています。
- annotation(属性値抽出結果のアノテーションデータ。JSONL形式)
- html(Wikipedia2019のHTML版。ただし、annotation対応部分のみ)
- plain(Wikipedia2019のPlainText版。ただし、annotation対応部分のみ)
- 統計情報
- ページ数:27,809
- 属性種類数:1,686
- 属性値延べ数:1,292,222
- 1属性当たりのインスタンス数:766.44
- Wikipediaバージョン:
- Wikipedia2017(森羅2018,2019,2020-JP対象の78カテゴリー)
- Wikipedia2019(森羅2022に追加された100カテゴリー)
- 以下のコンテンツが含まれています。
- テストデータ
- リーダーボード用(Wikipediaの一部に対する予測、近日公開)
- 以下のコンテンツが含まれています。
- ENE9.0のカテゴリ番号を付与したpage_id(JSONL形式)
- html(Wikipedia2021のHTML版。ただし、annotation対応部分のみ)
- plain(Wikipedia2021のPlainText版。ただし、annotation対応部分のみ)
- 拡張固有表現ver9.0定義書
- 全体のWikipediaデータが欲しい方は、Wikipedia2021 (HTML)またはWikipedia2021 (PlainText)からどうぞ
- 以下のコンテンツが含まれています。
- リーダーボード用(Wikipediaの一部に対する予測、近日公開)
属性値抽出システムを作成するための参考動画
タスクの概要について知りたい方のための参考動画
データ形式について
ラベル | 説明 | 備考 |
---|---|---|
page_id | ページID | |
title | ページタイトル | |
attribute | 属性 | |
ENE | 予測カテゴリ | ENEから推測 参考:拡張固有表現ver9.0の属性定義 |
text_offset | PlainText版でのオフセット情報 | text_offsetかhtml_offsetのどちらか一方のみでOK |
html_offset | HTML版でのオフセット情報 | text_offsetかhtml_offsetのどちらか一方のみでOK |
start | 開始位置 | 推測対象 |
end | 終了位置 | 推測対象 |
line_id | 行番号 | 推測対象 |
offset | オフセット情報 | 推測対象 |
text | 文字列 | 推測対象 |
{
"page_id": "8881",
"title": "漢方医学",
"attribute": "上位の学問",
"ENE": "1.7.19.13",
"text_offset": {
"start": {
"line_id": 47,
"offset": 114
},
"end": {
"line_id": 47,
"offset": 118
},
"text": "東洋医学"
},
"html_offset": {
"start": {
"line_id": 47,
"offset": 733
},
"end": {
"line_id": 47,
"offset": 737
},
"text": "東洋医学"
}
}
入力データ(分類タスクの出力結果)
{
"page_id": "8881",
"title": "漢方医学",
"ENEs": {
"AUTO.{YOUR_TEAM}.202205": [
{
"prob": 0.94,
"ENE": "1.7.19.13"
}
]
}
}
出力データ(PlainTextにおける箇所を特定する場合)
{
"page_id": "8881",
"title": "漢方医学",
"attribute": "上位の学問",
"ENE": "1.7.19.13",
"text_offset": {
"start": {
"line_id": 47,
"offset": 114
},
"end": {
"line_id": 47,
"offset": 118
},
"text": "東洋医学"
}
}
出力データ(HTMLにおける箇所を特定する場合)
{
"page_id": "8881",
"title": "漢方医学",
"attribute": "上位の学問",
"ENE": "1.7.19.13",
"html_offset": {
"start": {
"line_id": 47,
"offset": 733
},
"end": {
"line_id": 47,
"offset": 737
},
"text": "東洋医学"
}
}
評価方法
- 属性ごとのマイクロ平均F1スコアのマクロ平均で評価します。
森羅プロジェクトについて
- 森羅プロジェクト全体については、こちらのページをご覧ください。
- 森羅2022およびその結果については、こちらのページをご覧ください。
- タスク内容は昨年度と同一です。
- 関連研究については、こちらのページをご覧ください。
拡張固有表現について
- こちらのページをご覧ください。