属性値抽出タスク

概要

目的
- カテゴリが付与されたWikipedeiaのページからカテゴリがもつ属性と属性値を網羅的に抽出する。
- どのカテゴリがどの属性をもつかは「拡張固有表現（ENE9.0）」に従う。
  - 「人名」カテゴリであれば「国籍」や「生年月日」など、「国名」カテゴリであれば「首都」や「人口」など
入力（および知識源）
- ENE9.0のカテゴリ番号を付与したpage_id
  - 分類タスクの出力と同じ
- Wikipedia（2021年度）のダンプデータ
  - page_idと本文が記述されている。
  - HTML版とPlainText版の2種類を用意している（好きな方を使用してよい）。
出力
- page_id毎かつ属性毎に網羅した属性値のテキストおよび位置情報
  - カテゴリごとの属性の一覧はこちら。
  - 同一ページに同一属性値が複数回出現する場合、全ての位置情報を抽出する。
  - 位置情報は、HTML版またはPlainText版のどちらか一方でよい。
例
- カテゴリ番号「1.7.19.13」（学問名）が付与された「人体解剖学」のページ
  - →　テキスト「human anatomy」、位置情報「27行88字」から「27行101字」
  - →　テキスト「human anatomy」、位置情報「27行592字」から「27行605字」
評価ポイント
- テキストと位置情報の全てが一致した場合に正解としてカウントする。

データセット

拡張固有表現ver9.0定義書
教師データ
- 以下のコンテンツが含まれています。
  - annotation（属性値抽出結果のアノテーションデータ。JSONL形式）
  - html（Wikipedia2019のHTML版。ただし、annotation対応部分のみ）
  - plain（Wikipedia2019のPlainText版。ただし、annotation対応部分のみ）
- 統計情報
  - ページ数：27,809
  - 属性種類数：1,686
  - 属性値延べ数：1,292,222
  - 1属性当たりのインスタンス数：766.44
- Wikipediaバージョン：
  - Wikipedia2017(森羅2018,2019,2020-JP対象の78カテゴリー)
  - Wikipedia2019(森羅2022に追加された100カテゴリー)
テストデータ
- リーダーボード用（Wikipediaの一部に対する予測、近日公開）
  - 以下のコンテンツが含まれています。
    - ENE9.0のカテゴリ番号を付与したpage_id（JSONL形式）
    - html（Wikipedia2021のHTML版。ただし、annotation対応部分のみ）
    - plain（Wikipedia2021のPlainText版。ただし、annotation対応部分のみ）
    - 拡張固有表現ver9.0定義書
  - 全体のWikipediaデータが欲しい方は、Wikipedia2021 (HTML)またはWikipedia2021 (PlainText)からどうぞ

属性値抽出システムを作成するための参考動画

タスクの概要について知りたい方のための参考動画

データ形式について

ラベル	説明	備考
page_id	ページID
title	ページタイトル
attribute	属性
ENE	予測カテゴリ	ENEから推測参考：拡張固有表現ver9.0の属性定義
text_offset	PlainText版でのオフセット情報	text_offsetかhtml_offsetのどちらか一方のみでOK
html_offset	HTML版でのオフセット情報	text_offsetかhtml_offsetのどちらか一方のみでOK
start	開始位置	推測対象
end	終了位置	推測対象
line_id	行番号	推測対象
offset	オフセット情報	推測対象
text	文字列	推測対象

{
  "page_id": "8881",
  "title": "漢方医学",
  "attribute": "上位の学問",
  "ENE": "1.7.19.13",
  "text_offset": {
    "start": {
      "line_id": 47,
      "offset": 114
    },
    "end": {
      "line_id": 47,
      "offset": 118
    },
    "text": "東洋医学"
  },
  "html_offset": {
    "start": {
      "line_id": 47,
      "offset": 733
    },
    "end": {
      "line_id": 47,
      "offset": 737
    },
    "text": "東洋医学"
  }
}

入力データ（分類タスクの出力結果）

{
  "page_id": "8881",
  "title": "漢方医学",
  "ENEs": {
    "AUTO.{YOUR_TEAM}.202205": [
      {
        "prob": 0.94,
        "ENE": "1.7.19.13"
      }
    ]
  }
}

出力データ（PlainTextにおける箇所を特定する場合）

{
  "page_id": "8881",
  "title": "漢方医学",
  "attribute": "上位の学問",
  "ENE": "1.7.19.13",
  "text_offset": {
    "start": {
      "line_id": 47,
      "offset": 114
    },
    "end": {
      "line_id": 47,
      "offset": 118
    },
    "text": "東洋医学"
  }
}

出力データ（HTMLにおける箇所を特定する場合）

{
  "page_id": "8881",
  "title": "漢方医学",
  "attribute": "上位の学問",
  "ENE": "1.7.19.13",
  "html_offset": {
    "start": {
      "line_id": 47,
      "offset": 733
    },
    "end": {
      "line_id": 47,
      "offset": 737
    },
    "text": "東洋医学"
  }
}

評価方法

属性ごとのマイクロ平均F1スコアのマクロ平均で評価します。

森羅プロジェクトについて

森羅プロジェクト全体については、こちらのページをご覧ください。
森羅2022およびその結果については、こちらのページをご覧ください。
- タスク内容は昨年度と同一です。
関連研究については、こちらのページをご覧ください。

拡張固有表現について

こちらのページをご覧ください。