概要
- 目的
- Wikipediaの各ページに「人名」や「国名」といったカテゴリを付与する。
- カテゴリには「拡張固有表現(ENE9.0)」を用いる。
- 入力(および知識源)
- 分類の対象となるpage_id
- Wikipedia(2021年度)のダンプデータ
- page_idと本文が記述されている。
- JSON版とXML版の2種類を用意している(好きな方を使用してよい)。
- 出力
- ENE9.0のカテゴリ番号を付与したpage_id
- 対象となるカテゴリの一覧はこちら
- 複数のカテゴリへの分類を許容
- ENE9.0のカテゴリ番号を付与したpage_id
- 例
- 「島崎藤村」のページ → 1.1(人名)
- 「スペース・ゼロ」のページ → 1.4.6.2(企業名): 1.6.4.17(劇場名)
データセット
- 拡張固有表現ver9.0定義書
- 教師データ
- Wikipedia(2019年度)のpage_idとENE9.0のカテゴリ番号との対応リスト
- Wikipedia(2019年度)のダンプデータ(以下のお好きな方をご利用ください)
- 統計情報
- ページ数:920,444
- Wikipediaバージョン:20190124
- 開発データ(近日公開)
- Wikipedia(2021年度)のpage_idとENE9.0のカテゴリ番号との対応リスト(近日公開)
- Wikipedia(2021年度)のダンプデータ(以下のお好きな方をご利用ください)
- テストデータ(近日公開)
- 本評価(Wikipedia全件に対する予測)
- 分類の対象となるpage_id(近日公開)
- リーダーボード用(Wikipediaの一部に対する予測)
- 分類の対象となるpage_id(近日公開)
- Wikipedia(2021年度)のダンプデータ(以下のお好きな方をご利用ください)
- 本評価(Wikipedia全件に対する予測)
分類システムを作成するための参考動画
タスクの概要について知りたい方のための参考動画
データ形式について
ラベル | 説明 | 備考 |
---|---|---|
page_id | ページID | |
title | ページタイトル | |
ENEs | 予測(正解)カテゴリ | |
HAND.AIP.202204 | アノテータ―名 | |
AUTO.{YOUR_SYSTEM}.202205 | システム名 | {YOUR_SYSTEM}に参加者のシステム名を入れる |
prob | 確率スコア | 推測対象 |
ENE | 拡張固有表現ver9.0のID | 推測対象 参考:拡張固有表現ver9.0 |
教師データ
{
"page_id": "8881",
"title": "漢方医学",
"ENEs": {
"HAND.AIP.202204": [
{
"prob": 1,
"ENE": "1.7.19.13"
}
]
}
}
入力データ
{
"page_id": "8881",
"title": "漢方医学",
"ENEs": {}
}
出力データ
{
"page_id": "8881",
"title": "漢方医学",
"ENEs": {
"AUTO.{your_system}.{yyyyMM}": [
{
"prob": 0.94,
"ENE": "1.7.19.13"
}
]
}
}
評価方法
- マイクロ平均F1スコアで評価します。
森羅プロジェクトについて
- 森羅プロジェクト全体については、こちらのページをご覧ください。
- 森羅2022およびその結果については、こちらのページをご覧ください。
- タスク内容は昨年度と同一です。
- 関連研究については、こちらのページをご覧ください。
拡張固有表現について
- こちらのページをご覧ください。