概要

データセット

属性値抽出システムを作成するための参考動画

タスクの概要について知りたい方のための参考動画

データ形式について

ラベル説明備考
page_idページID
titleページタイトル
attribute属性
ENE予測カテゴリENEから推測
参考:拡張固有表現ver9.0の属性定義
text_offsetPlainText版でのオフセット情報text_offsetかhtml_offsetのどちらか一方のみでOK
html_offsetHTML版でのオフセット情報text_offsetかhtml_offsetのどちらか一方のみでOK
start開始位置推測対象
end終了位置推測対象
line_id行番号推測対象
offsetオフセット情報推測対象
text文字列推測対象

{
  "page_id": "8881",
  "title": "漢方医学",
  "attribute": "上位の学問",
  "ENE": "1.7.19.13",
  "text_offset": {
    "start": {
      "line_id": 47,
      "offset": 114
    },
    "end": {
      "line_id": 47,
      "offset": 118
    },
    "text": "東洋医学"
  },
  "html_offset": {
    "start": {
      "line_id": 47,
      "offset": 733
    },
    "end": {
      "line_id": 47,
      "offset": 737
    },
    "text": "東洋医学"
  }
}

入力データ(分類タスクの出力結果)

{
  "page_id": "8881",
  "title": "漢方医学",
  "ENEs": {
    "AUTO.{YOUR_TEAM}.202205": [
      {
        "prob": 0.94,
        "ENE": "1.7.19.13"
      }
    ]
  }
}

出力データ(PlainTextにおける箇所を特定する場合)

{
  "page_id": "8881",
  "title": "漢方医学",
  "attribute": "上位の学問",
  "ENE": "1.7.19.13",
  "text_offset": {
    "start": {
      "line_id": 47,
      "offset": 114
    },
    "end": {
      "line_id": 47,
      "offset": 118
    },
    "text": "東洋医学"
  }
}

出力データ(HTMLにおける箇所を特定する場合)

{
  "page_id": "8881",
  "title": "漢方医学",
  "attribute": "上位の学問",
  "ENE": "1.7.19.13",
  "html_offset": {
    "start": {
      "line_id": 47,
      "offset": 733
    },
    "end": {
      "line_id": 47,
      "offset": 737
    },
    "text": "東洋医学"
  }
}

評価方法

森羅プロジェクトについて

拡張固有表現について