はじめに
機械学習用の文章要約データセットについてこちらでまとめます。
文章要約データセットは英語データセットが種類多く存在し、各タスクによって選択しやすいです。
日本語データセット
英語データセット
- CNN/Daily Mail
- 新聞記事の本文とその三文要約のデータセットです。
- 記事本文は平均 781 単語
- 要約文は平均 3.75 行(平均 56 単語)
- 要約文は記事本文に似た傾向がある
- xsum
- 記事本文に対して要約文が1文のみで構成されている
- 要約文はかなり抽象度が高く、抽象型モデルでこのデータを使用すると性能が上がりやすい
- DUC
- 英文ニュース記事の用いたもっともメジャーなデータセット。
- タスクに合わせて以下のようなデータを提供
- それぞれの記事に Single document 用の短いレファレンス要約
- テーマごとにクラスタリングされた Multi document 用のレファレンス要
- その他 64 個の要約データセット
参考

備考
Hakky ではエンジニアを募集中です!まずは話してみたいなどでも構いませんので、ぜひお気軽に採用ページからお問い合わせくださいませ。
