業界・業務から探す
導入目的・課題から探す
データ・AIについて学ぶ
News
Hakkyについて
ウェビナーコラム
◆トップ【AI・機械学習】
プロセスの全体像前処理・特徴量生成Fine Tuning手法まとめ機械学習モデルの選び方モデル評価手法プロトタイピング探索的分析(EDA)
AI

執筆者:Handbook編集部

文章要約データセットの概要

はじめに

機械学習用の文章要約データセットについてこちらでまとめます。

文章要約データセットは英語データセットが種類多く存在し、各タスクによって選択しやすいです。

日本語データセット

英語データセット

  • CNN/Daily Mail
    • 新聞記事の本文とその三文要約のデータセットです。
    • 記事本文は平均 781 単語
    • 要約文は平均 3.75 行(平均 56 単語)
    • 要約文は記事本文に似た傾向がある
  • xsum
    • 記事本文に対して要約文が1文のみで構成されている
    • 要約文はかなり抽象度が高く、抽象型モデルでこのデータを使用すると性能が上がりやすい
  • DUC
    • 英文ニュース記事の用いたもっともメジャーなデータセット。
    • タスクに合わせて以下のようなデータを提供
      • それぞれの記事に Single document 用の短いレファレンス要約
      • テーマごとにクラスタリングされた Multi document 用のレファレンス要
  • その他 64 個の要約データセット

参考

info
備考

Hakky ではエンジニアを募集中です!まずは話してみたいなどでも構いませんので、ぜひお気軽に採用ページからお問い合わせくださいませ。

2025年06月15日に最終更新
読み込み中...