概要
本記事では Google Cloud Platform (GCP)のフルマネージドな ML ワークフローをサポートしている Vertex AI の最初のステップで、ML データセットを管理する機能である Vertex AI Datasets の概要についてまとめます。
Vertex AI Datasets とは
Vertex AI Datasets とは Vertex AI で使用するデータセットを管理する機能です。このサービスを利用することで、Vertex AI で ML ワークフローに必要なデータセットの管理を行うことができます。
この Vertex AI Datasets でサポートしているデータ形式は画像、表形式、テキスト、動画の4つです。
メリット
- Vertex AI での分析やモデル作成を行えるデータセットを管理できる。
- Vertex AI Labeling Tasks を使って Vertex AI の機能でラベリング作業を行うことができる。
- ML エキスパートでなくても取り扱いが可能である。
デメリット
- 独自の jsonl ファイルを作成する必要がある。
- ラベルが存在する場合も独自の形式に変換する必要がある。
- 扱えるデータ形式は画像、表形式、テキスト、動画の4つのみ。
- jsonl 読み込みからデータセットが作成完了するまでに多少の時間がかかる。
使用方法
Datasets 作成手順

- Dataset name
データセットの名前を入力します。
- Select a data type and objective
データの形式とタスクの種類を選択します。
選択肢は以下のようになっています。
- IMAGE
- Image classification (Single-label)
- Image classification (Multi-label)
- Image object detection
- Image segmentation
- TABULAR
- Regression/classification
- Forecasting(PREVIEW 版)
- TEXT
- Text classification (Single-label)
- Text classification (Multi-label)
- Text entity extraction
- Text sentiment analysis
- VIDEO
- Video action recognition
- Video classification
- Video object tracking
- Region&Encryption
データセットを作成する Region や暗号化方法を選択します。
設定が終わったら Creat を押下します。
- Import
データをインポートします。
インポートの方法は以下の 3 つ。
- 画像データを PC からインポート
- インポートファイル(特別な jsonl)を PC からインポート
- インポートファイルを Cloud Storage から選択
今回は'インポートファイルを Cloud Storage から選択'を選択。
インポートファイルのパスをブラウズして入力。

補足:インポートファイルの作成
手順 4 で大量のデータを PC よりインポートするのは時間がかかりすぎるため、インポートファイルを作成するのが現実的である。
インポートするデータのパスを示した jsonl ファイルを作成する。
作成方法は以下を参照。
Vertex AI で使用するトレーニング データを準備する
まとめ
- Vertex AI Datasets を使用することで Vertex AI でのワークフローで使用するデータセットの管理を行うことができる。
- データの形式やタスクは限定的である。
- データのインポートにはインポートファイルを作成する必要がある。
参照