この記事では、実際に Dataplex で Lake・Zone・Asset を作成してみます。
この記事で参考にする HandsOn
この記事では、以下の HandsOn を参考にしながら、行っていきます。
Lake を作る
1. まずは Dataplex 関連の API を有効化します

2. 次に Lake を作ります

現在 Lake 作成時選択できるリージョンは以下の通りです
- APAC
- asia-east1
- asia-northeast1
- asia-northeast3
- asia-southeast1
- australia-southeast1
- Europe
- europe-west1
- europe-west2
- europe-west3
- europe-west4
- europe-west6
- North America
- northamerica-northeast1
- us-central1
- us-east1
- us-east4
- us-west1
- South America
Zone を作る
1. 今回は raw zone で Zone を作成します

すでにDataplex の概要で紹介済みですが、ゾーンの“Type”は以下の 2 つから選択できます。
- Raw zone
- 非構造化データや半構造化データを入れるゾーン
- GCS ではサポートされている形式に制限無し
- Curated zone
- 構造化データを入れるゾーン
- GCS でサポートされている形式は Parquet、Avro、ORC
- BQ の場合は適切に定義されたスキーマと Hive スタイルのパーティションが必要
Asset を作る
1. Asset を作成する前に、Asset に含めるためのデータを用意します。今回は GCS を使用しました

2. GCS バケットに CSV ファイルを置きます。サンプルデータとして、Google Cloud のプロジェクトリストを使用します
-
Cloud Shell から以下実行
$ gcloud projects list --format="json" > sample_json.json
-
Python ライブラリの pandas をインストール
$ Pip install pandas
-
作成した json を csv 化
$ vi csv.py
$ python csv.py
-
GCS へコピー
$ gcloud storage cp ./sample_csv.csv gs://bucket-for-poc-dataplex/
-
出来上がった CSV ファイルがこちら

3. Asset を作成する
データを探して分析してみる
1. 先ほど作成した Asset を探す
- データの検索方法は複数ありますが、今回は Filter を使用しています

2. データを分析してみる
- Asset の詳細から”OPEN IN BIGQUERY”を押下する

- すると BQ で Asset のデータを分析できる

データセキュリティ
Lake / Zone / Asset の階層ごとに権限を管理できます

パイプライン
必要なデータ処理を Dataplex から作成・管理できます

まとめ
この記事では、実際に Dataplex で Lake・Zone・Asset を作成してみました。適切な構成で dataplex を設定することで、Google Cloud に簡単にデータファブリックを実装することができます。
参考