はじめに
trocco とは、ETL/データ転送・データマート生成・ジョブ管理・データガバナンスなどのデータエンジニアリング領域をカバーした、分析基盤構築・運用の支援 SaaS です。
trocco にはさまざまな機能がありますが、Hakky でメインに利用する以下の機能の運用ルールをまとめます。
- データ転送
- データマート生成
- ワークフロー(ジョブ管理)
運用ルール
「データ転送 > 転送設定」の機能の利用ルール
「データマート」の機能の利用ルール
-
「データマート定義名」について
- 半角英字で、「
<データセット名>_<テーブル名>
」という命名規則を遵守した形で書いてください。
- 例_dwh_ua_pageviews
-
「メモ」について
-
作成するテーブルの設計
- ジョブが実行された時に冪等性(実行対象について、同一の処理を何回実行しても同じ状態になる)を担保するように設定してください。
-
「スケジュール・トリガー設定」について
- 「データ転送 > 転送設定」の項目では基本的に行わず、「ワークフロー」で設定してください。
-
「通知設定」について
- データ転送 > 転送設定」の項目では基本的に行わず、「ワークフロー」で設定してください。
「ワークフロー」の利用ルール
-
「ワークフロー名」について
-
「メモ」について
-
管理するワークフローの作成について
- 以下のワークフローを作って、それの順序を制御するワークフローを作ることを想定します。
- datalake 作成ワークフロー
- dwh 作成ワークフロー
- dm 作成ワークフロー
- 数が増えてきたら細分化していくことも検討するが、基本的にまとめておきます。
-
ワークフロー内のタスクの実行順序について
- dwh, dm のワークフローは、「データマートシンク」→「BigQuery データチェック」を一つの塊としてください。
ラベルの運用ルール
上記の各機能で使うラベルは以下を参照して適切に付与してください。
- データ種別
- mysql
- BigQuery
- salesforce
- spreadsheet
- データ層/ワークフロー
- index
- BQ でいうプロジェクトの単位
- DL/DWH/DM の 3 つのワークフローのみで構成します
- DL/DWH/DM
- 基本はここに転送設定やデータマートのセルが入ります
クエリの書き方
以下の記事に従って書いてください。
参考

備考
Hakky では社内のデータ活用やサービスとしてデータ提供を行うためのソリューションを展開しております。
「社内のデータを一元管理し、よりデータドリブンな組織を構築したい」など具体的な相談はもちろんのこと、「どんなことをお願いできるのか知りたい」や「こんなことをやりたい」など、ご検討段階でも構いませんので、ぜひお気軽にフォームよりお問い合わせくださいませ。