この記事では、オープンソースのモダンなデータカタログのDataHubでDataHubでGraphQLでメタデータを操作します。
本記事ではDataHubはEKSであることを前提として以降説明します。
S3データソースのDatasetsのメタデータ取得
アクセスTokenの生成
以下の画像のようにUI (設定 > Access Tokens > Create new token) からTokenを事前に生成しコピーしておきます。

GMSのエンドポイント確認
以下のコマンドでGMSのエンドポイントを確認します。
以下のような出力が得られるので、datahub-datahub-gms
のEXTERNAL-IPを使ってアクセスします。
GraphQLのエンドポイントはhttp://<lb_name>.<region>.elb.amazonaws.com:8080/api/graphql
です。
メタデータの取得
登録済みのS3 Datasetsの情報を抽出するクエリの実行例を記載します。
ここではPythonのrequestsパッケージを使用してエンドポイントにアクセスするコードの例を示します。
上で作成したPythonのコードを実行するすると以下のような出力が得られます。
まとめ
この記事では、DataHubでGraphQLでメタデータを操作するついて紹介しました。
参考

備考
Hakky ではエンジニアを募集中です!まずは話してみたいなどでも構いませんので、ぜひお気軽に採用ページからお問い合わせくださいませ。
