業界・業務から探す
導入目的・課題から探す
データ・AIについて学ぶ
News
Hakkyについて
ウェビナーコラム
◆トップ【データ基盤】
データハブとは
Ajust
データの保守運用
AI

執筆者:Handbook編集部

EKSでDataHubを実行する方法【CLIでの実装付】

この記事では、オープンソースのモダンなデータカタログのDataHubを EKS で実行する方法について紹介します。環境構築は CLI で行います。

構成

この記事で作成する環境です。 以下のDocker Imageを使用して EKS タスクを実行することで、DataHub をサービングします。

  • acryldata/datahub-ingestion
  • acryldata/datahub-gms
  • acryldata/datahub-frontend-react
  • acryldata/datahub-mae-consumer
  • acryldata/datahub-mce-consumer
  • acryldata/datahub-upgrade
  • acryldata/datahub-kafka-setup
  • acryldata/datahub-elasticsearch-setup
  • acryldata/datahub-mysql-setup
  • acryldata/datahub-postgres-setup
  • acryldata/datahub-actions

CLI でのインフラ環境構築

EKSクラスターの構築

eksctl create cluster \
    --name <<cluster-name>> \
    --region <<aws region>> \
    --with-oidc \
    --nodes=3

クラスター上にデプロイするMySQLデータベースとNeo4jのパスワードを格納したkubernetesシークレットを作成

kubectl create secret generic mysql-secrets --from-literal=mysql-root-password=datahub
kubectl create secret generic neo4j-secrets --from-literal=neo4j-password=datahub

Datahubリポジトリをhelmに追加

helm repo add datahub https://helm.datahubproject.io/

Datahubのストレージレイヤ部分をデプロイ

helm install prerequisites datahub/datahub-prerequisites

storage classの名称確認

kubectl get sc

PVCの動作確認

kubectl get pvc

eksのversionが1.30以上ではPVCにSCがアタッチされていないため設定を変更

kubectl edit pvc <pvc名>
spec:
  accessModes:
  - ReadWriteOnce
  resources:
    requests:
      storage: 8Gi
  storageClassName: <StorageClass名> # この行を追加

PVの動作確認

kubectl get pvc

全てのpodが Running になっているのを確認する Datahub本体部分をデプロイ

helm install datahub datahub/datahub

DataHub 実行

ポートフォワーディングでlocalのブラウザで実行することができます。 まず、local環境でexposeする。

kubectl port-forward <datahub-frontend pod name> 9002:9002

local環境のブラウザで http://localhost:9002 にアクセス。 ログイン画面で 以下をを入力しログイン。

Username: datahub
Password: datahub

まとめ

この記事では、DataHub を EKS で実行する方法について紹介しました。

参考

info
備考

Hakky ではエンジニアを募集中です!まずは話してみたいなどでも構いませんので、ぜひお気軽に採用ページからお問い合わせくださいませ。

2025年07月06日に最終更新
読み込み中...