Azure DatabricksのUnity Catalogメタストアを作成してみた

こんにちは。今日は、Azure DatabricksのUnitiy Catalogメタストアを作成する方法を試してみたので備忘メモしておきます。それではまいります。

Contents

Unitiy Catalog用のADLS Gen2コンテナの作成

Azure Data Lake Storage Gen2 のストレージ アカウントを作成する – Azure Storage | Microsoft Learn

最初に、Unity Catalogのデータを格納するためのAzure Datalake Storage Gen2リソースと、その中にコンテナを作成します。

階層型名前空間は、プレミアムレベル+ブロックBLOBか、Standard 汎用v2 SKUでサポートされているようなので、今回は前者で作成。

ADLS Gen2リソースを作成したらコンテナを作成しておきます。

ADLS Gen2コンテナへアクセスするためのコネクタの構成

次に、Databricksから先ほど作成したコンテナに接続できるように、コネクタを構成します。(Azureの他のリソースではコネクタなるものを作成をしたことがないのでちょっと馴染みない作業・・・)

Unity Catalog で Azure マネージド ID を使用してストレージにアクセスする – Azure Databricks | Microsoft Learn

コネクタを作成したら、先ほど作成したADLS Gen2のアクセス制御から、コネクタに対する”ストレージBLOBデータ共同作成者”権限を付与しておきます。

これで事前準備完了。

Unitiy Catalog メタストアを作成する

Unity Catalog メタストアを作成する – Azure Databricks | Microsoft Learn

ここからはDatabricks上の作業です。はじめにカタログの上位の概念である、メタストアを作成します。これは、Databricksアカウントコンソールから作業します。

ここでもハマったポイントがあるので以下にまとめています。

Azure DatabricksでUnity Catalogが作成できない!? | 煎茶 (simpletraveler.jp)

メタストアを作成するときは、以下の通り、先ほど作成したADLS Gen2コンテナのパスとアクセスコネクタのID情報を指定します。

メタストアが作成できたら、最後にこれをDatabricksワークスペースに「割り当て」します。

確認がでてくるので「有効化」へ進むと・・

無事、メタストアの作成と指定ワークスペースでのUnity Catalogの有効化が完了します。

カタログを作成したあとワークスペース>カタログエクスプローラーを除くと、先ほど作成したunitycatalogsample001メタストアの情報が参照できました。

なお、mainカタログについては以下の説明がありました。デフォルトのカタログのようですね。

すべてのユーザーは、main カタログに対する USE CATALOG アクセス許可を持ちます。 main カタログは、Unity Catalog の使用を開始したばかりの組織を対象としています。 ユーザーとデータを追加するときに、アクセスを効率的に制御できるデータ階層を維持するためにカタログを追加する必要があります。

Unity Catalog とは – Azure Databricks | Microsoft Learn

以上、メタストアを作成する手順でした。アクセスコネクタという他のAzureリソースでは見かけない慣れない概念がでてきたり、Databricksのアカウントコンソールとワークスペースの区別を理解しておかないといけなかったり、初見にはなかなか躓きが多かったです。。

今後は、Unity Catalogを使ってみた記事も増やしていければと思います。

少しでも参考になりましたら幸いです。

おしまい

この記事を気に入っていただけたらシェアをお願いします!

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

ABOUT US
Yuu113
初めまして。ゆうたろうと申します。 兵庫県出身、東京でシステムエンジニアをしております。現在は主にデータ分析、機械学習を活用してビジネスモデリングに取り組んでいます。 日々学んだことや経験したことを整理していきたいと思い、ブログを始めました。旅行、カメラ、IT技術、江戸文化が大好きですので、これらについても記事にしていきたいと思っています。