【５分で流し読み】Azure Data Factoryのマネージド仮想ネットワーク/マネージドプライベートエンドポイント機能を理解する

おはようございます。

今日は、Azure Data Factoryのマネージド仮想ネットワーク/マネージドプライベートエンドポイント機能について勉強したので、分かったことをまとめておきたいと思います。

Contents

マネージド仮想ネットワーク

概要

https://docs.microsoft.com/ja-jp/azure/data-factory/managed-virtual-network-private-endpoint

Azure IRをAzure仮想ネットワーク内に展開できる
これによってData Factoryが、プライベートエンドポイントで保護されたAzureリソースに仮想ネットワーク経由でアクセスできるようになる
この仮想ネットワークはADFがManageするため、ユーザが意識することはない

統合する仮想ネットワークは画面上などでユーザが指定できるわけではないことから、ADFが内部的に用意した仮想ネットワークに展開されているようなイメージなのかなと思います。

UI上有効化/無効化の選択しかなく、VNETを選択することはできない（”マネージド”仮想ネットワークだからでしょう）

また、構成次第ではAzureリソースだけでなくオンプレミスのデータソースとの接続もできる模様。まだちゃんと読めてないですがリンクだけ貼っておきます。

https://docs.microsoft.com/ja-jp/azure/data-factory/tutorial-managed-virtual-network-on-premise-sql-server

利用時の注意点

以下のように、セキュリティとパフォーマンスとの間にトレードオフがあるようです。TTLをうまく設定できると問題にならないのかもしれません。

既存のグローバル統合ランタイムを、Data Factory マネージド仮想ネットワーク内の統合ランタイムに切り替えることはできない。また、その逆も同様。
送信方向にはすべてのポートが開かれている。（＝パブリックなエンドポイントへの通信も可能ということっぽい？ということで、ADFからパブリックエンドポイントへの通信をさせたくないならSelf-Hosted IRを利用することになりそう）
設計上、マネージド仮想ネットワーク内の統合ランタイムでは、グローバル統合ランタイムよりもキュー時間が長くなる。 Data Factory ごとに 1 つのコンピューティングノードが予約されていないため、各アクティビティが開始される前にウォームアップが必要となるため。ウォームアップの時間は、統合ランタイム自体というよりは、仮想ネットワークへの参加でかかる。
ただし、マネージド仮想ネットワークの構成時にTTLを設定できて、その時間内であればウォームアップ済ノードが利用できるためキュー時間が短縮される。
COPYアクティビティではTTLはサポートされていない。

参考：

その他接続先サービス固有の制限もいくつかあるようです。

https://docs.microsoft.com/ja-jp/azure/data-factory/managed-virtual-network-private-endpoint#limitations-and-known-issues

マネージドプライベートエンドポイント

概要

再掲の図ですが、以下図の通りマネージド仮想ネットワーク内に接続先データソースのプライベートエンドポイントを配置できるという機能
一般的なプライベートエンドポイントの機能の恩恵として、ADFからの通信をプライベートに行えることに加えて、ADFフルマネージドなのでユーザ側でエンドポイントの管理が不要。
マネージド仮想ネットワークを利用する場合、このマネージドプライベートエンドポイントと併用することでプライベート通信を実現できる

プライベートリンクを使用すると、データストアとマネージド仮想ネットワーク間のトラフィックは、全面的に Microsoft のバックボーンネットワークを介して転送されます。プライベートリンクによって、データ流出のリスクから身を守ることができます。
https://docs.microsoft.com/ja-jp/azure/data-factory/managed-virtual-network-private-endpoint#managed-private-endpoints

利用時の注意点

PaaS データストア (Azure Blob Storage、Azure Data Lake Storage Gen2、Azure Synapse Analytics など) に対してプライベートエンドポイントが既に作成されており、すべてのネットワークからのアクセスが許可されている場合でも、Data Factory からはマネージドプライベートエンドポイントを使用してアクセスすることしかできない。
2022年6月末時点で、以下リソースで対応している。
- Azure Functions (Premium プラン)
- Azure Key Vault
- Azure Machine Learning
- Azure Private Link
- Microsoft Purview

なるほど、ADFマネージド仮想ネットワークはユーザが意識できない場所で作られるので、データソースとのプライベート通信を行うにはマネージドプライベートエンドポイントを使うしか方法はないのですね。（マネージド仮想ネットワークが認識できないので、通常のプライベートエンドポイントをユーザ作業で配置することもできませんからね・・・）

ここに対応していないリソースへのプライベート接続を実現したい場合は、現段階だとSelf-Hosted統合ランタイムを利用することになりそうです。

参考：

https://docs.microsoft.com/ja-jp/azure/data-factory/managed-virtual-network-private-endpoint#managed-private-endpoints

https://docs.microsoft.com/ja-jp/azure/data-factory/managed-virtual-network-private-endpoint#supported-data-sources-and-services