Azure Data Factoryのセルフホステッド統合ランタイム(SHIR)とは?実際に構成してみた

こんにちは。今日は、Azure Data Factoryのセルフホステッド統合ランタイムを構成してみる機会があったので、手順を簡単にメモしておきたいと思います。

(手順面倒くさいんじゃないかとちょっと身構えていたのですが、思っていた100倍簡単に構成できましたので、わざわざ記事にまとめるほどでもなかったかもしれません・・笑 自習記録ということで・・)

セルフホステッド統合ランタイム(SHIR)とは

そもそも統合ランタイムとは。

Integration Runtime (IR) は、異なるネットワーク環境間でデータ統合機能を提供するために Azure Data Factory と Azure Synapse のパイプラインによって使用されるコンピューティング インフラストラクチャです

https://docs.microsoft.com/ja-jp/azure/data-factory/concepts-integration-runtime#self-hosted-integration-runtime

要は、Data Factoryの処理の実行環境です。そしてセルフホステッド統合ランタイムとは。

https://docs.microsoft.com/ja-jp/azure/data-factory/create-self-hosted-integration-runtime?tabs=data-factory#command-flow-and-data-flow

セルフホステッド IR により、次のことが可能になります。

・クラウドのデータ ストアとプライベート ネットワーク内のデータ ストアの間でコピー アクティビティを実行する。

・オンプレミスまたは Azure Virtual Network 内のコンピューティング リソースに対して次の変換アクティビティをディスパッチする: HDInsight Hive アクティビティ (BYOC-Bring Your Own Cluster)、HDInsight Pig アクティビティ (BYOC)、HDInsight MapReduce アクティビティ (BYOC)、HDInsight Spark アクティビティ (BYOC)、HDInsight Streaming アクティビティ (BYOC)、ML スタジオ (クラシック) Batch Execution アクティビティ、ML スタジオ (クラシック) 更新リソース アクティビティ、ストアド プロシージャ― アクティビティ、Data Lake Analytics U-SQL アクティビティ、カスタム アクティビティ (Azure Batch 上で実行)、Lookup アクティビティ、GetMetadata アクティビティ。

https://docs.microsoft.com/ja-jp/azure/data-factory/concepts-integration-runtime#self-hosted-integration-runtime

ということで、オンプレミスや、閉域化されたプライベートネットワーク内のデータソースに対してアクティビティを実行する場合に利用するランタイムのオプションになります。

こちらはオンプレミスのマシンやAzureであればAzure VMなどにランタイムをインストールして利用することになります。

セルフホステッド統合ランタイムの要件

詳細は以下にありますが、セルフホステッド統合ランタイムを動作させるマシンにはいくつかの条件があります。

https://docs.microsoft.com/ja-jp/azure/data-factory/create-self-hosted-integration-runtime?tabs=data-factory#prerequisites

  • セルフホステッド統合ランタイムには、.NET Framework 4.7.2 以降を含む 64 ビット オペレーティング システムが必要
  • 推奨される最小構成は、4 コアの 2 GHz プロセッサ、8 GB の RAM、および 80 GB の使用可能なハード ドライブ領域

また、ネットワークに関する要件もあります。セルフホステッド統合ランタイムがAzure Data Factoryサービスなどに接続するために、送信側、以下で指定されているドメインへの接続で443ポートを解放しておく必要があるようです。

https://docs.microsoft.com/ja-jp/azure/data-factory/create-self-hosted-integration-runtime?tabs=data-factory#ports-and-firewalls

公式ドキュメントより

構築手順

それでは実際に構築してみます。公式手順はこちらにあります。

https://docs.microsoft.com/ja-jp/azure/data-factory/create-self-hosted-integration-runtime?tabs=data-factory#create-a-self-hosted-ir-via-ui

Data Factoryにランタイム構成を追加する

Data Factory Studio > モニター > 統合ランタイムから「新規」追加に進み、以下のように選択していきます。

ランタイムの名称を設定し・・・

登録が完了すると、ランタイムのインストーラのリンクが現れます。今回はオプション1で進めますので、こちらをローカルにインストールしておきます。

セルフホステッド統合ランタイムを構成する

続いて、ランタイムを構成するマシンにRDPなどで接続して、先ほどのインストーラを運び込みます。

あとはインストーラを実行するだけ。特に何ら追加設定なくインストールが開始されます。

ものの数分でインストール完了。たったこれだけ・・・

確認

この状態でData Factory Studioの統合ランタイムの画面を確認すると・・・

おお、ノードが自動的に検出されて確認できるようになりました。

Data Factoryのアクティビティでこのランタイムを実行する場合は、リンクサービスの編集から、データソースに紐づく設定として選択可能になります。

以上、セルフホステッド統合ランタイムを利用する方法でした。

非常に簡単にできてびっくりしました・・・

おしまい

この記事を気に入っていただけたらシェアをお願いします!

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

ABOUT US
Yuu113
初めまして。ゆうたろうと申します。 兵庫県出身、東京でシステムエンジニアをしております。現在は主にデータ分析、機械学習を活用してビジネスモデリングに取り組んでいます。 日々学んだことや経験したことを整理していきたいと思い、ブログを始めました。旅行、カメラ、IT技術、江戸文化が大好きですので、これらについても記事にしていきたいと思っています。