Azure Data Factoryってどんなサービス？何ができるの？

こんばんは。今回は、Azure DataFactoryについて調べてみたことをこの記事にまとめていきたいと思います。

それではまいります。

Contents

Azure DataFactoryとは？

一言でいうと、AzureのETL & データ統合サービスです。

公式Docの説明は以下です。

クラウドベースの ETL およびデータ統合サービスを通じて、データの移動と変換を大規模に制御するデータドリブンのワークフローを作成できます。 Azure Data Factory を使えば、各種のデータストアからデータを取り込むことができるデータ主導型のワークフロー (パイプライン) を作成し、スケジューリングできます。コンピューティングサービス (Azure HDInsight Hadoop、Azure Databricks、Azure SQL Database など) やデータフローを使用してデータを変換する複雑な ETL プロセスを視覚的に作成できます。
https://docs.microsoft.com/ja-jp/azure/data-factory/introduction

ウリとなるポイントは以下です。サービスページのキャプチャを拝借しまして・・

https://azure.microsoft.com/ja-jp/services/data-factory/#overview

１，ノーコードでデータフローを定義できる

２，SSISからの移行が簡単

３，さまざまなデータと簡単に接続できる

参考ですが、Gartnerのレポートによると、MicrosoftはData Integration Toolsの分野でもLeaderに選出されています。Azure Data Factory以外にもいくつかのIntegrationサービスがあるため、このプロット＝Data Factoryと考えることはできないと思いますが、総合力ということですね。（ところで、AWSやGoogleといった他クラウドベンダーがいない・・？）

AWS, GCPに同様のサービスはある？

AWSのサービスでは、Data Pipeline, Glueが同様の役割を担っているようですね。

https://docs.microsoft.com/ja-jp/azure/architecture/aws-professional/services#data-orchestration–etl

GCPだとCloud Data Fusionというサービスが対応しているようです。

https://docs.microsoft.com/ja-jp/azure/architecture/gcp-professional/services#data-orchestration-and-etl

トレンドは？流行ってるの？

トレンドはどうでしょう。一指標として、Google検索のトレンドをData Factory/Glue/Cloud Data Fusionで比較してみました。

まずは世界全体。特にAzure/AWSは右肩上がりのトレンドで、全体として上昇トレンドは続きそうです。2020年末?頃にAmazon GlueのトレンドががくっとおちてAzure Data Factoryのトレンドを下回るようになりました。なにがあったんだろう・・？

というわけで、現在はAzure Data Factoryのトレンドがもっとも高い状況です。

続けて日本でのトレンド。日本ではまだAmazon Glueのトレンドが一番強いようですが、Data Factoryも着実に伸びてきているようです。

また、Gartnerの提供するグローバルのサービスレビューも参考にできそうです。

https://www.gartner.com/reviews/market/data-integration-tools/vendor/microsoft/product/azure-data-factory

Azure Data Factoryの機能

公式Docベースでもう少しだけ機能の概要をみておきます。

こちらのドキュメントに全体像の説明がありますが、以下のことができます。

データを取り込んで（Ingest）
加工する（Data Flow）
パイプラインを作成して（Control Flow）
実行スケジューリングができて（Schedule）
モニタリングまでできる（Monitor）

https://docs.microsoft.com/ja-jp/azure/data-factory/introduction#how-does-it-work

各機能の説明をもう少し確認しておきます。なお、実際の操作感は最後の章で取り上げていますので、そちらもご覧いただければと思います。

Ingest

Data Factory を使用していない企業では、カスタムのデータ移動コンポーネントを構築するか、これらのデータソースと処理を統合するカスタムサービスを作成しなければなりません。このようなシステムの統合と保守は高コストで、容易ではありません。そのうえ、エンタープライズクラスの監視やアラートが欠け、フルマネージドのサービスが提供できるような制御機能を用意できないことも少なくありません。
Data Factory を使用すれば、データパイプラインのコピーアクティビティで、オンプレミスとクラウドの両方のソースデータストアからクラウド内の一元化されたデータストアにデータを移動し、詳しく分析することができます。たとえば、Azure Data Lake Storage でデータを収集し、後で Azure Data Lake Analytics コンピューティングサービスを使用してデータを変換することができます。または、Azure Blob Storage でデータを収集し、後で Azure HDInsight Hadoop クラスターを使用してデータを変換することもできます。
https://docs.microsoft.com/ja-jp/azure/data-factory/introduction#connect-and-collect

Data Flow

クラウド上の一元的なデータストアにデータが集まったら、ADF マッピングデータフローを使用して、その収集されたデータを処理または変換します。データエンジニアは、Spark クラスターや Spark プログラミングの知識がなくても、データフローを使用して、Spark 上で実行されるデータ変換グラフを作成、維持することができます。
変換を手動でコーディングしたい場合でも、ADF は、HDInsight Hadoop、Spark、Data Lake Analytics、Machine Learning などのコンピューティングサービス上で目的の変換を実行するための外部アクティビティをサポートしています。
https://docs.microsoft.com/ja-jp/azure/data-factory/introduction#transform-and-enrich

Code Flow

データファクトリには、1 つまたは複数のパイプラインを設定できます。パイプラインは、1 つの作業単位を実行するための複数のアクティビティから成る論理的なグループです。パイプライン内のアクティビティがまとまって 1 つのタスクを実行します。たとえば、パイプラインに Azure BLOB からデータを取り込むアクティビティのグループを含め、HDInsight クラスターで Hive クエリを実行してデータをパーティション分割することができます。
パイプラインのメリットは、アクティビティを個別にではなく、セットとして管理できることです。パイプライン内のアクティビティは、連鎖して順次処理することも、独立して並行処理することもできます。
https://docs.microsoft.com/ja-jp/azure/data-factory/introduction#pipeline

Scheduling

パイプライン実行は、パイプラインを実行するインスタンスです。パイプライン実行は、通常、パイプラインで定義されたパラメーターに引数を渡してインスタンス化されます。引数は、手動で渡すか、トリガー定義内で渡すことができます。
https://docs.microsoft.com/ja-jp/azure/data-factory/introduction#triggers

Monitor

データ統合パイプラインを正常に構築してデプロイし、変換したデータからビジネス価値を生み出せるようになったなら、スケジュール化したアクティビティとパイプラインを監視して、成功率と失敗率を確認することができます。 Azure Data Factory には、Azure Monitor、API、PowerShell、Azure Monitor ログ、Azure portal の正常性パネルを利用してパイプラインを監視する、ビルトインサポートが用意されています。
https://docs.microsoft.com/ja-jp/azure/data-factory/introduction#monitor

Azure Data Factoryの実行環境

Azure Data Factoryには３つの実行環境（統合ランタイム/Integration Runtime : IR）が用意されています。

https://docs.microsoft.com/ja-jp/azure/data-factory/concepts-integration-runtime

Azure IR
Self-Hosted IR
Azure SSIS IR

Azure IRはフルマネージドなので、スケーリングやデータの冗長性などはAzureがManageしてくれるので便利ですが、オンプレミスのデータ操作が必要な場合など、用途によってはSelf-Hosted, Azure SSIS IRなどを検討する必要があります。

Azure Data Factoryの価格

最新の価格については以下から確認できます。

https://azure.microsoft.com/ja-jp/pricing/details/data-factory/data-pipeline/

以下に基づいて算出されるとあります。

パイプラインのオーケストレーションと実行
データフローの実行とデバッグ
Data Factory の操作 (パイプラインの作成やパイプラインの監視など) の数。

料金計算シミュレーションツールから実際の使用量に合わせた見積もりができます。

https://azure.microsoft.com/ja-jp/pricing/calculator/

Azure Data Factoryの導入事例

ここからMicrosoft公式の導入事例を確認できます。

https://customers.microsoft.com/ja-jp/search?sq=%22Azure%20Data%20Factory%22&ff=&p=0&so=story_publish_date%20desc

Azure Data Factoryを組み込んだアーキテクチャ例

こちらにアーキテクチャの照会がありますので、大変参考にできると思います。

https://docs.microsoft.com/ja-jp/azure/architecture/browse/?terms=data%20factory

いくつか見てみます。

パターン１：自動化されたエンタープライズ BI

https://docs.microsoft.com/ja-jp/azure/architecture/reference-architectures/data/enterprise-bi-adf

Data FactoryでETLをかけたデータは、分析やBIでの可視化が目的なので、Azure SQL DatabaseなどではなくSyanapse Analyticsに取り込んでいる。

パターン２：ハイブリッドETL

https://docs.microsoft.com/ja-jp/azure/architecture/example-scenario/data/hybrid-etl-with-adf

オンプレで既にSSISを動かしていて、それをなるべく変更することなくデータのクラウド移行を実現したい場合に有効なアーキテクチャ。

実際に使ってみた

それでは、実際の使用感についても確認しておきたいと思います。

Azure Data Factoryリソースの作成

リソースの作成が完了したら、概要ページからData Factory Studioを起動します。

こちらがData Factory StudioのUI。SynapseやPurviewなどと似た感じのUIになっています。ここでパイプラインなどを構築していくことになります。

データソースとの連携

次にデータソースとの連携を構成します。ここで連携を構成したリソースは、後程パイプライン構築の中で自由に使うことができるようになります。

さまざまなデータソースと連携することができます。

パイプラインを作成する

続いてパイプラインの作成です。UIはこんな感じで、ドラッグアンドドロップによる直感的な構築ができます。

下の例は、①Azure SQL DatabaseからAzure Data Lake Storage Gen2にCSVを出力（データコピーのステップ）した後、②そのデータと別のデータを使ってごそごそと加工を施して最終的にAzure Synapse Analytics上のデータベースにデータを格納する（データフローのステップ）パイプラインの例です。