パッケージ com.amazonaws.services.datapipeline

DataPipelineにアクセスするための同期/非同期クライアントクラス。

参照先: 説明

パッケージcom.amazonaws.services.datapipelineの説明

DataPipelineにアクセスするための同期/非同期クライアントクラス。

この資料は『AWS Data Pipeline API Reference』です。AWS Data PipelineのAPIについて解説し、例を示します。

AWS Data Pipelineは、パイプラインと呼ばれるデータ駆動型ワークフローを設定、管理するためのウェブサービスです。 スケジュールの詳細を処理し、データの依存関係を適切に維持することにより、アプリケーション側ではデータの処理に注力できるようにしています。

AWS Data PipelineのAPIは、大きく分けて2組の機能群があります。 ひとつは、ウェブサービスで扱うパイプラインの設定を行うアクション群です。 パイプラインを生成し、データ源、スケジュール、依存関係、データに適用する変換処理を定義できます。

もうひとつはタスクランナ型アプリケーションで用いるアクションで、 AWS Data PipelineのAPIを呼び出して、処理の準備が整った次のタスクを受け取ります。 タスクの実行ロジック (データを問い合わせる、データ分析を実行する、 ある形式から別の形式に変換するなど) は、タスクランナに組み込まれています。 タスクランナは、ウェブサービスに割り振られたタスクを実行し、 進捗状況を随時、ウェブサービスに報告します。 さらにタスク終了後、最終的な結果 (成功/失敗) を報告します。

AWS Data PipelineにはAWS Data Pipeline Task Runnerという、 オープンソースのタスクランナが実装されています。 これには、データベースに対する問い合わせ、 Amazon Elastic MapReduce (Amazon EMR) によるデータ分析など、 一般的なデータ管理のシナリオに沿った処理ロジックが組み込まれています。 これをそのままタスクランナとして使っても、独自の方法でデータを 管理するタスクランナを実装しても構いません。

AWS Data PipelineのAPIはSignature Version 4プロトコルに従って要求に署名します。 このプロトコルに基づき要求に署名を施す方法については、 『Signature Version 4 Signing Process』 を参照してください。 このリファレンスのコード例では、Signature Version 4に基づく要求パラメータをAuthParamsと表しています。