138-AWS SAP AWS 「理論・実践・一問道場」クラウドへデータ転送

type

status

date

slug

summary

理論

SAN（Storage Area Network）とは、複数のサーバーとストレージデバイス（例：ハードディスク、テープライブラリなど）を接続する専用の高速ネットワークのことです。SANは、ストレージリソースをネットワーク越しにサーバーに提供するため、各サーバーは直接接続されたローカルディスクを使用するような感覚で、リモートストレージを利用できます。

SANの主な特徴は次の通りです：

高速なデータ転送：SANは、通常、Fibre ChannelやiSCSIなどの高速プロトコルを使用してデータを転送します。

拡張性：複数のサーバーが共有するストレージリソースを提供するため、大規模なシステムで効率的に利用できます。

データ管理の効率化：ストレージを集中管理できるため、バックアップやリカバリ、データのスナップショットなどの管理が効率的に行えます。

SANは、特に大規模なデータセンターやストレージを大量に扱う環境（例えば、ビッグデータ解析やデータベース）で使用されることが多いです。

1. データ転送とオンプレミスからのクラウド移行

AWS DataSync: AWS DataSyncは、オンプレミスのデータセンターやネットワークアタッチドストレージ（NAS）からAWSへのデータ転送を効率化するサービスです。高速で安全な転送を可能にし、大量のデータをAWSにシームレスに移行する際に役立ちます。DataSyncは、バッチ処理や定期的なデータ移行を簡単に自動化できるため、特に大容量のデータ転送が必要な場合に効果的です。

AWS Snowball: AWS Snowballは、データセンターからクラウドへの大量のデータ転送を物理的にサポートするサービスです。特に大容量のデータ（数百TB単位）を移行する際に有効です。ただし、Snowballはデータ転送後の処理の自動化に関してはLambdaなどとの連携が必要です。

AWS Storage Gateway: Storage Gatewayは、オンプレミスのストレージをクラウドに接続するためのサービスです。ファイルゲートウェイ、テープゲートウェイ、ボリュームゲートウェイといった異なるゲートウェイタイプを使い分けることで、データ転送だけでなく、バックアップやアーカイブの管理も行えます。

2. コンテナ技術とスケーラブルなデータ処理

Amazon Elastic Container Registry (Amazon ECR): Dockerイメージを格納するための完全マネージド型のコンテナレジストリサービスです。これを使用することで、DockerコンテナをAWS上で効率的に管理し、異なるサービスで実行できます。Genomicsデータの処理には、大規模で計算負荷が高いため、コンテナ技術はスケーラブルなリソース提供に有効です。

AWS Batch: AWS Batchは、バッチ処理をスケーラブルに実行するためのサービスです。大量のデータを並列で処理するために、コンテナ化されたジョブを効率的に実行できます。これは、遺伝子解析や他のバイオインフォマティクスのように大量の計算資源を必要とするワークロードに最適です。

Amazon EC2 Auto Scaling: 自動的にEC2インスタンスの数をスケールアップ・スケールダウンする機能で、需要に応じてコンピューティングリソースを柔軟に調整できます。これにより、特定のワークロードのリソース不足を防ぎ、処理能力を確保します。

3. イベント駆動型アーキテクチャとAWS Lambda

AWS Lambda: AWS Lambdaはサーバーレスコンピューティングサービスで、イベント駆動型の処理を実現できます。S3のオブジェクトがアップロードされた際にトリガーを設定し、Lambda関数を呼び出してデータ処理を開始することが可能です。しかし、大きなデータ処理や計算には向かないため、Lambdaは主に軽量な処理に使用します。

Amazon S3 イベント: Amazon S3はデータストレージサービスで、オブジェクトがアップロードされた際にイベントをトリガーできます。このイベントにより、LambdaやStep Functions、Batchなどの他のAWSサービスを呼び出すことができます。これにより、データ転送後の処理を自動化できます。

実践

略

一問道場

質問 #138

トピック 1

あるライフサイエンス企業は、オンプレミスのデータセンターでデータ分析ワークフローを管理するために、オープンソースツールとDockerコンテナを組み合わせて使用しています。シーケンシングデータはローカルのストレージエリアネットワーク（SAN）に生成・保存され、その後データが処理されます。研究開発チームはキャパシティの問題に直面しており、ワークロードの需要に基づいてスケーラブルな新しい遺伝子解析プラットフォームをAWSに再構築し、ターンアラウンドタイムを数週間から数日へと短縮することに決定しました。同社は高速なAWS Direct Connect接続を利用しています。シーケンサーは各ゲノムについて約200GBのデータを生成し、個々のジョブは理想的な計算リソースでデータを処理するのに数時間かかります。最終的な結果はAmazon S3に保存されます。同社は毎日10〜15件のジョブリクエストを予想しています。

どのソリューションがこれらの要件を満たしますか？

A. AWS Snowball Edgeデバイスを定期的に使用して、シーケンシングデータをAWSに転送します。AWSがSnowball Edgeデバイスを受け取ってデータがAmazon S3にロードされると、S3イベントを使用してAWS Lambda関数をトリガーし、データを処理します。

B. AWS Data Pipelineを使用して、シーケンシングデータをAmazon S3に転送します。S3イベントを使用して、Amazon EC2 Auto Scalingグループをトリガーし、カスタムAMIのEC2インスタンスを起動してDockerコンテナを実行し、データを処理します。

C. AWS DataSyncを使用して、シーケンシングデータをAmazon S3に転送します。S3イベントを使用して、AWS Lambda関数がAWS Step Functionsワークフローを開始します。DockerイメージはAmazon Elastic Container Registry（Amazon ECR）に保存し、AWS Batchをトリガーしてコンテナを実行し、シーケンシングデータを処理します。

D. AWS Storage Gatewayのファイルゲートウェイを使用して、シーケンシングデータをAmazon S3に転送します。S3イベントを使用して、AWS Batchジョブをトリガーし、Amazon EC2インスタンス上でDockerコンテナを実行してデータを処理します。

解説

この問題では、ライフサイエンス企業がゲノム解析のワークフローをオンプレミスからAWSに移行し、スケーラブルで効率的なデータ処理を実現したいという要件です。特に、200GBのデータを毎日処理する必要があり、計算リソースのスケーリングが重要です。また、データは最終的にAmazon S3に保存されます。

各選択肢の詳細とその適切性を見ていきましょう。

A: AWS Snowball Edge と Lambda を使用する

AWS Snowball Edge は、大量のデータをオンプレミスからAWSに転送するための物理デバイスです。しかし、データ転送後にLambda関数を使って処理を始めるという流れは、200GBという大きなデータサイズには適していません。Lambdaは短期間での処理を得意としますが、非常に大きなデータを扱うのには不向きです。したがって、この方法は最適ではありません。

B: AWS Data Pipeline と EC2 Auto Scaling を使用する

AWS Data Pipeline はデータ転送とデータフローの自動化に使用されますが、EC2 Auto Scalingを使用して、Dockerコンテナを起動する方法は一見適切に見えます。これは、大規模なデータ処理のスケーリングに適しており、ユーザーの要求に応じて動的にスケールすることができます。このアプローチは、問題の要件に合致する可能性が高いです。

C: AWS DataSync と AWS Step Functions を使用する

AWS DataSync はオンプレミスのデータセンターからAWSにデータを効率的に転送できるサービスです。この方法では、転送後にAWS LambdaがStep Functionsワークフローを開始し、その後、AWS Batchを使ってデータ処理を行います。AWS Batchはコンテナ化されたジョブをスケーラブルに処理できるため、大規模なデータ処理に非常に適しています。さらに、AWS ECRに格納されたDockerコンテナを使って解析を行うため、このアプローチは200GBのデータ処理に適しています。

D: AWS Storage Gateway と AWS Batch を使用する

AWS Storage Gateway は、オンプレミスのストレージとAWS間のシームレスな統合を提供するサービスですが、AWS Batchを使用する点ではCと似ています。データ転送後、AWS Batchを使ってEC2インスタンス上でコンテナ処理を実行します。AWS Storage Gatewayは、特にSANやNASと統合する際に役立ちますが、AWSに移行するためには他の方法（例えばAWS DataSync）の方が効率的です。

結論

最も適切な解決策は、Cの方法です。AWS DataSyncを使ってデータを迅速に転送し、その後、AWS Step FunctionsとAWS Batchを組み合わせて、Dockerコンテナを使って大規模なデータ処理を行う方法が、スケーラビリティと効率を兼ね備えています。この方法は、要件に最も合致しており、処理時間を短縮することができます。