AWSのAmazon EMRとは？特徴や使い方、料金などを解説！

サービス・ツール・技術

クラウド

AWS

アンドエンジニア編集部

2023.10.07

この記事でわかること

Amazon EMRとは、Amazon Web Services社が提供するビッグデータの分析が可能なAWSサービス群の1つです

Apache Spark、Apache Hive、Prestoなどのオープンソースフレームワークを使用したデータ処理やインタラクティブ分析、機械学習などを実行できます

Amazon EMRの料金は、予測がしやすくシンプルで、1秒ごとに課金され、最小課金時間は1分です

Facebook

LINE

Hatena

AWSのAmazon EMRとは？

現在、多くのインターネットサービスや人々が所有する様々なデバイスから、日々膨大なデジタルデータが生成されています。多くの企業では、そうした「ビッグデータ」から新たな価値を見出し、活用することに注力するようになりました。

ビッグデータを活用する上では、より素早く大量のデータを解析する必要があります。

こうしたビジネスに貢献できる重要な役割を果たすエンジニアになるためには、ビッグデータを分析するスキルも求められるようになってきました。

ビッグデータ解析サービスとしては、Amazon Web Services（AWS）社が提供する「Amazon EMR」（AWS EMR）が有名です。「Apache Hadoop」や「Apache Spark」などのオープンソースツールを利用した、ビッグデータの分析が可能なAWSのサービス群の1つです。

今回は、Amazon EMRの特徴や使い方、メリット・デメリット、活用事例などを解説していきます。

AWSとは？メリットや何がすごいのか、初心者にもわかりやすく解説

そもそもAmazon EMRとは何か

Amazon EMRは、AWSが提供するビッグデータ環境とアプリケーションの構築、運用を簡略化できるクラウドサービスです。Apache Spark、Apache Hive、Prestoなどのオープンソースフレームワークを使用したデータ処理やインタラクティブ分析、機械学習などを実行できるビッグデータ基盤サービスです。

Amazon EMRは一言で表すと「マネージドHadoopフレームワーク」とも言われています。Hadoopとは、膨大なデータを処理するアプリケーションの実行をハードウェアのクラスタ上で実施するオープンソースのソフトウェアです。

Hadoopのコンピューティングモデルは、データを最大数千台のコンピューターで分散並列処理することで、必要に応じてノード（コンピューター）を追加して順次処理能力を拡大（スケールアウト）させることができます。

また、EMRとは「Elastic MapReduce」の略です。2009年4月に発表されたAmazon EMRは、Googleのフレームワークである「MapReduce」をベースに実装されています。

MapReduceは、Googleが開発した、大規模なデータを効率的に分散処理するためのフレームワークとして、処理の計算工程を必要な計算内容を実装した「Map」と「Reduce」の2ステップで構成されています。

【参考】：Amazon EMR公式サイト

Amazon EMRでは何ができる？

Amazon EMRの主な利用用途としては、「機械学習ツール」「大規模なデータ変換」「リアルタイムストリーミング」の活用が挙げられます。

Amazon EMRには「Apache Spark MLlib」や「Apache MXNet」などの機械学習ツールが組み込まれているため、それらのツールを簡単な設定で利用することが可能です。また、分散処理基盤を活用したビッグデータの高速分析ができるため、スケーラブルな機械学習のアルゴリズムを実行することも可能です。

さらに、AWSの統合開発環境である「Amazon SageMaker Studio」に接続すると、分析やレポート作成、モデルトレーニングなどに活用できます。

また、Amazon EMRではビッグデータに対するデータ抽出や変換・読み込みなどのワークロードを分散処理基盤を活用して効率的に実施できます。

さらに、リアルタイムストリーミングという観点では、Amazon EMRと「Apache Flink」「Apache Spark Streaming」などを組み合わせると、様々なデータソースからストリーミングされるイベントをリアルタイムに分析できます。

高い可用性と耐障害性を備えた長期間の実行に対応するストリーミングデータのパイプラインをAmazon EMRに構築できます。

AWSは機械学習でも注目度が上昇中！活用例と学習方法を解説

Amazon EMRの特徴的な仕組み

Amazon EMRを使うことで、労力や時間をかけることなく、多大な量のデータを処理できるため、企業や開発者、研究者などに活用されています。

Amazon EMRの特徴としては、「分散アプリケーション」「分散処理基盤」である点が挙げられます。

仕組み（1）：分散アプリケーション

まず、Amazon EMRでは膨大な量のデータの分散処理を効率的に実施するHadoopクラスター上で「分散アプリケーション機能」を利用できます。この機能を活用すると、対話的に利用したり、登録した手順通りに連続的に実行するバッチジョブを利用したりすることも可能です。

実行中のクラスターの再設定も必要に応じて実装できることに加え、再起動をすることなく適切な処理を自動実行できる点も特徴の1つです。

仕組み（2）：分散処理基盤

次に、Amazon EMRの特徴として「1つのデータ処理を分散実行することで、処理を高速化できる「分散処理基盤」という点が挙げられます。

Amazon EMRでは、基盤となるサーバや通信に必要となる回線の運用、クラスターの設定や調整、構成などのタスクをAmazon EMRに一任できます。そうした作業を簡素化することで、膨大な量のデータを素早く処理できるようになります。

【参考】：AWSのAmazon EMRの特徴

Amazon EMRの利用方法

続いて、Amazon EMRの使い方を解説していきます。

Amazon EMRを初めて利用する場合、まずはAWSアカウントにサインアップします。サインアップした後は、管理ユーザーを作成します。その後、安全なチャネル経由でクラスター内のノードを認証して接続するため、クラスターを起動する前にSSH用のAmazon EC2キーペアを作成します。

【参考】：Amazon公式サイト「Amazon EMR のセットアップ」

ステップ1：アプリケーションを開発する

次に、実際の使い方の例を紹介します。Amazon EMRを利用開始する際は、まず「データ処理アプリケーション」を開発する必要があります。

Amazon EMRでは、Java、SQLに類似した言語「Hive」、データ処理言語「Pig」、Cascading、Ruby、Perl、Python、R、PHP、C++、Node.jsなどでアプリケーションを開発できます。Amazon EMRには、コードサンプルとチュートリアルが用意されているので、それらを活用するとすぐに使用が開始できます。

Rubyとは何か？Rubyの特徴やできることについて解説

Node.jsとは？JavaScriptとの違いや使い所を解説

R言語とは？特徴やできること、Pythonとの違いを解説！

ステップ2：Amazon S3にアップロードする

続いて「アプリケーションとデータをAmazon S3にアップロード」します。

大量のデータをアップロードする場合は、物理ストレージデバイスを使用したデータのアップロードできる「AWS Import/Export Snowball」、または、データセンターから AWS への専用ネットワーク接続を確立する「AWS Direct Connect」などを利用することもできます。

AWSのサービスであるAmazon S3とは？その特徴と利用方法を解説！

ステップ3：Amazon S3にアップロードする

「AWS マネジメントコンソール」「AWS CLI」「SDK」、またはAPIを使用して、クラスターにプロビジョニングする「Amazon EC2 インスタンス」の数、使用する「インスタンスタイプ」、Apache Spark、Apache Hive、Apache HBase、Prestoなど「インストールするアプリケーション」、「アプリケーションとデータの場所」などを指定します。

起動したクラスタは、マネジメントコンソールやコマンドラインインターフェイス、SDK、またはAPIを使用して、クラスタの健全性と進行状況をモニタリングして確認できます。処理するデータの量に応じて、クラスタの能力の追加と削除をいつでも実施可能です。

AWSマネジメントコンソールとは？機能やCLIとの違いを解説

AWS CLIの使い方は？インストールから使用方法まで解説！

ステップ4：出力結果を取得する

実行したクラスタの出力結果は、クラスタの Amazon S3、または「HDFS」から取得できます。また、「Amazon QuickSight」「Tableau」や「MicroStrategy」などのツールを使用してデータを視覚化することも可能です。

【参考】：Amazon公式サイト「Amazon EMR の開始方法」

Amazon EMRの料金体系

Amazon EMRの料金は、予測がしやすくシンプルです。1秒ごとに課金され、最小課金時間は1分です。たとえば、10ノードのクラスターを10時間稼働した場合と、100ノードのクラスターを1時間稼働した場合の料金は同じです。

また、Amazon EMRの料金は、EMRアプリケーションのデプロイ方法によって異なります。EMRアプリケーションは、Amazon EC2インスタンスを使用する「EMR クラスター」「AWS Outposts」、「EMR Serverless」を使用する「Amazon Elastic Kubernetes Service」で実行可能です。

EC2、または「AWS Fargate」のいずれかを使用して「Amazon EKS on AWS」を実行することも可能です。

【参考】：Amazon公式サイト「Amazon EMR の料金」

AWS Amazon EC2のインスタンスとは？インスタンスの起動・確認方法を合わせて解説！