データレイクとデータウェアハウスの違いとは
データベースの利用に際して、データレイクとデータウェアハウスの2つの概念に直面し、両者の違いが見えなくなりがちです。データベースを活用する上では、データレイクとデータウェアハウスは何が共通し、何が違うのかを理解しておくことが重要です。
データレイクは倉庫であり、データウェアハウスは物流センター
データレイクには加工されていない生のデータから、非構造化データ、構造化データまでありとあらゆるデータを格納できることから、倉庫に例えることができます。
一方、データウェアハウスはビジネスで活用できるように加工され、構造化されたデータが集められており、物流センターに例えられます。
データレイクは安価に大量の生データの分析が可能
データレイクには特に加工されていない生データが集められており、構造化などの加工が不要なことから、安価に構築することが可能ですが、誰でも分析できる形式になっていないため、その分析にはデータサイエンティストなどの専門家の手を借りる必要があります。
■データレイクの例 - GCP(Google Cloud Platform) データレイクの例としてはGCP(Google Cloud Platform)が挙げられます。GCPでは、自動スケーリング対応のサービスを利用して、容易にデータレイクを構築できます。
【参考】:クラウド コンピューティング サービス | Google Cloud
■データレイクとデータベースの違い データベース(Database)とは、企業や組織などで定型業務を効率よく行うために作成されたデータの集まりです。企業や組織の基幹システムはデータベースで管理され、基幹系データベースと呼ばれています。
日常業務では主に処理時点での数値の参照や更新などが行われ、データベースは定型業務に必要な情報をもったデータを、直ちに取り出せるよう管理されています。
データレイク(Data Lake)は、様々なデータベースをそのままの状態で保管できる倉庫です。一方、データウェアハウスで保管可能なデータ構造化されている必要があり、画像形式や音声形式のデータ、IoTセンサーのデータなど、非構造化・半構造化のデータをそのまま保管できません。
このような非構造化データをデータレイクに保管し、構造化を行った後にデータウェアハウスに保管するという役割分担になっています。
データウェアハウスはデータをビジネスに役立てられる
データウェアハウスはビジネスなどで意思決定に必要なデータを構造化して格納しており、データウェアハウスには、次に挙げる4つの特性があります。
1.サブジェクト指向 データ主導のデータモデル化のこと
2.データの統合 データの名称やコード体系を統合すること
3.時系列化 過去データの参照や分析が容易に行えるよう時間順に揃えること
4.不変性 正しく蓄積されたデータは不変であり、更新されることはない
■データウェアハウスの例 - AWS(Amazon Web Services) データウェアハウスの例としては、AWSの「Amazon Redshift」を挙げることができます。Amazon Redshiftでは、数回のクリックでクラウドデータウェアハウジングが行われ、ビジネス担当者が容易にデータ分析を行うことができます。
【参考】:Amazon Redshift(高速、シンプル、費用対効果の高いデータウェアハウス)| AWS
■データウェアハウスとデータベースの違い データベース上に存在する現時点のデータでは、ビジネス上の意思決定に必要なデータが不足しています。ビジネスで正確な意思決定を行うには、過去データの参照や、外部データの入手が必要です。
このように、ビジネスの意思決定に必要となる様々なデータを保管する物流センターとしての機能がデータウェアハウスです。
データレイクとデータウェアハウスをどう活用するのか
データレイクとデータウェアハウスの違いについて理解できたところで、実際にそれぞれをどのように活用するのかについて掘り下げていきましょう。
それぞれどのような状況で効力を発揮するのか
様々な形式のデータを既に取得しているものの、それらは非構造化データであるため、構造化にはコストが掛かります。現状のままでデータを活用したい、あるいはデータ分析を行える人材や部署が社内にあるというケースではデータレイクは効力を発揮します。
一方、データベースにはデータが蓄積されていますが、ビジネスでの意思決定にそれらが活用されておらず、統合的な分析基盤を必要とするケースではデータウェアハウスの構築が効力を発揮します。
データレイクとデータウェアハウスでデータ分析基盤を構築するメリット
データレイクとデータウェアハウスはそれぞれ役割が異なりますが、それぞれのデータの流れをパイプライン化し、BIツール(ビジネスデータ分析ツール)を用いることで、統合的なデータの分析基盤を構築することが可能です。
これにより、部署ごとにまちまちの分析を行ったり、俗人的な分析に陥ったりするのを防げます。
データレイクとデータウェアハウスを扱う上での注意点
データレイクとデータウェアハウスを効率的に取り扱うためには、いくつかの注意点があります。ここでは、その注意点を中心に紹介をしていきます。
データレイクは専門家が扱う領域
データレイクには構造化されていない生のデータがそのまま存在しており、それらを扱う際には構造化を行ったり、データの統合を行ったりする作業が必要です。これらをビジネス担当者が行うのには限界があるため、専門家の介入が不可欠です。
データウェアハウスはコストが増大しがち
データウェアハウスはデータレイクと比べて遥かに大量のデータを格納することから、ストレージのコストが増大します。また、データの構造化が必要であり、構築にはコストが掛かります。この二重のコスト増に対する備えと理解が前提になります。
データレイクとデータウェアハウス導入のポイント
データレイクやデータウェアハウスを実際に導入する上で、重要なポイントについて整理しておきましょう。以下の3つについて、考慮しておくことが求められます。
▪ゴールを定め、ゴールから逆に必要なプロダクトを選択する ▪互換性と柔軟性を考慮する ▪スケジュール的に難しい場合は専門家の手を借りる
以上3つのポイントについて、以下に説明していきます。
まずはゴールを定めてから必要なプロダクトを選択する
誰が何のために分析をするのかゴールを明確にし、そのために必要な機械学習やAIのプロダクトを選択、選定することが必要です。
互換性と柔軟性を考慮する
利用するツールは、データレイクとデータウェアハウスと両方に互換性があるものを選択すると、ストレスなく導入を進められます。例えば、米国Snowflake社が提供するSaaS(Software as a Service)型のデータプラットフォームの「Snowflake」が挙げられます。
Snowflakeはデータレイク機能とデータウェアハウス機能の両方を兼ね備えており、さらにSnowflakeと接続可能なデータベースやBIツールがあるため無駄がありません。
専門家の手を借りる
データレイクの構築からデータウェアハウスの構築に至るまで時間が掛かりますが、少しでも早く構築することでデータ分析基盤を確立し、ビジネス利用によっていち早く成果を上げるには専門家の手を借りるのが早道です。
データレイクとデータウェアハウスの実際の導入に向けて
ここまでデータレイクとデータウェアハウスに関する比較を行い、それぞれの特徴から導入に至るまでの手順や注意すべき点について説明しました。データレイクで何ができるのか、データウェアハウスを構築することで何を実現するのかについて分かりました。
データ分析基盤を構築する際には、次の点を意識し、コストパフォーマンスやデータガバナンスなどについて様々な視点から考察し、必要な製品やツールの選定、実際の導入検討が求められます。
▪どのようなデータを分析したいのか? ▪データを分析して何を実現したいのか? ▪どのようなサービスに活用したいのか?
実際にデータベースの作成に携わるエンジニアの皆さんは、それらの更なる活用に向けて、データレイクやデータウェアハウスの構築、データ活用基盤の確立に向け、この記事を役立てて頂けると幸いです。
【参考】:令和3年度 経済産業省 デジタルプラットフォーム構築事業報告書
編集部オススメコンテンツ
アンドエンジニアへの取材依頼、情報提供などはこちらから