BigLakeプレビュー版のリリース
Google Cloudは2022年4月7日、Google Data Cloud Summit開催に合わせてBigLakeプレビュー版を発表しました。BigLakeとは、データレイクとデータウェアハウスを統合したストレージエンジンです。ストレージ形式やシステムを意識せずにデータ分析を行うことで、増大するデータ分析や管理の障壁を取り除きます。 【参考】:BigLake: データレイクとデータ ウェアハウスを複数のクラウド間で統合 【参考】:Google Data Cloud Summit 【参考】:Top 5 Takeaways from Data Cloud Summit ‘22
Google Cloudについて
Google Cloudは、Googleが展開するクラウドサービスで3大クラウド事業者の1つです。150以上に及ぶ製品をサービス提供しています。コンピューティング・ストレージ・データベース・データ分析や、AIと機械学習・ネットワーキング等の多様なサービスからなります。 【参考】:Google Cloud
プレビュー版の取扱い
プレビュー版では、製品およびその機能をお客様が評価するためにサービスが提供されます。機能はまだ完全に実装されていないので、サポートやサービスレベルの保証はありません。および6カ月程度のプレビュー期間を経て正式リリース(GA)に移行します。
BigLake概要
BigLakeは、統合ストレージ エンジンとしてデータウェアハウスとデータレイクのデータアクセスを簡素化するソリューションです。Google Cloudのみならず、マルチクラウドストレージに対応します。Google Cloud Storageのほか、Amazon S3・Azure Data Lake Storage Gen2のオブジェクトストアがサポートされています。 【参考】:Google Cloud BigLake プレビュー
クエリアクセスにはBigLakeテーブルを用います。このテーブルは、マルチクラウド・オープンデータ形式へのアクセスを行うために提供されます。 【参考】:Google Cloud BigLake テーブルの概要
BigLakeでできること
BigLakeはBigQueryを拡張し、既存のインフラストラクチャを有効活用するものです。マルチクラウドデータレイクや CSV・JSONのほか、ビッグデータで用いる列指向オープンデータ形式のParquet・ORCなどに対応し、行レベル・列レベルセキュリティのようなきめ細かいセキュリティ制御を行うことができます。
BigLakeコネクタによりGoogle CloudをはじめとしてSpark・Presto・Trino・Tensorflowなどに接続できます。任意の分析エンジンを用い、ポリシーを制御することでアクセス一貫性を維持します。
データレイクとは
データレイクとは、データのリポジトリ(貯蔵庫)を指します。リレーショナルデータベース(RDB)で用いる構造化データのほか、CSVやXMLファイル等が保存管理されます。さらに日常的に用いるメールやPDF等の非構造データを含めて一元管理します。増大するデータの可視化・分析を集約し、データ活用を促進するものです。
データレイクはデータ形式に依存しないため、非定型の分析においても活用が可能です。
データウェアハウスとは
データウェアハウスとは、データの倉庫を意味し、時系列に発生する膨大なデータを蓄積するために利用されます。この蓄積データを分析し、企業の意思決定に活用します。ビジネスインテリジェンス(BI)や意思決定システム(DSS)に利用されるデータを蓄積します。
主に構造化データが蓄積されているため、決められた手順で高速にデータ分析を行います。
BigQueryとは
BigQueryとは、Google Cloudが提供するフルマネージドのサーバーレスのデータウェアハウスです。スケーラブルな分散型分析エンジンにより、数ペタバイトのデータであっても高速にクエリを完了できます。機械学習・地理空間分析・ビジネスインテリジェンスなどの組み込み機能が搭載されています。データ分析や意思決定に利用されます。 【参考】:Google Cloud BigQuery とは
BigQuery Omniとは
BigQuery Omniとは、Google CloudによるAmazon S3・Azure Data Lake Storage Gen2オブジェクトストア向けBigQuery分析サービスを指します。データを一か所に格納することなく、マルチクラウド上でデータ分析を行うことができます。 【参考】:Google Cloud BigQuery Omniとは
本サービスにおいてもBigQuery同様にサーバーレスで、AWS IAMのロールやAzure Active Directoryのプリンシパル権限を用いてアクセスします。データ転送を伴わずに実行できるので、高速・低コストのデータ分析が可能です。
BigLakeの料金体系
BigLakeは、BigLakeテーブルに対するクエリに基づき料金が発生します。ベースの料金はBigQueryの料金で、自社Google Cloud Storageに定義されたテーブルへのクエリにより発生します。他のクラウド上にある、AWS S3あるいはAzure Data Lake Storage Gen2を用いたテーブルへのクエリは、BigQuery Omniの料金が発生します。
BigLakeコネクタ利用にあたっては、データ取り込み料金が発生します。 【参考】:Google Cloud BigLake 料金
BigLakeの利用方法
BigLakeを利用するにあたり、要件にしたがってGoogle Cloudプロジェクトを作成し、BigLakeテーブルを定義します。テーブル作成が完了したら、クエリ実行が可能となります。ユーザへのアクセス制御のために、データレイク管理者・データウェアハウス管理者・データアナリストのロールに基づくIAM権限の付与が必要となります。
BigLakeの利用設定
BigLakeの利用設定は、以下の項目を順次実施します。 【参考】:Google Cloud BigLake テーブルを作成して管理する
・接続リソースの作成 最初にBigQuery Connection APIのページで、外部データソースを含むプロジェクトを選択し、有効化を行います。接続リソースを作成するには、Google Cloudのコンソールで「+ データを追加」「外部データソース」をクリック後、「接続タイプ」リストから「Cloud リソース(BigLake テーブル用)」を選択します。CLIにより、接続リソースを作成することも可能です。
・Cloud Storageデータレイクへのアクセス設定 BigQueryがCloud Storageファイルにアクセスできるよう、読み取り専用アクセス権を設定します。
Google Cloudのコンソールで「IAM と管理」から「+ Add」をクリックします。表示される「Add principals and roles」の「新しいプリンシパル」欄にサービス アカウント IDを入力し、「ロールを選択」「Cloud Storage」から「ストレージ オブジェクト閲覧者」を選択し「保存」します。
・BigLakeテーブルの作成 あらかじめ用意したデータセットを用い、Google Cloudのコンソールで「エクスプローラ」「テーブルを作成」から「ソース」「Google Cloud Storage」を選択します。
ここで「ソース」は「Google Cloud Storage」、「送信先」はテーブルタイプを 「外部テーブル」を設定します。ナビゲーションメニューより「+ データを追加」「外部データソース」を選択し、「接続タイプ」「Cloud リソース(BigLake テーブル用)」を選択します。
CLIからは、@connectionデコレータを用いて接続を指定します。SQLでは、CREATE EXTERNAL TABLEにWITH CONNECTION句を用いてテーブルを作成します。
・既存のテーブルのアップグレード 既存の外部テーブルをBigLakeテーブルにアップグレードすることもできます。”bq mkdef”コマンドで、新しく外部テーブル定義を定義し、”bq update”コマンドで、生成したテーブル定義を用いてテーブルをアップグレードします。
・アクセス制御ポリシーの設定 アクセス制御ポリシーは、Google Cloudのコンソールから「Data Catalog」より「ポリシータグの分類」を作成し、行レベルあるいは列レベルセキュリティに設定します。 【参考】:BigQuery の列レベルのセキュリティでアクセスを制限する 【参考】:BigQuery 行レベルのセキュリティを使用する
BigLakeテーブルに対するクエリ実行
BigLakeテーブルに対するクエリ実行は、BigQueryクライアントから行います。CLIでは、”bg query”を用います。標準SQLあるいはレガシーSQLによりクエリを実行します。Apache Spark・Trino・Apache Hive等からのテーブルアクセスは、BigQuery 接続コネクタを使用しテーブルアクセスすることができます。
データ活用に期待が高まります
2022年4月7日に開催された、Google Data Cloud Summitではデータ活用に関する多くの発表がありました。企業のデータ活用が進み、より複雑な意思決定での利用が求められます。同時期に発足したData Cloud Allianceでは、パートナーアライアンスによる強固な協力体制が期待できます。
クラウドの垣根を取り払うデータ活用は、今後も進むと予想されます。サービス利用のチャンスがありましたら先行して試してみることをおすすめします。
編集部オススメコンテンツ
アンドエンジニアへの取材依頼、情報提供などはこちらから