Kaggleとは
Kaggleとは、Google傘下の会社で予測モデリングを行う会社とそのサービスを指します。読み方は「カグル」です。Kaggleでは予測モデリングや分析手法のプラットフォーム運営を行いながら、研究者がデータを投稿してモデルの良し悪しを競争し、手法のブラッシュアップを図っています。 【参考】:kaggle
Kaggleのメリット
Kaggleでは入賞者に賞金やポイントを進呈することで、最も優れた分析手法やモデルを企業・団体・スポンサーが買い取ることができます。登録会員は800万人を超えており、最大のデータサイエンス向けCompetition(コンペ)サービスプラットフォームとして認知されています。 【参考】:Unique Kaggle Users
企業とデータサイエンティストとのマッチングがされるメリットがあるほか、自己学習のインプットとアウトプットが実現できる場としても有効です。
Kaggleのデメリット
Kaggleのデメリットですが、Kaggleの日本語情報は限定されているために、日本人には敷居が高く感じられることでしょう。そこで、ここではSIGNATEを紹介します。SIGNATEは、Kaggleの日本語版とも言われています。 【参考】:SIGNATE
SIGNATEのサイトは、Competition(コンペ)・Career(キャリアアップ)・Learning(スキルアップ)で構成されており、コンペ参加者数(のべ)は60,000人以上、コンペ投稿数490,000件以上、累計賞金額62,000,000円以上となっています。参加規模はKaggleにかないませんが、日本語のやり取りができるメリットがあります。
Kaggleのその他のデメリットとしてはラーニング用途に留まってしまい、学習インプットのみでアウトプットができない人が見られることです。自身の知識をアウトプットとして公開することは勇気がいることですが、Kaggleに限らず自身の成長のために活用する姿勢が求められます。
Kaggle入門情報
Kaggle入門情報として、Kaggle提供サービスの概要を説明します。Kaggleのサイトは以下の事業カテゴリーで構成されています。
・Competitions(コンペティション) いわゆるコンペで、Kaggleの目玉事業です。機械学習・データ分析のベストなアルゴリズムを競い合います。賞金が得られますので、優秀なアイデアが集約できるメリットがあります。 【参考】:Competitions
・Datasets(データセット) データサイエンスと機械学習のデータセットが共有されています。会員・コミュニティはデータを活用し、分析に役立てることができます。 【参考】:Datasets
・Kernels(コード) データサイエンスと機械学習のコードが集約されています。コードと分析方法が共有されていますので、データ分析にすぐ活用できます。 【参考】:Code
・Learn(学習) AI学習プラットフォームとして利用できます。16の各コースを無償利用し、修了認定を受けることができます。 【参考】:Courses
このように、機械学習・データ分析のラーニングから活用まで対応するプラットフォームとして活用できます。
コンペの種類は?
Competitions(コンペ)と言っても、Kaggleでは各種形式のコンペが提供されています。以下が主なコンペ形式です。
・Getting Started(入門編) 賞金やポイントはありませんが、入門チュートリアルとして利用されています。会員登録後の手始めとして参加する方が多いのではないでしょうか。
・Playground(遊び場) Getting Startedが攻略できたら、次のステップとして利用します。機械学習の比較的シンプルなタスクが提供されています。場合によっては少額の賞金がでることもあります。
・Featured(呼び物) Kaggleを代表するコンペのタイプです。難易度は高く、フルスケールの機械学習の課題が与えられます。
・Research(リサーチ) KaggleでFeaturedに並ぶコンペで、実験的なリサーチが対象です。通常Researchでは、賞金やポイントが得られることはありません。
上記の他にも以下のコンペ形式があります。
・Recruitment(リクルート) リクルート目的のコンペです。コンペ終了後にレジュメ(履歴書)をアップロードすることができます。入賞者にはジョブインタビューの機会が与えられることもあります。
・Annual(年次) 年次のコンペで、「the March Machine Learning Competition」と「Santa-themed optimization competition」が開催されています。
・Limited Participation(参加者限定) プライベートや招待制の参加者限定コンペです。KaggleのMasterやGrandmasterを対象とした「Master’s competitions」等が該当します。
Kaggleの賞金は?
Kaggleの賞金は難易度やスポンサーの懐具合で変動しますが、およそ25,000米ドルから100,000米ドルが提供されているとのことです。2022年2月水準で、およそ280万円から1,150万円ほどになります。難易度のわりに安いとみるか、名誉あることだとみるかはそれぞれの判断にお任せしますが、やる気が高まった方は挑戦する価値はあります。 【参考】:Kaggle General
現在実施中のコンペでは、「Feedback Prize - Evaluating Student Writing」が総額160,000米ドルが賞金提示されています。およそ1,840万円ほどです。実際の配分は等級で分配されますので、1等は40,000米ドル(およそ460万円)となります。過去にはミリオンドル越えの賞金がかけられたこともあります。 【参考】:Feedback Prize - Evaluating Student Writing
「勝てないなら意味ない」と言う人もいますが、コツコツ続けてメダルを勝ち取る方もいますので、意識を高めて継続する必要がありそうです。
Kaggleの始め方
Kaggleを始めるには無料会員登録(Register)を行います。公式サイトの右上「Register」をクリックし登録します。会員登録のアカウントはGoogleアカウントを用いるか、Eメールを使います。会員登録が完了したら、希望に応じて利用を始めましょう。 【参考】:Kaggle Register
Kaggleの使い方
Kaggleを使うには、ノートブック(Kaggle Notebook)を用います。アカウントにサインイン後に、左上の「+」ボタンをクリックし、「New Notebook」で作成します。RやPythonで利用するScriptを編集し、実行することができます。RMarkdownコードにも対応します。
Jupyter notebooksを利用するには、「Create Notebook」で「Notebook」を選択します。RとPythonに対応します。
データセットとは
Kaggleではおよそ50,000のデータセットと400,000のノートブックが公開されています。データセットとはデータサイエンスで用いるデータの集合体です。データサイエンス業務に必要とされるコードとデータが活用可能です。CSVやJSON・SQLite等のファイルフォーマットがサポートされています。
Kaggleのデータセットサイトには、以下のカテゴリーでデータセットが掲載されています。はやりや定番などが掲載されています。 【参考】:Datasets
・Trending Datasets(トレンドデータセット) 注目度の高いデータセットで、mRNAに関するもの・ジャーナリスト関連等が掲載されています。
・Popular Datasets(定番人気のデータセット) 定番人気で、ハリウッド市場データが掲載されています。
・Movies and TV Shows(映画やTV番組) 映画やTV番組に関するデータセットです。
・Clothing and Accessories(衣類とアクセサリー) ファッションやアクセサリー商品に関するデータセットです。
・Economics(経済) 企業情報に関するデータセットです。
・NLP(心理学) 心理学(神経言語プログラミング)に関するデータセットです。
・医療 Cancer(がん)や新型肺炎をテーマとするデータセットが多数掲載されています。
上記の他にも、「Computer Science(コンピュータ科学)」「Education(教育)」「Classification(分類)」「Computer Vision(コンピュータによる洞察)」「Data Visualization(データ可視化)」等の多様なデータセットが公開されています。
Kaggleのおすすめデータセット
Kaggleは約50,000のデータセットが登録されていますので、ある程度あたりをつけて利用するのが良いでしょう。そのため、Kaggleのドキュメントでは、以下のカテゴリーのデータセットが紹介されています。
・CSVファイルタイプのデータセット 「The Complete Pokemon Dataset」では、7世代の802体のポケモンの基本データがCSVで提供されています。 【参考】:The Complete Pokemon Dataset
・SQLiteファイルタイプのデータセット 「European Soccer Database」では、欧州プロサッカーの25,000を超える対戦データと、10,000を超える選手のデータがSQLiteで掲載されています。 【参考】:European Soccer Database
・アーカイブ形式のデータセット Zipや7zの圧縮アーカイブがサポートされています。「Chest X-Ray Images (Pneumonia)」圧縮アーカイブされた胸部X線画像(肺炎)の画像データセットです。 【参考】:Chest X-Ray Images (Pneumonia)
データセットの取り扱いを理解できたら、それぞれのデータ分析分野に挑戦しましょう。
Kaggleでスキルアップと腕試しに挑戦しましょう
Kaggleは、世界最大の機械学習・データ分析向けコンペティションプラットフォームです。Kaggleは学習コンテンツも整備されていますので、スキルアップに活用できます。基礎スキルアップから知識の腕試し、さらには賞金稼ぎも狙うことができます。
データサイエンティストとしての能力開発(インプット)と認知度向上(アウトプット)に活用できますのでおすすめです。
編集部オススメコンテンツ
アンドエンジニアへの取材依頼、情報提供などはこちらから