データサイエンティストの技術指標となるKaggle(カグル)とは~Kaggleを活用した新たなビジネス創出

データサイエンティストの技術指標となるKaggle(カグル)とは~Kaggleを活用した新たなビジネス創出

印刷用ページ

ビッグデータ利活用の環境が整備されつつある中、その担い手となるデータサイエンティストが世界的に注目されて久しい。今や各国の政府が将来の国力を左右する材料として重視し、専門人材の育成に本腰を入れ始めた。データサイエンス人材に関する産官学の動きや、世界最高峰のデータサイエンティストが数多登録するプラットフォーム「Kaggle」などを関係者に聞いた。本稿では、データサイエンティストの技術力指標の一つとして使われている「Kaggle(カグル)」について焦点を当てKaggleの概要から活用事例を紹介しデータサイエンティストチームとの連携ポイントについて解説する。

  1. データサイエンティストの技術力の指標となるKaggle(カグル)とは
  2. Kaggleを活用した企業サービス開発
  3. 社外のデータサイエンティストチームとの連携ポイント

データサイエンティストの技術力の指標となるKaggle(カグル)とは

ここ数年、データサイエンティストの技術力の指標の一つに、グーグルの子会社「Kaggle(カグル)」が運営する機械学習関連のコンペティション(演習・審査。以降、コンペ)プラットフォームKaggleのランクを活用する企業が増えている。

公式サイトで無料会員登録を行えば、誰でも参加が可能だ。様々な企業が主宰するコンペ1案件につき、開催期間は約3カ月。開催中は何度も予測結果を提出でき、リアルタイムで評価される。最もハイスコアを獲得したKagglerが優勝する。成績上位者には企業から賞金が、プラットフォームからメダルが授与される。メダルが蓄積されるとKaggle内の総合ランクが上がる仕組みだ(図表)。

データサイエンティストには、機械学習の理論や数学・統計に関する知識、問題を正確に読み取る能力、AI(人工知能)モデルの作成などが求められる。Kaggleコンペへ参加を重ねていくことで、前述のスキルの多くを取得することができるという。DeNAAI本部AIシステム部データサイエンス第一グループグループマネジャーの原田慧氏は、「Kaggleのような実践的な場での経験が不足していると、教科書通りの型にはまった手法で課題解決を図ろうとしてしまいがち。

Kagglerは目の前の課題に対し、時には公開されたアイデアなどを活用しながら柔軟なアプローチを取るので、データサイエンティストが本来業務で求められる対応ができる」と説明する。

Kaggleを活用した企業サービス開発

DeNAでは、2018年4月から「Kaggle社内ランク制度」を実施。同制度は、Kaggleの実績に応じて高い順に、SS、S、A、Bの4ランクに分けられる。

対象者は、会社公認で業務時間内にKaggleに取り組むことが可能だ。具体的には、SSは業務時間の100%、Sは50%、Aは30%、Bは20%、Kaggleに充てられる。現在の対象者は20名前後。同制度はKaggleランクでの実績によって決められ、グランドマスタークラスがランクS、マスタークラスがランクAに概ね相当する。「当制度の反響は国内外のKagglerから好評だが、ランクの条件に対しては『厳しい』という意見も多い。

事実、ランクBの成績を安定して取れるKagglerは多くないだろう。一方、この制度はKagglerとしての働きやすさを明確に示す効果もあったのか、リリースから1年で当社のKaggler数は増加した。在籍中のKagglerが生き生き働く姿を見て、社外のKagglerが集まってくる傾向が見て取れる。Kagglerを起用したい企業は、ロールモデルとなる最初の一人を確保し、事業がうまく動くように導けば目指す成果が得られるだろう」(原田氏)

黎明期の2012年頃は1つのコンペに300人のKagglerが集まれば十分とされた。2019年の現在では、1案件に2000人は集まるという。世界的に参加する企業は増えているものの、Kaggleのコンペを開催した日本企業は人材・販促サービス大手リクルートやフリマアプリ大手メルカリと数える程度しかない。

原田氏は、「Kaggleに出題したデータは世界中の誰もが簡単にダウンロードできるため、情報保護の観点から、日本企業の活用事例はまだ少ない」と話す。欧米での活用は盛んで、金融業界ではスペインのサンタンデール銀行がKaggleコンペの常連だ。

過去には、商品のレコメンド(類似商品推奨システム)に関するテーマが出題された。2019年4月には、同行が開催したコンペで原田氏とほか2名で組んだチームが準優勝している。「コンペから得たデータ分析モデルを自社のビジネスに活用するほか、コンペを開催することで優秀な人材の発掘やAIプロジェクトへの取り組み姿勢といったブランディング機能も見込める」(原田氏)

社外のデータサイエンティストチームとの連携ポイント

原田氏が率いるデータサイエンスチームには、高頻度で様々な企業から業務提携の相談が届く。直近では、2019年2月に同社と関西電力が「石炭火力発電所の燃料運用最適化AIソリューションの共同開発等」について合意した。

社外のデータサイエンスチームとうまく連携するには、①自社におけるAIモデル導入目的の明確化②データの有無③ビジネスインパクトの3つを押さえる必要があるという。どんな経営・業務課題の解決にAIを活用したいのか。事業計画に基づく費用対効果はある程度予測できているのか。また、AIプロジェクトは一度で成功するものではなく、試行錯誤が必要なため、失敗を許容できる企業風土も求められる。

原田氏は、「規制産業下では、前例から大きく外れるリスクを取ることが難しい。しかし、金融業界のように巨額の資金が動く世界でAIモデルを導入すれば、精度がわずかに向上しただけでも得られる効果は大きい。リスクを取る価値はあるのではないか」と見解を示した。

この記事へのご意見をお聞かせください
この記事はいかがでしたか?
上記の理由やご要望、お気づきの点がありましたら、ご記入ください。