データサイエンティストの質を担保するKaggle
従来、データサイエンティストのスキルを測る手段としては、オープンソースの開発経験の有無や、ソフトウェア開発プラットフォームGitHubで公開したコード、技術ブログといったもの以外はあまりなかった。そのような中で、2010年に設立されたKaggleはデータ分析のスキルを競い合うことに特化したプラットフォームだ。Kaggleで高成績を維持するには、時代に合った新技術へのキャッチアップが常に求められるため、Kaggleにおける成績順位はデータサイエンティストとしての質を担保する機能があると言える。
Kaggleの上位ランク者たちが2012年に立ち上げた米国のスタートアップ企業のDataRobotは、経験豊富なデータサイエンティストが必ずしもいなくても、解決したい課題に合った最適な予測モデルを構築できるオートML(機械学習)を提供する。同社の製品は、国内の製造業や金融機関に多数導入されている。
実ビジネスにおけるデータサイエンス業務
アクサ生命保険 MCVP統括部 HPM推進室 シニアデータアナリストの平松雄司氏は、「将来的に、データサイエンティストは、オートMLソフトウェアを開発するような機械学習エンジニアのようなケースと、各専門分野で活躍する現場のエキスパートがデータサイエンス業務を兼任するようなケースとに二極化していくだろう」と語る。
「データサイエンティストは自由な社風を好むタイプが多い。優秀な人材ほど各社からの引き合いが強く、制限の多い、分析環境があまり良くないような業界に定着させることは至難の業だ。その点、保険業界に関しては、これまで数理や分析などを担ってきたアクチュアリーがデータサイエンス業務を兼任するほうが、データサイエンスの活用が円滑に進む可能性は高い。例えば、新技術によるプライシングロジックが適用可能かどうかなどの判断は従来の商品設計に精通していないと非常に難しい。新旧双方の仕組みを理解する人材の需要は今後も増していくだろう」(平松氏)
本来、データサイエンティストは、業務・経営課題を各関係者と協議して見出し、分析モデルの構築およびデプロイ(実際の運用環境で展開)、効果測定および改善を行うPDCAサイクルを回すものだ。分析をもとにした施策がビジネスのサービス改善、収益改善につながっているかといった成果が問われることになる。一方、Kaggleは分析モデルの構築という、データサイエンスのプロセスの一部に特化しているため、実ビジネスにおいて求められるスキルを全て満たしているわけではない側面がある。その点に留意しつつ、Kagglerをうまく社内のデータサイエンスの利活用のためのプロセスに取り込むことが重要となるだろう。
データサイエンスの利活用に必要な3つのステージ
データサイエンスをビジネスに活かすためには3つのステージが必要となる。まず、分析をするのに十分なデータがあり、社内データベースのインフラが整備されていること。次に、人材がきちんと確保できていること。最後に、組織間の壁が可能な限り払拭されていて、PDCAサイクルを回すことができることだ。
平松氏は、「一般的に、これまでのAIプロジェクトの成功率は10%にも満たないと言われている。つまり、ほとんどの企業がAIプロジェクトに失敗する。こうした事実を認知したうえで、3つのステージを整えておくことは重要だ。GAFAなど米IT大手はどのステージも重要視している。だからこそ、ビジネスにおいてデータサイエンスを有効に活用できているのだろう」と説く。
日本の産業発展のためには、経営層もデータサイエンスへの理解を深めることが不可欠だ。最低限の基礎知識がないと、誤ったAIへの投資や指示で会社のリソースを消費し、その結果、優秀な人材が流出するなどのリスクも大きくなる。日本の保険業界は、少子高齢化や人口減少、低金利、若年層の車離れなどの影響で、国内市場は将来的にも縮小傾向にある。
「打開策として業務の効率化や海外展開などが挙げられる。海外の場合、保険に対する規制が比較的緩い国もあり、日々得られるデータをもとに保険料を変動させるダイナミックプライシングを採用する保険会社も存在する。こうした商品には、データサイエンスが活用されてることも珍しくはないのが実情だ」(平松氏)
データサイエンティストの技術指標となるKaggle(カグル)とは~Kaggleを活用した新たなビジネス創出
データサイエンスをビジネスに活かすために必要な3つのステージ
データサイエンティスト育成のための産学官による学びなおしの場を提供
- 寄稿
-
アクサ生命保険平松 雄司 氏
MCVP統括部
HPM推進室
シニアデータアナリスト