【初心者向け】機械学習とは～理研AIP副センター長が解説

2018/08/132024/09/30

AIの能力の進化が凄まじい勢いで進んでいる。囲碁や将棋の世界では人間はAIに勝てなくなり、シンギュラリティという言葉も現実味を帯び始めてきた。レントゲン画像の正確かつ高速な診断や、ロボット投資アドバイザーなど、各業界へのAIの進出もますます進んでいる。本稿では、理化学研究所革新知能統合研究センターの上田氏が、機械学習の概要から可能性まで、わかりやすく解説する。

機械学習技術とは
2つの学習タイプ
AI人間の能力を超える？
多分野に浸透する機械学習技術
IoT時代における機械学習技術
AIの今後

機械学習技術とは

人間の高度な知能を機械の上で実現しようという人工知能の試みはコンピューターが登場して以来行われてきた。1980年代、専門家の知識をプログラムで表現するエキスパートシステムが人工知能技術として有用な成果を挙げたが、予めルールを埋め込んだシステムゆえ、例外への対応が困難という点で限界があった。

この問題に対し、1990年代になって様々な事象（データ）から一般的な規則・法則を帰納的に学習する機械学習の重要性が認識されるようになった。すなわち、機械学習技術とは、観測データからその観測データの背後にある規則性や特異性を見出すための汎用技術と言える。

近年、人工知能（AI）技術があらゆる分野で関心がもたれているが、現在のAI技術はまさしくディープニューラルネットワーク（深層学習）に代表される機械学習技術を指し、“AIブーム＝機械学習ブーム”と言っても過言ではない。

実際、機械学習のトップ国際会議であるNIPS（Neural Information Processing Systems）やICML（International Conference on Machin Learning）では、ここ数年、参加者が急増し6000人を超える勢いである。

2つの学習タイプ

機械学習は、教師あり学習と教師なし学習に大別される。

タイプ① 教師あり学習

現在、画像、音声認識などで多く用いられているディープニューラルネットワーク（深層学習）がその代表的教師あり学習技術である。

教師あり学習では、入力データとそれに対応する出力データ（教師データと呼ばれる）のペアの集合が学習データとなる。

例えば、”犬“かまたは”猫“が写っている画像の分類問題の場合、入力画像に対して、その画像が“猫”または”犬“というクラスラベルが教師データに相当する。そしてその教師あり学習データから学習器に入出力関係を学習させる。

タイプ② 教師なし学習

教師なし学習は、データを類似した幾つかのクラスターに自動分類するクラスタリング技術に相当する。クラスタリングではデータ間の類似尺度が重要となるが、その尺度は応用によって適切に定められる。

例えば、テキストデータのクラスタリングの場合、テキストをそのテキスト中に含まれる単語の頻度を要素とする単語頻度ベクトルで表現し、二つのテキストの類似度をそれらのテキストの単語頻度ベクトル間のコサイン類似度とする方法が良く用いられている。

通常、教師ありデータの作成は人手によるためコストと時間がかかる。そこで少数の教師ありデータに多数の教師無しデータを合わせて学習させる半教師あり学習という学習法がある。

AIが人間の能力を超える？

当然ながら、学習データ数が多ければ多いほど、機械学習器の学習能力が高くなるのは人間と同様である。しかし、深層学習に代表される機械学習器は人間に比べかなりの学習データを要することが経験的に知られている。

例えば、手書き数字認識（0,1,…,9）の10クラスの分類問題の場合、深層学習では未学習データ（テストデータと呼ばれる）に対し、ほぼ100％の正答率と当初報告されたが、学習に要したデータ数は数十万という膨大な数であった。人間はより少数のデータで学習が可能であることを考えると、深層学習が人間の能力を超えているとは必ずしも言えない。

また、近年、“敵対的サンプル（adversarial examples）”という擬似データが機械学習の分野で話題になっている。これは原データに人間には区別がつかない程度の意図的な加工を施すことで、原データとは大きく異なる学習結果を生じさせる”悪意のある“サンプルである。

例えば、”猫“の画像を用いて学習した学習済の学習器に、人間には殆どノイズにしか見えない半透明な四角い輪郭を重畳し学習器に”ラップトップPC“として認識するように学習させると、学習器は本来”猫“の画像を”ラップトップPC”と誤認識してしまう。現実の応用で学習器を欺くような敵対的サンプルが学習に用いられれば明らかに問題である。

人間はそのような擬似サンプルを誤認識しないことから人間の方が学習能力が高いと言えるかも知れないが、一方で、逆に機械学習器はより解像度の高い学習能力を有するとも言える。

囲碁の世界チャンピオンを破ったGoogle DeepMindが開発したAI碁（アルファ碁）は囲碁の世界で人間の能力を超えたと言えるが、AI碁は強化学習という手法を援用して事前に膨大な戦略パターンを学習している。人間もそのような膨大数の学習が可能ならば対等に戦える可能性があるかもしれない。

機械学習における学習は、膨大な学習データから未観測なデータを補完していると言える。それ故、未観測なデータが学習データから逸脱しているようなケースでは学習が困難である。つまり、内挿は得意だが外挿は原理上苦手である。一方、人間は、全く斬新な考えをひらめいたりすることができる。この点ではまだAIが人間の能力を超えているとは言えない。

多分野に浸透する機械学習技術

AI技術（機械学習技術）は情報処理の分野だけでなく、地球物理などの自然科学や新材料の設計・創成を目指す材料科学、病理診断、さらには金融業など、多方面にわたり、これまでAIとは殆ど無縁であった分野にも急速に浸透している。AIブームと言われる所以である。

地球物理

地球物理の例では、宇宙の加速膨張の解明に重要な超新星を地上望遠鏡で撮像した膨大な画像データから自動検出するために機械学習技術が用いられている。また、材料科学の分野では、研究者が試行錯誤に運任せで新素材を発見してきたが、機械学習技術によりその実験計画のプロセスが大幅に短縮可能になった。

医療

医療の世界では、レントゲン写真や病理画像からの癌などの異常部位の自動検出にも機械学習技術が多用されている。

金融

金融業界では、人間の定型業務が機械学習によりかなりの効率化が図られている。

このように機械学習技術は、AIブームの波に乗って、あらゆる学問分野、ビジネス業界に直接、間接的に貢献している。

IoT時代における機械学習技術

AIはロボットや囲碁ゲームのように人の知能を模倣するものだけでなく、人の活動の一部を代替支援し、共存・共創することで人の生活を豊かにする技術でもある。

IoT（Internet of Things）の技術が発展し、様々なセンサーが、ありとあらゆる場所やモノに設置され、人間の活動、あるいはモノの動きまでもが観測できるようになった。つまり、IoT時代では時間と場所（空間）に紐づいた時空間データ（spatio-temporal data）を有効利用するための機械学習技術が重要となる。

その一つの応用として、人の最適誘導があげられる。日本は近年、地震などの自然災害が多発し、その際、安全な避難誘導が十分実現できていない。実際、2011年3月の東日本大震災直後の東京の駅周辺では帰宅難民で溢れていた。事前に誘導計画を立てたとしても、いつ、どこで、どのような災害が来るかを事前に予測するのは事実上不可能である。

災害が生じた際、リアルタイムに最適な誘導を実現するための環境知能（ambient intelligence）の実現に向けて、その要素技術として時空間予測、混雑緩和のための最適誘導などが機械学習技術をベースに研究が進められている。

AIの今後

今日の深層学習の成功の裏には、GPU（Graphic Processor Unit）といった並列計算向きのハードウェアの進歩がある。つまり、AIの発展は計算資源の発展に支えられているとも言える。近年、日本でもスーパーコンピューターの開発も加速しており、このスパコンとAIをどう結び付けるかが重要な課題である。

これまでスパコンは気象予測などの物理現象の大規模シミュレーションに主に使われていた。このシュミュレーションは、通常、微分方程式などで表現された物理モデルを数値的にシュミュレートしたものであるが、多数のパラメータをもち、このパラメータを実際の観測データに整合するように如何に推定するかがシミュレーションの信頼性向上に不可欠である。

色々なパラメータを試して現実データに整合するかを検証するという単純な方法では限界がある。このような帰納的推論（データからのモデルの学習）は、まさに機械学習のタスクと言える。信頼度の高いシミュレーションの実現のためにAIとの融合がスパコンの新しい研究領域と言えるだろう。

今後、自動運転など、AI技術は我々の生活の身近なところで実用化の段階を迎える。人と人から、人とモノ、そしてモノ同士への情報のやりとりにAI（機械学習）技術がさらに貢献していくだろう。