AI活用ブログ

画像認識技術とは？

Incubit Blog Team

2019.01.10

画像認識とは？

画像認識とは機械がものを見分ける技術のことを指します。

例えば犬と猫、傘と杖など、人間は一見類似した物事を見分けることができますが、機械にもそれが可能です。この機械が「見分ける」際に用いられる技術が画像認識と呼ばれるものです。

画像認識は１９８０年代からある古い技術ですが、２０１２年を境に注目を浴び始めました。画像認識精度を競う「ILSVRC」という大会において、１位のチームの精度が２位のチームの精度を１０％以上も引き離したことがきっかけです。その優勝チームが採用したのが、AIの一種であるディープラーニングによる画像認識技術だったのです。

驚異の結果をたたき出した、ディープラーニングによる画像認識の仕組みとは何か？詳しく見ていきましょう。

画像認識の仕組み

画像認識の仕組みを理解するには、まずコンピューターがどのように画像を見ているか理解することが必要です。

コンピューターは、画像を数値の集まりとして認識しています。

たとえば図1は、数字「９」の手書き文字がどのようにコンピューターによって処理されているかを図解したものです。

図１. 出典：https://www.youtube.com/watch?v=aircAruvnKk

図1のような白黒画像の場合、０から１の間の値によって色を表しています。つまり０から１によって決められた色のピクセルを並べることで数字「９」を表現しているのです。図１では２８×２８＝７８４個のピクセルを用いて「９」を表しています。

カラー画像でも仕組みは変わらず、０から１という値の代わりにRGBと呼ばれる3色（赤、緑、青）を組み合わせた数字の集合体などで画像を表現しています。

例えば、紫の場合は（１２８, ０, １２８）という３つの数字を用います。これらの数を無数に集めたのが画像データです。

この数値の集合体をコンピューターが認識するためには、機械学習と呼ばれる方法を使います。ここでいう「認識」とは、画像に写っている「もの」の特徴を定義できているということです。

機械学習は、前述したように大まかに次の２つに分けることができます。

ディープラーニングが主流になる前の手法
ディープラーニングを用いた手法

「１」と「２」の方法は、いずれもコンピューターに画像を認識させるために、学習データとして蓄積された画像データを使います。

ただ従来の「１」の方法では、人間が特徴を定義してあげる必要がありました。例えば図２のように、「３」という数字の特徴は輪郭、図３のように「人間の顔」の場合は目や口などが特徴になります。

図２. 出典：人口知能ビジネスの教本

図３. 出典：TECHACADEMY magazine

このように、

人間が定義してあげた特徴を数値化
学習用のデータと新たな画像がどの程度類似しているかを比較する

というのが、従来の画像認識のやり方でした。

しかしこの方法は、人間が数多くのパターンごとに特徴の定義をしなければならないため、現実的ではありませんでした。

例えば、同じ「顔」を認識する場合でも、横や正面、斜め上、斜め下から見た時では目や口などの特徴の見え方が違います。このようにパターンが増えれば増えるほど精度の向上は難しかったのです。

一方で「２」の方法では、画像に写る「もの」の特徴をコンピューターに自動で定義させることができます。

これを可能にしているのがディープラーニングの技術です（ディープラーニングについて興味のある方はこの記事をご覧ください）。そのため人間が行う作業は画像データの準備のみになりました。

具体的なステップは、次のようになります。

大量の画像データ（数万枚～数十万枚）を用意し、事前処理（ピクセル数の均一化など）を行う。
機械にそれらの画像を読み込ませた後に、ディープラーニングによって画像内にある「もの」の特徴を学習させる。
新たな画像データの中にある「もの」を見分けられる機械（学習済みモデルと呼ばれる）が完成。

画像認識のビジネス活用分野と課題

主流であるディープラーニングを用いた画像認識の強みとして、

２４時間稼働が可能
１度に多くのものを認識できる
精度の高さ

などが挙げられます。ここでは代表的な画像認識のビジネス活用分野を３つ紹介します。

危険察知の分野

画像認識のビジネス活用の代表格とも呼べる分野に、危険察知があります。分かりやすいのが自動車の例です。

図４をご覧ください。ドライブレコーダーによって撮られた画像ですが、子どもたちが右から左へ飛び出している様子が見て取れます。自動運転を可能にするには、このような事態に対して車が臨機応変に対応できることが重要でしょう。

図４. 出典：http://commonpost.info/?p=137946

そのためには：

人間が前方にいると認識する
その人間による行動を予測する
具体的な動作を実施する（ブレーキをかけるなど）

というステップが必要です。

この中で画像認識の技術が使われるのは、「1．人間が前方にいると認識する」のステップです。

他にも自動運転の際に認識できる必要があるものとしては、他の自動車や工事現場のコーンなどの障害物、そして信号の状態などがあるでしょう。

さらにこの危険察知は道路上だけにとどまりません。スイミングプールでの監視や工事現場などをはじめ、画像認識の応用先は多岐に渡るといえます。

しかし同時にまだまだ課題の山積する分野でもあります。課題は主に３つです。

１つ目は、環境（天気や場所など）が変わっても正常に認識ができるのかという技術的問題。

２つ目は事故が発生した際に誰が（運転者、自動車、ソフトウェアメーカーなど）責任を負うかなどの法的問題。

３つ目はトロッコ問題と呼ばれる倫理的問題。例えば、ブレーキが間に合わない状況で直進すれば壁に激突しドライバーが死んでしまうが、代わりにハンドルをきって歩道に乗り上げればドライバーは助かるものの歩行者が巻き添えになってしまうという選択肢に迫られた際に、AIはどうすべきかなどです。

画像認識で様々なことを認識できるからこその問題と言えるでしょう。

顔認証の分野

また危険察知の次に注目されている分野として、顔認証があります。

顔認証とは、顔の画像データから「この人はAさん、この人はBさん」というように自動で判断させる技術です。学習データとして元々用意している画像データと、新たな画像データを比べることで、同じ顔かどうかを認証しているのです。

これにより、セキュリティーチェックや防犯カメラから犯人を探す際などに人手に頼らない効率性を実現できます。

また、顔認証を使った決済方法や、顔認証を用いてその人の属性（性別、年齢など）を特定する、といった新たなサービスでも画像認識は使われています。

サービスの一例として、属性情報（性・年代）と天候•気温などの情報をもとに「おすすめ」ドリンクを提示してくれる自動販売機があります。この「性・年代情報」を得るために、画像認識によって目鼻の位置やしわを解析しているのです。

一方で主な課題として、個人情報の扱いをはじめとする法律上の問題があります。

改正個人情報保護法によると、顔写真はたとえ数値化してあっても個人情報と見なされるため、データ提供者に同意を得ることが必要。さらに漏洩や滅失などのトラブルがあった際に速やかに対策を講じるなどの責任が多くあります。

また肖像権やプライバシー権などを犯さないための配慮も必要です。実際に肖像権の侵害を訴えた一般人に対し、損害賠償３５万円を支払う命令が下った例も存在します（東京地判平成１７年９月２７日判決）。

そのためデータをどのような形で（画像か数値かなど）、どこに（クラウドのようなサービスを利用するなど）、保存するかを深く考えていかなればならないのです。

異常認識の分野

最後に画像認識が活用されている分野として、「異常箇所の認識」があります。

異常箇所の認識とは、画像データを元に、正常な場合であればあるべきでないもの（異常箇所）を特定してくれる技術のことを指します。

これは、正常な場合と異常な場合の画像データを分けてAIに学習させることで、実現を可能にしています。

代表的な例は医療分野での活用です。

例えば、人間の医師が胃がんを発見する場合、胃カメラなどで撮った「画像データ」と、自身の「経験」「目」をもとに胃がん細胞を発見しています。

これを画像認識の技術を用いて機械に認識、そして判断させることで、新人医師の研修や手術医のサポート、そしてロボットによる手術に役立てることが可能なのです。

他にも皮膚病変（皮膚ガンや発疹など）を皮膚の状態から、うつ病や認知症などを顔の表情から症状の種類や重症度を算出する試みがあります。

ここで考えられる主な課題は、前述した個人情報の問題に加えて、導入への抵抗などがあるでしょう。

導入への抵抗は医療という人の命に関わる分野において患者がどこまで「機械化」を受け入れられるかという課題です。例えば、

画像認識AIによってサポートがされている手術を患者は受け入れられるか？
それがロボットによる手術になった際はどうなのか？

これらの抵抗に対して、医師やAIを開発するチーム・会社はきちんと説明責任を果たしていかなければならないのです。

特に、ディープラーニングの技術は特徴を機械が見つけることからも分かるように、仕組みがブラックボックス化してしまう傾向があるため、この説明責任はより強くあります。

活用事例１：ユニバーサルスタジオジャパン

USJの課題の１つに、年間スタジオパスの転売がありました。

これを解決するためにUSJは2007年11月から顔認証システムを導入しています。年間スタジオパスを持っているゲストは、入場の際にカメラに顔を向けるだけで入場をすることができるというものです。

ディープラーニングによる精度•速度の向上により、顔認証にかかる時間は１秒まで短縮できたといいます。これによってゲストに「顔パス」で入場するような感覚を提供し、新たな顧客体験の１つとなっています。

活用事例２：株式会社カヤック

カヤックはウェブコンテンツ制作を中心に業績を上げている会社です。

彼らのサービスの１つであるゲームコミュニティーサービスの課題として、ユーザーが快適にゲームコミュニティーで時間を過ごせるよう不適切な投稿画像を排除する、というものがあったといいます。

しかし、全体のコンテンツ量が増えるにつれ、人による目視で不適切画像の監視を２４時間体制でかつ網羅的に続けるのが難しくなっていきました。そこで導入されたのがディープラーニングを用いた画像認識サービス。従来の人による目視に比べ、より高い検知率99.5％を実現しました。

活用事例３：インキュビットでの活用事例

弊社インキュビットによる画像認識を用いたサービスの１つに、自動車のタイプや通行量を分析するものがあります。

道路上のどこで、どのくらい、どのような自動車（乗用車、トラックなど）が通行しているのかという調査•分析は、従来は人の目で実施していました。インキュビットはAIのディープラーニングを用いたサービスによって、この作業を短縮し、交通計画実施の効率化を可能にしました。

図５. インキュビットの交通分析サービス

参考文献

[1] ディープラーニングが切り拓く画像認識ビジネスの可能性. 人工知能ビジネスの教本. 2017年5月. p.124-144.

[2] ディープラーニングの仕組み. グーグルに学ぶディープラーニング. 2017年3月. p.88-102.

[3] 山下隆義. イラストで学ぶディープラーニング. 2016年6月. 207p.

[4] 株式会社カヤック. 「AI×人による業務効率化を実施。時間や運用コストの削減に加え、ユーザー満足度もアップ」<https://www.e-guardian.co.jp/result/kayac.html> 2018年11月13日アクセス.

Other blog

2016.12.26

自動運転にも応用される精緻な画像認識技術、「画像セグメンテーション」とは？事例を交えてわかりやすく解説

Incubit Blog Team

2017.07.30

2030年にはこうなっている、チャットボット先端開発事例

「2030年には、ありとあらゆる分野でこれくらいのレベルのチャットボットが使える時代になっているのではないか」。AI・人工知能EXPOに登壇した、国立研究開発法人情報通信研究機構（NICT）の鳥澤健太郎氏は、そう言いながら次のような音声でのやり取りを紹介しました。チャットボット「A銀行の定期預金が満期をむかえますね。B国の投資信託が人気のようですが、どうですか？」ユーザー「でもB国の政権が不安定だから危ないんじゃない？」チャットボット「そういう意見もありますが、一方で本日の新聞には面白いことが書かれていますよ。後で送ります」いかがでしょう？事前に決められた対話ルールに沿うだけの現状のチャットボットと比べると、かなりインテリジェントな印象です。「政治が不安定だと、普通は投資信託の価値が下がる」という事象を一般的な知識として持つことができている一方で、その内容と矛盾する「本日の新聞」の内容が「面白い」と判断することもできています。また以下のやりとりのように、保有する知識をベースに、仮説や推論を行うこともできるようになると鳥澤氏はみています。チャットボット「C社様向けの開発の件、Dアルゴリズムで効率化できそうです。関係する論文を送っておきます」ユーザー「了解。開発チーム全員に送っておいて」ユーザーが携わっている「C社様向けの開発」と「Dアルゴリズム」の内容をそれぞれ理解した上で、独立して存在している2つが関連しそうだという仮説を導きだすことができています。「膨大なテキスト、つまりビッグデータを解析した上で多くの知識を持っていないと、このようなことはできない」と鳥澤氏は語ります。次世代のボット開発に向けた取り組みこうしたインテリジェントなチャットボットの実現に向けて、鳥澤氏らが開発したのが「WISDOMちゃん」という音声型チャットボット。裏側のシステムには、すでに一般公開されているWisdom Xという大規模Web情報分析システムを採用しています。Web上にあがっている約40億ページ分の情報を知識として持ち、ユーザーの様々な質問に答えることができるといいます。WISDOMちゃんはまだ着想してから約10カ月。当日公開されたデモでのやり取りは、とてもスムーズなものでした。まだまだ研究開発の途上で、「頓珍漢な返事をすることもある」といいますが、より人間らしいやり取りの実現に向けて、従来のチャットボットとは異なる仕組みが導入されています。より有益な会話の実現に向けた仕組みとは？現状のチャットボットは対話のデータから学習することで、いわばそれを「マネすること」だと鳥澤氏はいいます。「一時はみんながこの仕組みで挑戦したが、しばらく経つと悲鳴が聞こえてきた。何を言っても相槌しか打たない。これだけでは面白いことはできない」（鳥澤氏）。つまりこういうことです。ユーザーとのやり取りの中には、たとえば「iPS細胞ってすごいね」といった意図が分かりにくい問いかけも多数。従来のボットでは、こうしたあいまいな問いかけの意図をうまく理解できず、単なる相槌や頓珍漢や返事に終始しがちでした。そこで鳥澤氏らは、あいまいなユーザー入力が来た場合、まずそれをシステムが理解できる「質問」に翻訳することで、より自然な応答を返す仕組みを作りました。たとえば以下がその一例です。・ユーザー：「iPS細胞ってすごいね」・Wisdom X：システム内部で「iPS細胞で何ができる？」という「質問」に変換・Wisdom X：iPS細胞によって可能なことのリストの中から、面白そうな応答をピックアップして出力「たとえばある端末や家電製品ってすごいよね、という発言があったとして、それに対して具体的に何ができるという返事が続くというのは、実際の対話でも割と自然な流れなのではないか」（鳥澤氏）。多様な会話、「質問」の数を増やすことで実現上記で育成した「質問」は、「iPS細胞で何ができるの？」というものでしたが、生成できる「質問」の種類が多ければ多いほど、様々な対話に対応できることになるというわけです。たとえばユーザーからの問いかけとして、「日経新聞に『南鳥島沖に球状レアメタル』という記事が出ているね」というものがあったとします。受験生向けの対話システムであれば、・「質問」として「南鳥島はどこにある」を生成・応答として「南鳥島は日本最東端にあります。覚えておきましょう」を返信またビジネスマン向けの何らかのシステムであれば、・「質問」として「レアメタルは何に使う？」「誰が（レアメタルを使う）ハイブリッド車を製造する？」を生成・応答として「自動車会社に影響があるかもしれません」を返信ただ育成した複数の「質問」の中から、適切な「質問」を選ぶという機能を実装するには、まだ至っていないとのこと。今後の課題こうした仕組みのチャットボットが目指す未来像は、ユーザーの目的を理解した上で、有益な雑談を行うというものですが、課題もあるといいます。まず前提条件として、ユーザー自身やその目的に関する知識を大量に持たせる必要があるということ（適切なビッグデータの必要性）。またそうしてユーザー特有の情報や状況に応じて返答をするということは、一種の疑似的な人格を持つ必要があるといいます。たとえば一例として挙げられたのがドラえもん。「のび太を真人間にする」という目的を持ち、のび太に関する知識を山ほど持っていることで、例のドラえもんの「人格」が成立しているといいます。そしてそのような疑似的な人格を、ビジネスや介護など様々な目的に応じて適切にプログラムすることは可能なのか？という点も懸念とのこと。さらに大量の学習データの構築や、基礎的なテキスト解析の精度を向上させることも必須になってくるといいます。ユーザーに寄り添うインテリジェントなチャットボットというのは、大きな可能性がありつつも、まだまだ課題も多そうです。

Incubit Blog Team

2018.11.2

ディープラーニングの実用例

Incubit Blog Team

2017.05.22

IBMビッグデータ専門家のいう「Hadoopの人気減が著しい」はどういうことか？

「2016年のビッグデータ界隈におけるHadoopの人気減が著しい。私の想定以上だ」。IBMでビッグデータエヴァンジェリストを務めるJames Kobielus氏が、2016年のビッグデータ界隈を振り返って述べた言葉が話題になりました。KDnuggetsというIT系メディアサイトに掲載されたこの記事にて、Kobielus氏はさらに次のように話しています。「（Hadoopの中核となる分散処理フレームワークの）MapReduceや（Hadoop上の分散データベースの）HBase、さらに（分散処理ファイルシステムの）HDFSでさえ、データサイエンティストにとって重要ではなくなってくるだろう」。つまりHadoopの3つの基礎構成要素のいずれについても、活用が減ってくるというのです。一時はビッグデータ処理の本命として、もてはやされたHadoop。Kobielus氏によるこのコメントを受けて、「Hadoopはダメだ」派と「いや、そんなことはない」派のそれぞれが、相次いでブログ記事を発信する事態にもなりました。実際のところHadoopの活用状況はどうなのか？Kobielus氏による発言の真意は別として、ちょっと整理してみました。Hadoopは必要、ごく一部の企業にとってはKobielus氏のコメントを受けて書かれた記事の中で、特に反響の大きかったのがこちら。Innovation EnterpriseというBtoB向けITメディアで編集長を務めるGeorge Hill氏によるもの。「Hadoopはダメだ」派です。Hadoopに関する調査データなどを示した上で、Hadoopを使ったビッグデータ処理への需要はあるにはあるが、企業がうまく使いこなせていない、と結論づけています。具体的には、・Hadoop関連の求人は2016年までの18か月間で43％増えているが、使いこなせる技術者が育っていない・そもそもHadoopが必要になるだけのデータ量を抱える企業はごく一部。多くが2～10TB程度の少ないデータ量でHadoopを使おうとしている。とのこと。Richard Jacksonというビッグデータ領域のディレクターも、この意見に加勢しています。彼によると、GoogleやFacebook、Yahooのような企業でない限り、そもそもHadoopを使う必要性もなければ、扱える専門家の確保も難しいだろうとのこと。イギリスで活動するJackson氏は、企業が保有するデータ量の傾向について、次のように語っています。「アメリカのテック企業は、世界の他の企業も自分たちと同様の規模のデータを有すると勘違いしている。過去数年でわれわれが関わったヨーロッパの多くの企業は、せいぜい1～20TB規模。100TB以上のデータを持っているケースはめったにない」。こういった意見に対して、「大企業に限れば、銀行や通信、製造、保険などの分野で導入が急増している！」という反対派の記事もあったりします。ただよくよく著者の経歴を見ると、主要Hadoopベンダーの一つHortonworksの中の人なので、ちょっとポジショントークっぽいなとも思ったり。少なくともこれら現場レベルの人たちによる記事だけをみると、こういうことのようです。つまり大量のデータを抱えており、かつHadoopを使いこなせるだけの人的・金銭的リソースがある企業なら使う価値があるが、そんなのはごく一部に過ぎないと。この辺りは調査会社が出す有料レポートとか買えば、さらに数字でも検証できるんでしょうけど、どれもかなり高いのでちょっと割愛。現場レベルの声だけでなく、もう少し違ったマクロな視点でも見てみましょう。もしHadoopの人気が急減しているのなら、主要なHadoopベンダーの動向にも影響しているはず。そこでHadoop関連製品の大手、ClouderaとHortonworksの2社の動きをみてみました。Hadoopブランドからの脱皮色々調べる中で出てきたのは、ビッグデータの処理が従来のオンプレミスからクラウドに移行する流れが出てきているほか、AIの活用も増えてきていることで、2つとの相性が必ずしも良くないと言われるHadoopの存在感が徐々に薄れてきているということ。さらにそうした中で、ClouderaとHortonworksが、これまで前面に打ち出してきたHadoop企業というブランドから脱皮しようとしている点です。順を追って説明していきましょう。調査大手のForresterは今年3月、「The cloud is disrupting Hadoop」（Hadoopを駆逐するクラウド化の流れ）という記事を発信。この中で著者のBrian Hopkins氏は、次のように述べています。「より多くの企業がオンプレミスでHadoopを構築する複雑さを避け、クラウド化を進めている。そうなるにつれ彼らがHadoop以外の選択肢を探す流れも進むだろう。つまりHadoopベンダーは、収益源をオンプレミスからクラウドに移そうとするだろう」。しかしそれは難しいとHopkins氏は考えているようです。なぜなら保有データのセキュリティやガバナンスといった現状のHadoopの利点とされる項目は、どれもオンプレミスだからこそ。クラウド化とは矛盾してしまいます。Hopkins氏はHadoopベンダーの関係者による話として、「もしわれわれがクラウドを本当に理解していたら、Hadoopは今のような仕組みにはなっていなかっただろう」というコメントも紹介しています。こうした動きを踏まえて、Hopkins氏はこう予測しています。ビッグデータ処理のクラウド化が進む中で、HadoopはAmazonやGoogle、IBMといったクラウド勢によるサービスに対抗できない。それに伴いClouderaやHortonworksなどのベンダーが、Hadoopブランドから離れる動きが次の2～3年で加速するだろうと。クラウド化とAI化、どちらも難しく少なくとも2019年までにはビッグデータ処理の大半がクラウド化する、という声もみられますが、そうした中で、Hadoopベンダーがブランディングを変えようとしている、という意見は先のHopkins氏だけではありません。ITジャーナリストのArik Hesseldahl氏はCIO誌の記事にて、Clouderaがバズワードとしての旬が過ぎたHadoopから、機械学習プラットフォームとして脱皮しようとしていると主張。4月にニューヨーク証券取引所で上場を果たしたばかりの同社について、こう触れています。「150ページに及ぶS-1上場申請書の中で、Clouderaは主要事業である”Hadoop”について14回しか触れていない。一方で”machine learning”という言葉は70回以上も繰り返している」。確かにS-1上場申請書の冒頭で、自社を「データマネジメント及び機械学習、アナリティクスのプラットフォーム」と言及したのをはじめ、繰り返しこの単語を登場させています。「しかしClouderaの主要事業は、疑いの余地なく依然としてHadoopだ」（Hesseldahl氏）。S-1上場申請書には、キーワード”machine learning”が頻出しているまた競合のHortonworksも同様の動きをみせているようです。4月3日付のForbes誌による記事の中で、2016年度の決算発表時の同社によるコメントが紹介されています。「人工知能や機械学習など、ビッグデータ市場のトレンドとなる新技術への研究開発投資を一層強化していく」。両社によるAI技術強化の取り組みはうまくいくのでしょうか？先のForbes誌の記事を書いたGil Press氏は、そうは考えていないようです。ForresterのHopkins氏による次のコメントを引用しています。「Hadoopがクラウド向けに設計されていないのと同様に、ディープラーニングに求められる行列演算にも向いてない」。クラウド勢がAIの活用に適した環境を整えている中で、Hadoopベンダーがこうした流れにキャッチアップするのは難しいといいます。なぜHadoopが機械学習に最適ではないのかという点については、この記事とかこの記事とかが分かりやすかったですが、あまり技術的な方面に立ち入るとウソ書きそうなので割愛。ここまでの流れをまとめると、・Hadoopの人気が衰えてきているとの声が出ている・そもそも必要性のない企業が導入するケースが目立つほか、必要性があっても技術者の確保が難しい、という現場の声がある・またマクロ的な流れとして、ビッグデータ界隈がクラウド化・AI化に進んでいるが、Hadoopがこの2つに適応するのは技術的な観点から難しいということになります。

Incubit Blog Team

2017.08.18

そもそもAIで何ができるのか？実現可能な7つの成果

「AI（人工知能）を活用してビジネスで成果をあげよう」という動きがますます高まってきました。しかし一方で「AIを魔法の杖だと誤解した人たちが、ムチャな要望を出してくる」というようなボヤキも、またよく耳にする話です。つまりAI関連の技術によって、何ができて何ができないのか？という点があいまいなままに、期待だけが先行しがちというのが大方の現状といえそうです。そんな中でちょっと便利な図をみつけました（記事最上部。オリジナルをもとにAI4U編集部で作成）。「AIによる７つの成果」（Seven spectrum of outcomes for AI）と題された図。その名の通り、AIによって解決できる成果、つまりユーザーニーズを７段階で整理しています。「認知」や「通知」のように現時点の技術レベルで可能な段階もあれば、人の判断を手助けする「環境認知」といったまだ難しいレベルもあります。AI事業を検討する際に、できることとできないことの整理に便利そうです。それぞれの段階の説明はこちら。１．認知AIによって可能な項目の中で、最も初歩的な段階。画像や音声、感情といったデータをもとに、ユーザーに関する何らかのパターンを読み取る段階。２．通知ユーザーが知る必要がある情報をアラートやリマインダーといった形で通知。「適切な情報」を「適切なタイミング」で「適切なユーザー」に届けることで、唐突感なく自然に受け取ってもらうことを目指す。そのために必要なユーザーの属性や好みを把握するために地理データや天気、心拍数、感情など、あらゆるデータの活用を試みる。３．提案・リコメンドサイトのアクセスデータや商品の購買情報といった過去の行動データをもとに、ユーザーへのリコメンドを実施。そのリコメンド内容もマシーンラーニング（機械学習）などによって継続的に改善することができる。つまり少数ではなくマスのユーザー群に対して、コンテンツやマーケティング施策のパーソナライゼーションが可能になる段階。４．自動化ユーザーが抱えるタスクを自動で肩代わりできる段階。さらに機械学習によって継続的な改善やチューニングを実施できる。５．予測過去に蓄積されたデータをもとに、機械学習による予測ができる段階。６．事前対処・予防起こり得る問題を予測し、潜在的なリスクを回避できる段階。７．環境認知人がすべきことを判断する際の手助けができる段階。

Incubit Blog Team

2017.05.2

次のAIは常識を理解できるようになる、アメリカの軍事研究機関が予測

人工知能（AI）のテクノロジーは、現在の「第２の波」から「第３の波」へと移りつつある。アメリカで軍事目的の新技術を開発・研究する機関、アメリカ国防高等研究計画局（DARPA）がこんな予測を明らかにしました。まず「第１の波」とは、人間がAIに知識を細かく教え込む段階。また次の第２の波は、学習データを使って統計的に示唆を出すという、現在主流のAI手法です。しかし第２の波のシステムによって分かることは、単に膨大な学習データを統計的に処理した結果であり、物事を理解しているわけではありません。だからデータの質によっては、人間ではありえないような間違った判断を下してしまう場合もあります。一方で今後主流になるという第３の波では、同じく学習データを処理する中で、その根底にある常識やルールを「理解」することが可能になるといいます。そのため、ほんの少しのデータだけでも学習が可能になる領域も出てくるそう。今回の元ネタは、DARPAが公開したこちらの動画。話し手は、同機関のJohn Launchbury氏という人物。15分ほどの動画ですが、面白かったのでゴリゴリ翻訳してみました。ちょっと全部訳すと長いので、第２の波の課題とは何か？第３の波によってどう解決できるのか？といった部分に絞って翻訳（5:00～）。そもそも第2の波の仕組みとは？第2の波のシステムでできることはとても限られています。一つの物事を抽象化した上で知見を引き出し、別の物事に応用するということはできません。データの分類から始まり、その後の帰結を予測することはできるかもしれません。しかし物事の文脈を理解する能力はないのです。また物事を判断する能力も欠けています。第2の波のシステムは何ができて、何ができないのか？この点については、もう少し深堀りする価値があるでしょう。そのためには、ちょっとした数学的な説明が役に立ちます。多様体仮説(manifold hypothesis)と呼ばれる考え方があります。多様体とは、幾何学における構造体です。多様体は、様々なデータがグルーピングされて一つの集合体となっている状態を指します。私たちが自然界で起きる現象を分析しようとする時、データはこうした集合体の形をとっています。一つ例をご紹介しましょう。ここに回転している球体があります。これは自然界から収集したデータを3次元で表したものです。異なる様々なデータが一つに集まっています。あるものは糸状の形をしており、あるものはけば立ったスポンジのような形をしています。また中心のほうには、赤いオレンジの皮のような形をした2次元の物体が、表面上に張り付いています。こうしたそれぞれの多様体、つまりそれぞれの集合体は異なる現象をあらわしています。AIシステムが物事を理解するには、これらを識別して分離する必要があるのです。第1の波のシステムでは、この分離作業は難しいでしょう。たとえば「左上にある何々の形をした集合体」といった指示では正確に識別できません。そのため第2の波では、異なる方法で分離させる必要があります。何をするかというと、空間そのものをいじることで、データの集合体を伸ばしたり圧縮したりするのです。こちらが一例です。話を単純にするために、2次元であらわしました。青と赤の曲線があります。それぞれの曲線は、異なる多様体をあらわしています。空間そのものをいじり、これらを圧縮したり伸ばしたりすることで、2つの多様体をきれいに分離させることができるのです。これが、第2の波でできることです。第2の波、実態は強力な統計処理皆さんも聞いたことがあるかもしれないニューラルネットワークは、まさにこの伸縮と圧縮をするよう設計されています。ニューラルネットワークによる働きは、とても神秘的で複雑にみえるかもしれません。しかし一つ秘密を明かすと、それはあくまで単なる強力なスプレッドシートに過ぎないということです。ここに幾重にも重なっているレイヤーがあります。それぞれのレイヤーにて、データの計算を実施します。最初のレイヤーから計算を始め、20番目のレイヤーまで順々に計算を実施するとしましょう。最後のレイヤーでの計算が終わると、異なる多様体の分離が完了するイメージです。それぞれのレイヤーでの計算によって、データがある空間を伸ばしたりつぶしたりしながら、分離を進めていくのです。もちろん実際の作業は、さらに複雑です。高いスキルや膨大な手間がかかります。こうした計算の末に、明らかに間違っている回答が出ることもあります。その場合は、正しい回答を導き出すために、データを少しずつ調整していきます。そうした作業を様々なデータ群に対して5万回から10万回も実施します。そうして回を重ねるにつれ、パラメーターの精度が少しずつ良くなっていき、多様体の分離作業、つまりたとえば息子の顔から私の顔を分けるといった作業をより正確に実施できるようになるのです。第１と第２の波、すでにDARPAも実用化このように、この技術は仕組みがシンプルですが非常に強力です。DARPAでもよく活用されています。たとえばネットワーク上でのサイバー攻撃の状況を把握するために、ネットワークの流れをリアルタイムかつ広範囲で監視するのに使います。またWi-FiやBluetooth、GPSといったものの電波干渉を解消するためにも使っています。電話が数多くある空間の中で、いかに個々の端末の性能を最大限にしつつ、干渉を避けるかという用途です。さらに第1と第2の波によるテクノロジーの両方を活用したプラットフォームを開発しました。防衛ミッションの常識をくつがえすほどのインパクトを持っています。たとえば新型の船。人間による操縦がなくても、目的地へ向けて数カ月の間自動で航行できます。他の船舶による動きを把握することも可能です。このようにAIテクノロジーは、非常に強力であり、防衛の世界でも大きな変化を起こしています。第2の波の課題ただ第2の波には課題もあります。完璧な技術ではないのです。たとえばここに1枚の写真があります。キャプションには「野球のバットを握っている若い男の子」とあります。実際の人間であれば、このような言い回しはしないでしょう。第2の波のシステムは、膨大な試行錯誤の末にこうした変なアウトプットを出したりするのです。確かに統計的な素晴らしい処理をしているのかもしれませんが、単体での信頼性は低いといえるでしょう。もう一つ例があります。左側にパンダの写真があります。そして画像認識システムも正しく「パンダ」だと認識できている状態です。ここでエンジニアが画像から特定のデータパターンを抽出して、スプレッドシート上で歪みを加えます。その結果、出来た画像が右側です。人間の目には全く変わらないようにみえます。しかし画像認識システムは、「99％の確率でパンダではなく、テナガザルだ」と判定してしまいました。また時間がたつにつれ分かってきた課題もあります。マイクロソフトが開発した学習型人工知能ボット「Tay」が一例でしょう。リリースから24時間で緊急停止する事態に陥ってしまいました。当初の目的はTwitter上でユーザーたちと会話をすることでした。しかしTayは教えられたことを学習する能力が高かったばっかりに、故意に差別的な言葉を教え込むユーザーがあらわれました。その結果、Tayは差別発言を連発するようになってしまったのです。こちらの画像は、私が見つけたツイートの中でも比較的マシなものです（「ヒトラーは間違っていない！」）。このように学習し続けるシステムがある場合、元になるデータには非常に気をつける必要があることが浮き彫りになりました。場合によっては悪意ある使われ方をすることもあるのです。これが第2の波の課題です。次の第3の波でできることとは？こうしたAIの課題は、現状のようにスプレッドシートで実施するようなシンプルな計算手法を見直す必要があることを意味しています。ここで第3の波のテクノロジーが求められてくるわけです。この第3の波は、文脈理解が中心になってくるでしょう。そもそもこの世界では、現実世界を解釈するための説明モデルをシステムそのものが時間をかけて作り上げてきました。いくつか例をご紹介したいと思います。まずは膨大な計算を主とする第2の波が、画像を分類するとしましょう。猫の画像を与えれば、システムはそれが猫だと判別するでしょう。もしこのシステムが話せるとしたら、「なぜ猫だと思うんだい？」という問いにこう答えるはずです。「計算をした結果、猫である確率が最も高いと判定されました」と。これでは十分な答えとはいえません。願わくば、「耳があって、前足があって、表面に毛がはえていて、他にも色々な特徴があるからですよ」くらいの回答は欲しいところです。そのためには物事を理解したり、決断の要因を認識したりする能力をシステムに持たせる必要があります。ただ話はこれだけにとどまりません。膨大な学習データが必要ない場合も第2の波の特徴の一つとして、物事を学習するために膨大な量のデータを要するという点があります。たとえば手書き文字を認識できるようにさせるためには5万個、場合によっては10万個もの例が必要になるでしょう。もし私が自分の子供に文字を覚えさせるために、10万個も教えないといけないとしたらうんざりです。しかし実際には1個か2個で十分でしょう。人間による学習方法はそもそも異なるからです。われわれは、同じように1個か2個の例だけで学習できるシステムの可能性を模索し始めています。手書き文字の認識がその一つです。それは次のようなやり方で可能になると考えています。まず文字を書いている手の動きを認識できるモデルを作ります。次に「この手の動きの場合は”0”、こういう場合は”1”、またこんな場合は”2”だよ」という紐づけを実施します。そして仮に、この文字を認識しろという課題が出たとしましょう。その場合、様々なモデルを参照します。つまりすでに学習した「4」というモデルと、お題の文字がどれだけ似ているのか？「9」というモデルとはどれだけ似ているのか？という具合です。その結果、どちらが正しいのかを決めることができるのです。AIの第3の波は物事の背後にあるルールの理解が中心になると、われわれは考えています。このモデルは、ルールや常識を学び取った上で、現実世界を認識することができます。物事を判断した上で、自ら決定を下すことも可能になるでしょう。さらにデータから得たことを抽象化することもできるようになるはずです。ただしこうしたシステムを作り上げるには、まだやらなくてはならないことが数多くあります。ここで最後のまとめです。DARPAとしては、AIを3つの波に分けて考えています。第１の波では、人間がシステムに知識を教え込む段階。まだまだ非常に重要な手法です。第２の波は膨大なデータによって統計的に学習するやり方。現在のメインストリームの手法です。しかしこれら２つのシステムには問題もあります。両方の良さを合わせる必要があります。またルールや常識の学習が可能になる第３の波がやってくるはずです。

Incubit Blog Team

2017.02.26

Spotifyって機械学習をどう活用してるの？⇒元社員がQuoraで回答

Incubit Blog Team

2017.03.27

こんな使い方もあった、チャットボットのユニークな活用事例集

Incubit Blog Team

画像認識技術とは？

目次

目次

画像認識とは？

画像認識の仕組み

画像認識のビジネス活用分野と課題

危険察知の分野

顔認証の分野

異常認識の分野

活用事例１：ユニバーサルスタジオジャパン

活用事例２：株式会社カヤック

活用事例３：インキュビットでの活用事例

参考文献

Other blog