人間にとって “自然な” アクションの実装 ~ Microsoft Cognitive Services を始める前に


人間の行動をコンピューターで実現する技術である AI (人工知能)。この技術により、画像や音声の認識、自然言語によるコミュニケーションなど、人間の “認知機能” がモデル化され、今やそのモデルを簡単に利用できる時代になってきています。

今回は、Microsoft Cognitive Services や コグニティブ・コンピューティング (サービス) についてご質問をいただきましたので、簡単なご紹介をしたいと思います。

Microsoft Cognitive Services & 利用例

Microsoft Cognitive Services (旧称: Project Oxford) は、上記のような人間の認知機能モデルを API 経由で取り入れることができるサービスです。利用例として、以下のようなサービスが一般公開されており、気軽に試していただくことができます。

マイクロソフトでは、まざまなデータ(社内外、デバイス、アプリ...)を収集、適切な形に格納して分析から予測、可視化するためのソリューションとして Microsoft Cortana Intelligent Suite (旧: Cortana Analytics Suite) があります。その中で、人間にとって “自然な” アクションを行う (≒人間の認知機能(に近いもの)を実装する) 中核となる部分を担っているのが Cognitive Services です。

ちなみに、Cognitive は、[名詞] 認識、認知 / [形容詞] 認識力、経験的知識に基づいた、という意味です。

Microsoft Cognitive Services で提供されている API

2015年から Project Oxford の名称で提供が始められており、現在 (2016年4月) では下記の5カテゴリーに整理、計22種類のサービスAPIが提供されています。

  • Vision: 画像や動画に含まれる情報の抽出、顔認識、表情分析
    • Computer Vision / Emotion / Face / Video
  • Speech: 音声入力/出力、話し手の識別、翻訳
    • Custom Recognition / Speaker Recognition / Speech
  • Language: 言語識別、文章解析からのニーズ推測
    • Spell Check / Language Understanding / Linguistic Analytics / Text Analytics / Web Language Model
  • Knowledge: 知識DB (Web、学術情報、内部データなど) を使った分析~予測
    • Academic Knowledge / Entry Linking / Knowledge Exploration / Recommendations
  • Search: Webにあるページ/画像/動画/ニュース などの情報を収集 (Bing)
    • Auto Suggest / Image Search / News Search / Video Search / Web Search

bluesky_20160422_01

 

実際のサービスは、これらをいくつか組み合わせて構築することが多くなります。例えば、自然に話しかけると音声で返答が返ってくるアプリを構築するには、以下のようなステップで利用する方法が考えられます。

  1. 音声入力をテキストデータに変更: Speech to Text
  2. テキストデータから文意を分析し、キーワードとアクションを推定: Language Understanding
  3. キーワードとアクションから返答を作成 (必要に応じて Recommendations などを利用)
  4. テキストデータを音声で出力: Text to Speech

また、音声を使わないケースとして、上記の CaptionBot の場合は Computer Vision API / Emotion API / Bing Image API が利用されています。(詳細)

次回以降、もう少し詳しくそれぞれのAPIをご紹介していきたいと思います。

【2016/05/08追記】 個別のサービス概説を公開しました。

Comments (0)

Skip to main content