神 Tools,這樣也可以辨識!

       Chris Bishop,Microsoft 在英國劍橋研究單位的領導人,在 Microsoft's Future Decoded 研討會示範一個能夠辨識人類臉部情緒的新工具。人們天生擅於由人類臉部的表情辨識人的情緒,但是對於電腦而言,這並非是一件很容易的事。

       直到今日,在機器學習 (machine learning) 與人工智慧 (artificial intelligence) 領域的進展,使得電腦科學家能夠開發出能夠辨識聲音、文字、圖片、甚至臉部表情的智慧應用程式。Microsoft Oxford 專案 (Microsoft Project Oxford) 團隊今天計畫要向大眾發佈一個 beta 版本的新工具,讓程式開發者能夠使用這個工具的功能,包括辨識人類臉部表情的功能,發展更多機器學習的應用。ChrisBishop 是 Microsoft 位於英國劍橋的研究單位的主管,在今天稍早的 Future Decoded 這個 Microsoft 探討未來的商業與技術的研討會的主題演講中展示了一個臉部表情辨識工具。

      許多 Microsoft 自己的產品都有用到這個工具的功能,這個工具主要是設計給未具機器學習或人工智慧專業知識,而卻想要為應用程式加入語音辨識,視覺與語言判讀功能的程式開發者使用的。而近日微軟釋出 Speaker Recognition APIs  ,用語音就能進行辨識!Microsoft 在今年春季首次發表了第一個版本的 Oxford 專案的工具(請參考:Microsoft Project Oxford tools last spring),Oxford 專案的經理說,這個工具很快地吸引了世界財富 500 大 (Fortune 500) 公司與小型的新創公司的高度興趣,透過這個工具的幫助,未具備機器學習和人工智慧專長的公司和企業也能夠經由這個工具擁有想要的功能。Microsoft 技術和研發部門的資深程式開發經理 Ryan Galgon 說:" 令人興奮的是這個工具引起的廣大注意,以及很多不同的反應 "。

情緒 , 影片 , 拼字檢查 , 以及鬍子

       善用機器學習技術,我們的工具能夠在接收到更多的資料時變的更聰明:有了機器學習技術做基礎,讓我們的 Skype 翻譯工具 (Skype Translator) 即時翻譯功能和 Cortana 個人隨身助理 (Cortana personal assistant) 都獲得了重大的突破 ! 以將機器學習應用在臉部辨識為例,我們的工具能夠經由接收一組訓練用的圖片學習辨識確定的特徵,然後將學習到的特徵資料套用在接收到的新圖片,提升人臉辨識的正確性。

        今天發佈的情緒辨識工具,是以真實的心情感受表現在外的情緒表徵為學習的基礎,支援辨識 8 種主要的情緒狀態,包括– 憤怒, 恥辱, 恐懼, 嫌惡, 快樂, 中立, 悲傷, 及吃驚。Galgon 認為,程式開發者可能會想要將這樣的功能加入到支援收集巿場反應的工具,用來衡量人們對商店展示、電影、或食物的反應,程式開發者會發現將這個工具應用在開發消費者相關的工具上會很有價值,例如應用在即時通訊軟體上,可以從辨識相片中人的表情表達的情緒提供不同的功能選項。Microsoft Oxford 專案提供的臉部表情辨識技術可以應用在很多不同的領域,例如我們可以依據照中的人臉部表情依情緒分類,或是可以應用在較輕鬆的場合。在這個禮拜一開始,在 Movember 基金會以鬍子辨識為名義的募款場合,Microsoft 發佈了 MyMoustache 網站,這個網站就是使用 Oxford 專案的機器學習技術辨識並評鑑人們臉部的鬍子。我們發表的臉部情緒辨識工具是一個 beta 版本,除了這個工具以外,在今年底之前,Microsoft 還會發表數個 beta 版本的新工具,這些新工具都會提供限量的免費試用版本。

這些工具包括:

Spell check 提供拼字檢查功能的工具,支援程式開發者為所開發的手機 App,以雲端為基礎的 App,或是其他的產品加入拼字檢查功能,例如辨識像 " gonna " 這樣的俚語,品牌名稱,常見的名稱錯誤,以及不容易發現的拼字錯誤,像是 " four " 和 " for "。這個工具也會在新的品牌名稱和用語普及和流行時,將新的品牌名稱和用語加入到工具中。從今天開始,我們開始提供公開的 Beta 版供有興趣的人下載試用。

Video:這個工具能夠協助使用者很容易地分析和編輯影片,包括追蹤人的臉部,偵測移動,以及消除拍攝影片時的震動。這個工具的某些功能和 Microsoft Hyperlapse 工具使用了相同的技術,同樣在今年底之前會公開Beta版本供有興趣的人下載試用。

Speaker recognition 這個工具能夠經由學習個人的口音特質辨識發聲說話的人。程式開發者可以利用這個工具的功能辨識說話的人的身份,如同利用指紋辨識使用者的身份一樣,實作 App 的安全管制功能。這個工具同樣會在今年底之前會發表公開的 Beta 版本。

Custom Recognition Intelligent Services:這個工具簡稱 CRIS,可以很容易地支援使用者依據惡劣的環境,例如公開而且吵雜的場合,調整語音辨識功能。例如公司可以在噪音很大的地點,或是人來人往的購物中心進行語音辨識的工作,也可以用來對母語不是英語的人的演講內容,或是發音有障礙的人的話語進行語音辨識。這個工具將在今年底之前以非公開的方式邀請特定的對象進行 Beta 測試。

Face API 更新:除了上述的新工具以外,Microsoft Oxford 專案提供的臉部辨識工具將會加入新的辨識功能,包括加入鬍子辨識與微笑預測工具。除此之外,也會強化現有的外表年齡估計,以及性別辨識等功能。

對這些工具有興趣的程式開發者可以瀏覽到 Microsoft Project Oxford 網站以獲取更多的資訊,或是試用工具提供的各種辨識功能。

 

本文翻譯自:Happy? Sad? Angry? This Microsoft tool recognizes emotions in pictures