James Wang's Blog

All about Microsoft Azure

Azure Machine Learning 分享 @ CS+X

上禮拜二 (11/15) 回台大擔任 CS+X 社團系列講座第一場的講者,題目是「利用 Azure Machine Learning 輕鬆預測」,在短短的一個半小時和大家分享機器學習的基本觀念還有好用的平台工具,也趁這難得的機會把分享內容跟一些心得整理下來和大家交流分享。 當 CS 遇上 X 什麼是 CS+X? CS+X 是希望透過結合電腦科學 (Computer Science) 以及專業知識領域 (X) 培養跨領域的人才,透過 CS 的知識解決其他專業領域的問題,目前在台大在共同教育中心開設了 CS+X 的學分課程,也另外成立了 CS+X 社團,每個月會辦講座以及工作坊的形式,讓非電資理工科系的同學可以掌握資訊領域的基本概念,進而用在其他專業領域上。CS+X 社團約一個月多前正式成立,一群熱血的老師及幹部馬上熱血籌辦系列講座跟工作坊,所以才有了這次的講座。 CS+X 月月系列講座(一) Machine Learning 這次分享的是機器學習 (Machine Learning) 的基本概念以及如何利用 Azure Machine Learning Studio 快速嘗試機器學習的實驗。 首先我們看一個很經典的數據集 (dataset) –鐵達尼號,裡面包含了當年遇難者1514人其中891筆資料,包含最後生還與否、年齡、性別、姓名、艙等等等。我們想要嘗試透過機器學習的方法預測出其他乘客、或是假想如果當年我們也在船上能否生還。 首先可以透過這個網站來做一些簡單的測試,輸入乘客資料後便可以預測生存的機率。它是怎麼做到的呢? 背後是利用資料集裡面乘客的各項數據來訓練模型,模型可以描述這些資料,同時也能對我們輸入的數據做出預測。透過已知資料訓練模型,來對預測未知的資料進行預測,這正是機器學習的精神。這邊我們稱資料集裡面已知的資料為訓練資料(training data),而沒看過的資料則為測試資料(testing data)。 依據手上的資料以及想要解決的問題,我們常將機器學習問題分成以下三類: Classification 分類 當手上的資料跟以及要回答的答案是某個已知的類別,通常會再分為只有兩類問題的 binary classification… Read more