Spark Your Startups #2 爬蟲比武大會

Microsoft BizSpark對台灣的創業生態圈一直都相當地關注,在9月30日舉辦的第一場Spark Your Startup系列活動<避免走向創投眼中新創公司的五種死法>獲得相當不錯的評價後,12月20日所舉辦的第二場<爬蟲比武大賽>報名情況相當踴躍,活動過程中不僅邀請到幾位知名講師進行分享,活動後半段的爐邊對談也非常熱烈。透過下面的文字描述,希望能夠讓讀者們對當天的活動以及講者的分享有更進一步的認識。

sam_6228

首先針對 爬蟲 這項技術做一點介紹:

實際上爬蟲是一種常見的網路資料擷取技術,使用者在日常生活的網路瀏覽行為中也常常會接觸到爬蟲技術所提供的資訊或服務。簡單地說,爬蟲是指透過深度瀏覽特定網站內容以蒐集網站中的各類連結與資訊,以供使用者進行檢索;爬蟲這項技術也可以用以將蒐集擷取而來的資料進行整理與分析,以供未來面對不確定性問題的決策參考依據。一般常見的蒐尋引擎、比價網站或是租屋資訊平台等等大多都是透過爬蟲技術所蒐集而來的資料建置,以提供使用者進行檢索的服務。透過爬蟲這項技術,不僅可以減少在不同網站間進行資料收集與比較的時間、幫助監控特定人事物的動態,還可以讓使用者以即時又快速的方式收集網路上的各類數據資料,真的是一種省時省事又省錢的好技術。

 這次的爬蟲比武大賽邀請到的講者個個都身懷絕世武功,除了微軟技術傳教士王凡以外,還有人稱“蟲王”的大數軟體有限公司CEO丘祐瑋(David)、優拓資訊系統開發工程師曾建勳(Daniel)還有剛獲得新一輪融資提供廉價航空機票比價蒐尋的異域科技CEO徐向賢(Mark)。以下就重點摘要幾位講者的分享精華:

 

大數軟體David 蟲王

首先登場的蟲王David過去曾在趨勢科技服務,主要負責BI以及CRM;而大數軟體有限公司則是透過爬蟲提供數據服務並從而協助建構商業模式,客戶主要包括政府機構、電信公司以及金融公司等等,過去曾數次獲得各項大獎。David本身也是知名的作者,曾出版過以及。
David在創業之初曾經利用爬蟲技術建立追價神器以及InfoLite兩個網路服務,105年推出的InfoMiner即時輿情分析平台讓大數軟體一炮而紅,也獲得資訊月百大創新商品的殊榮。除了分享創業過程中的甘苦之外,David建議在場的程式開發者利用Python來打造自己的網路爬蟲;David也當場示範Python打造一條龍服務的過程。除此之外,透過Microsoft Azure所提供的強大雲端服務,程式開發人員可以將輕鬆地建立具備分散式架構的爬蟲服務,不但能夠有效地提升服務品質,更能夠加入例如機器學習等功能,擴大爬蟲服務的利用範圍,同時強化商業模式的競爭優勢。

sam_6219

 

優拓資訊Daniel蟲王子

優拓資訊的Daniel是HackNTU的共同創辦人,他用實例描述利用爬蟲蒐集與分析台灣新聞媒體網站資訊的程序。不同於蟲王主要利用Python來打造爬蟲服務,Daniel所習慣的程式語言是Java;利用Java所提供的各項彈性功能以及描述檔,程式開發者可以針對爬蟲所蒐集到的資訊,依照不同的需求會製圖表、整理分析趨勢,甚至建立訓練的模型。只要程式開發者或是爬蟲服務的客戶對於所蒐集到的資訊有一定的理解或想像,後續的應用潛力相當大。除了在利用爬蟲來蒐集資料的過程中,不該影響到其他網站服務的完整性這項最高指導原則以外,Daneiel在分享的最後建議網站開發者盡量開放Public API,同時也提出"Developer Friendly Princople"、網站開發者不要隨意變更網站架構,還有在建構爬蟲服務過程中不可輕忽錯誤處理及預警機制等結論。

sam_6234

 

異域科技Mark 蟲神

剛獲得新一輪融資的異域科技CEO除了分享Hellowings廉價航空機票搜尋引擎的打造過程以外,也以異域科技本身有五位女性程式開發者來勉勵在場的女性參與者。Hellowings主要也是利用Java所打造的爬蟲來提供服務,不過在Queue Server以及資料庫的選擇部分則經歷了數次的變動。分享過程中,Mark用相當詼諧的方式描述了幾種不同類型的廉價航空公司網站設計方式,還有因應不同網站設計方式所採用的爬蟲設計原則;Mark所提到的某些航空公司網站設計相當逗趣,在現場引發了不少的笑聲。儘管認同透過爬蟲可以為使用者帶來相當多的便利,不過Mark也希望程式開發者尊重不同網站的設計,不要因為濫用爬蟲而造成網站服務的中斷或是效率降低等狀況。

sam_6240

 

台灣微軟James 技術小王子

台灣微軟技術傳教士James分享了就學過程中利用PHP建構爬蟲來搜集數位人文領域的文獻引用狀況,再分析所蒐集到的資料並以視覺化的方式呈現其中所隱含的趨勢。近來James也根據本身對於閱讀MSDN裡各類技術文件的需求,打造了一個爬蟲服務,以協助挑選符合本身興趣與需求的技術類文章;James以實例說明用Python打造爬蟲服務的過程,還有如何透過Azure所提供的Open Source服務以及Power BI來產出智慧報表。從一個非技術專業人士的角度來看,整個過程真的相當便利簡單。

sam_6252

爐邊對話

四位講者分享過後的爐邊對談也相當精彩,現場的參與者對於法律的議題、侵權的議題、常用來打造爬蟲服務的程式語言以及幾位講師所遇過最難使用爬蟲的網站等等。

sam_6258

 

總結

參與了兩次Spark Your Startup的系列活動,真的可以感受到BizSpark對台灣新創圈的付出與關懷,後續還有更多更棒的活動,也希望新創圈的夥伴們可以一起來參與。