巨量資料簡稱「大數據」,其意為「複雜、龐大、多元、長期性 以及分散性的資料集,資料係透過各式儀器、感應器、網路交易、電 郵、影音、點擊流以及各種現今以及未來能用以產生數位資料的設備 而產生。由於其為迅速、複雜以及多元的大量資料,故需運用進階的 技術與科技,以便能擷取、儲存、分配、管理以及分析資訊」。
隨著 網際網路及各式連網設施的普及,數位資料呈現大量(volume)、迅 速(velocity)以及多元(variety)的「3V」趨勢;而 IBM 公司在進 行巨量資料分析軟體開發過程中發現,要從巨量資料中挖掘對使用者 真正有價值的資訊,則資料本身的可信度亦是不可或缺的重點,因此 可在「3V」特徵上,增加「真實(veracity)」,並改以「3+1Vs」形容 巨量資料分析的四個面向:大量、迅速、多元與真實。巨量資料分析方法的特性包括:
1.由於能夠取得、分析的資料量大為增加,可以讓我們看見最細緻的地方。
2.不堅持一切都要做到精準,因為巨量資料分析雖減少了抽樣造成的誤差,卻必須對於測量上的誤差給予些許妥協,而放棄百分之一百 的精確,因此,政府使用巨量資料時應注意,巨量資料是用於提供 發現問題的機會,發現問題後仍然要以嚴謹的研究驗證。
3.不堅持於因果關係的探討,而專注於發現事物的相關性,只找尋事 情「正是如此」的答案,而不一定要瞭解某件事「為何如此」。