數據科學
出自 MBA智库百科(https://wiki.mbalib.com/)
數據科學(Data Science)
目錄 |
數據科學是關於數據的科學,是利用科學方法、流程、演算法和系統從數據中提取價值的跨學科領域。
1974年,著名電腦科學家、圖靈獎獲得者Peter Naur在其著作《電腦方法的簡明調研(Concise Survey of Computer Methods)》的前言中首次明確提出了數據科學(Data Science)的概念,“數據科學是一門基於數據處理的科學”,並提到了數據科學與數據學的區別——前者是解決數據(問題)的科學,而後者側重於數據處理及其在教育領域中的應用。
Peter Naur首次明確提出數據科學的概念之後,數據科學研究經歷了一段漫長的沉默期。直到2001年,當時在貝爾實驗室工作的William S. Cleveland在學術期刊International Statistical Review上發表題為《數據科學——拓展統計學技術領域的行動計劃》的論文,主張數據科學是統計學的一個重要研究方向,數據科學再度受到統計學領域的關註。
2013年,Mattmann C A和 Dhar V在《自然(Nature)》和《美國電腦學會通訊》 上分別發表題為《計算——數據科學的願景》和《數據科學與預測》論文,從電腦科學與技術視角討論數據科學的內涵,使數據科學納入電腦科學與技術專業的研究範疇。
然而,數據科學被更多人關註是因為後來發生了三個標誌性事件:
一是Patil DJ和 Davenport T H於2012年在哈佛商業評論上發表題為《數據科學家——21世紀最性感的職業》;
二是2012年大數據思維首次應用於美國總統大選,成就奧巴馬,擊敗羅姆尼,成功連任;
三是美國白宮於2015年首次設立數據科學家的崗位,並聘請Patil DJ作為白宮第一任首席數據科學家。
數據科學的各組成部分的成熟度不同:模擬與模擬、集成學習、視頻與圖像分析、文本分析等,正在趨於成熟,即將投入實際應用;基於Hadoop的數據發現可能要消失;語音分析、模型管理、自然語言問答等已經渡過了炒作期,正在走向實際應用;公眾數據科學、模型工廠、演算法市場(經濟)、規範分析等正處於高速發展之中。
數據科學的專業培養[1]
大數據涉及數據挖掘、雲計算等數學、電腦、統計學和信息系統等學科的理論和知識,它是高科技的產物,它的使用範圍覆蓋了社會科學和自然科學的多個領域。數據科學與大數據技術專業主要培養具有多學科交叉能力的大數據人才,重點培養以下三個方面的高素質人才:
- 對數據科學中模型的理解和運用的理論性人才
- 處理實際數據的實踐性人才
- 利用大數據方法解決具體行業應用問題的應用型人才
大數據主要有三大就業方向:大數據分析類、大數據應用開發類和大數據系統研發類,具體崗位包括大數據工程師和大數據分析師等。
重視數據的機構和企業日益增長,從國防部到互聯網創業公司和金融機構﹐都需要通過大數據項目來做創新驅動,需要大量的數據分析或技術處理人才。生活中常見的食品製造、交通檢測、零售電商和醫療製造等行業也需要數據分析與處理技術,如平衡需求和供給﹑優化庫存、降低供應鏈成本等。
數據科學與大數據技術人才需要具有較強的數學功底,同時還應具備一些所從事職業領域的專業知識。因此,數據科學與大數據技術專業需要開設計算思維和數據科學等數學相關課程,以及數據採集技術、雲計算與數據中心、醫療大數據等大數據直接相關課程。除此之外,該專業還需要具備一定的電腦基礎知識,如大型資料庫技術.數據可視化技術,分散式海量存儲系統﹑數據安全、機器學習與模式識別,以及圖像視頻和非結構化數據處理技術等知識。