数据科学
出自 MBA智库百科(https://wiki.mbalib.com/)
数据科学(Data Science)
目录 |
数据科学是关于数据的科学,是利用科学方法、流程、算法和系统从数据中提取价值的跨学科领域。
1974年,着名计算机科学家、图灵奖获得者Peter Naur在其着作《计算机方法的简明调研(Concise Survey of Computer Methods)》的前言中首次明确提出了数据科学(Data Science)的概念,“数据科学是一门基于数据处理的科学”,并提到了数据科学与数据学的区别——前者是解决数据(问题)的科学,而后者侧重于数据处理及其在教育领域中的应用。
Peter Naur首次明确提出数据科学的概念之后,数据科学研究经历了一段漫长的沉默期。直到2001年,当时在贝尔实验室工作的William S. Cleveland在学术期刊International Statistical Review上发表题为《数据科学——拓展统计学技术领域的行动计划》的论文,主张数据科学是统计学的一个重要研究方向,数据科学再度受到统计学领域的关注。
2013年,Mattmann C A和 Dhar V在《自然(Nature)》和《美国计算机学会通讯》 上分别发表题为《计算——数据科学的愿景》和《数据科学与预测》论文,从计算机科学与技术视角讨论数据科学的内涵,使数据科学纳入计算机科学与技术专业的研究范畴。
然而,数据科学被更多人关注是因为后来发生了三个标志性事件:
一是Patil DJ和 Davenport T H于2012年在哈佛商业评论上发表题为《数据科学家——21世纪最性感的职业》;
二是2012年大数据思维首次应用于美国总统大选,成就奥巴马,击败罗姆尼,成功连任;
三是美国白宫于2015年首次设立数据科学家的岗位,并聘请Patil DJ作为白宫第一任首席数据科学家。
数据科学的各组成部分的成熟度不同:模拟与仿真、集成学习、视频与图像分析、文本分析等,正在趋于成熟,即将投入实际应用;基于Hadoop的数据发现可能要消失;语音分析、模型管理、自然语言问答等已经渡过了炒作期,正在走向实际应用;公众数据科学、模型工厂、算法市场(经济)、规范分析等正处于高速发展之中。
数据科学的专业培养[1]
大数据涉及数据挖掘、云计算等数学、计算机、统计学和信息系统等学科的理论和知识,它是高科技的产物,它的使用范围覆盖了社会科学和自然科学的多个领域。数据科学与大数据技术专业主要培养具有多学科交叉能力的大数据人才,重点培养以下三个方面的高素质人才:
- 对数据科学中模型的理解和运用的理论性人才
- 处理实际数据的实践性人才
- 利用大数据方法解决具体行业应用问题的应用型人才
大数据主要有三大就业方向:大数据分析类、大数据应用开发类和大数据系统研发类,具体岗位包括大数据工程师和大数据分析师等。
重视数据的机构和企业日益增长,从国防部到互联网创业公司和金融机构﹐都需要通过大数据项目来做创新驱动,需要大量的数据分析或技术处理人才。生活中常见的食品制造、交通检测、零售电商和医疗制造等行业也需要数据分析与处理技术,如平衡需求和供给﹑优化库存、降低供应链成本等。
数据科学与大数据技术人才需要具有较强的数学功底,同时还应具备一些所从事职业领域的专业知识。因此,数据科学与大数据技术专业需要开设计算思维和数据科学等数学相关课程,以及数据采集技术、云计算与数据中心、医疗大数据等大数据直接相关课程。除此之外,该专业还需要具备一定的计算机基础知识,如大型数据库技术.数据可视化技术,分布式海量存储系统﹑数据安全、机器学习与模式识别,以及图像视频和非结构化数据处理技术等知识。