数据科学技术发展:将与生产应用相融合
数据爆炸把人类带入了一个数据时代,数据科学的发展引发了政府、公众和产业界等对数据的热情,也激发了高校和科研人员开始考虑它的教学与研发问题。
高纳德公司(Gartner Group)成立于1979年,是世界上第一家信息技术研究和分析公司,它在调研了数据科学及其新技术发展形态后,得出结论:数据科学自身的发展于2014年7月已经接近创新与膨胀期的末端,将在2~5年后开始应用于生产高地期,与众多不同的行业和学科结合起来,创造出更多的可能。
高纳德公司的另一项研究揭示了数据科学本身的成长曲线,从图中可以看出,数据科学的各组成部分的成熟度不同。其中R语言的成熟度最高,已广泛应用于生产活动;其次是模拟与仿真、集成学习、视频与图像分析、文本分析等,正在趋于成熟,即将投入实际应用;基于Hadoop的数据发现很可能要消失;而语音分析、模型管理、自然语言问答等已经渡过了炒作期,转而走向实际应用;公众数据科学、模型工厂、算法市场(经济)、规范分析等技术,正处于高速发展之中。
也就是说,在传统数据领域中一些常用工具方法的应用发展已经趋于饱和,例如R语言;甚至有一部分开始进入衰退阶段,例如Hadoop;而像Python、深度神经网络、还有一些交叉领域的数据科学例如公众数据科学、高级异常检测应用仍处于创新的高峰期,有着更多的发展潜力和创新方向。
高校纷纷开设数据科学专业,数量之后要看质量
在教学中,数据科学的发展也与越来越多其他学科发生交叉与融合, 打破了原有的方法和体制。数据科学交叉学科应运而生,交叉学科顾名思义就是2种甚至多种学科交融的产物,如数据新闻(Data Journalism)、材料数据科学(Materials Data Science)、大数据金融(Big Data Finance)、大数据伦理(Big Data Ethics)和大数据教育(Big Data Education)等。
→
目前,我国各类高校、高职院校已陆续开始围绕大数据专业建设展开研究并申报大数据专业。2016年2月,北京大学、对外经济贸易大学和中南大学成为首批成功获批设立“数据科学与大数据技术”本科新专业的高校;2017年3月,经教育部批准,第二批共32所高校成功申请“数据科学与大数据技术”本科专业;2018年3月,共有283所高校获批“数据科学与大数据”专业,截至2019年4月,获批该专业的高校已经达到488所。从申请资料看,国内数据科学专业是一门主要以统计学和计算机科学与技术专业为基础建设的全新专业。数据科学专业已成为我国现阶段高等教育的热点问题之一。
数据科学类专业在经过雨后春笋般的爆发性增长后,专业数量已经趋近饱和,建设重点已经完成从数量到质量的转移,即将迎来新一轮的学科评估,需要对研究领域、课程状况、课题状况、队伍状况、学生状况等进行客观评价。有关学校和科研机构学科建设状况往往会引起社会各界的关注,对于学校来说目前最重要的便是提高教学质量和人才培养水平。
传统模式VS新型思维,不同教学思维下的工具选择
大数据专业是各高校学科建设的重中之重,相关学科的教育厂商也类目繁多,服务内容覆盖了教学系统、教学工具、实验室设备、课程内容、案例实践等内容,在提升教学效率的同时也为学生提供了多元化发展机会,但有很多学校和老师因为选择了一些不适应新学科的传统教学工具,或者是“伪数据科学平台”,在数据专业建设上走了弯路。
下面先说说传统教学工具的利与弊,在主打网络技术和数据挖掘的大数据教学初始阶段,人才培养多以基本技能和基础理论为主,便捷和快速就是受邀需求,所以传统教学工具由于其部署方便、操作便捷和一些个性化定制的教学功能,可以为老师和同学节省了不少教学准备时间,它的使用成为了主流。
画一个图,来图形化表达传统模式和新型模式的区别
传统教学工具 |
VS |
新型教学平台 |
本地化 |
→ |
云原生 |
资源封闭 |
→ |
资源开放 |
陈旧案例教学 |
→ |
高热度案例更新 |
实验室模拟训练 |
→ |
企业项目实战 |
仅在教学中使用 |
→ |
贯穿教学、科研和生产应用 |
成果班内分享 |
→ |
成果社区公开交流 |
但数据科学是一门实践性极强的学科,其研究和应用都不能脱离现实中的领域,在使用几年之后大家才发现,快餐式的教学只能承载技能培养而无法打磨人才的数据思维,有很多传统教学工具其实远脱离了实际场景,仅满足了基础的教学要求,而无法进行工业级生产应用。
一方面,传统教学工具一般都是封闭或者本地化部署的,用于教学的案例库或者数据集难以实时更新,这样做只能让学生们在配置好的条件中进行单一反复的流程性学习。而采用早已落后的传统数据集和教学案例,与现下新兴的行业真实数据隔绝,不仅会让他们丧失对数据科学的兴趣,也容易让他们变得只适应实验室温室环境,对行业动态和团队协作缺乏了解。
另一方面,传统教学工具仅是为教学定制,其功能和操作界面都与实际生产力工具大相径庭,这会带来效率和时间的浪费,如果学生在学习时惯用的工具与工作中所采用的工具不同,则需要很长时间来适应新工具的使用习惯,在求职和日常工作中都会遇见瓶颈。
高校如果需要加快对数据科学的专业建设,并建立培养人才的完整体系,不仅只看到眼前的便利,更应该选择一个能够在企业工作场景下使用、并且能够连接行业真实项目的新型教学工具。这样能让学生开放地面对与看待各类数据科学问题,进行真实的实践;使用生产力工具进行教学也能让他们不用中途变更工具使用习惯,从学习到生产的切换不受任何阻碍,把更多精力放在锤炼数据思维和技能上。
数据科学教育趋势:工具级打通教学、科研和生产场景
随着数据科学教育的不断发展,数据科学领域的新型教学工具也应运而生,但严格地来说,新型教学工具一般不是仅为教学而生的,它是在科研和实际生产应用中也能使用的一类工具。
首先,新型工具能够很好地支持工业级应用,这点与传统教学工具有着巨大差异,传统教学工具基于教学需求研发,虽然能支持教学,但却无法支撑起工业级应用等一系列功能,而新型教学工具一般是基于产业应用需求研发,例如统计分析领域的SAS和商业数学领域的MATLAB,都是由科技软件厂商开发的教学工具,在生产应用方面用途广泛,让学生的使用习惯能从学习一直延伸到工作和科研中,三者切换不受到任何工具使用的阻碍,这也是一款教学工具长用不衰的根本原因,目前很多国内的顶尖高校已经开始采用新型教学工具。
其次,面对与日俱增的优质数据和案例,教学工具也必须同步跟进,让学生接触到最贴近时代的内容。这一点便需要基于云原生的新型教学工具来实现,让学生快速接触到每个行业中最时兴的高热度数据集和项目,并且能够通过该工具直接挂载使用,教学应该摆脱陈旧的数据集和分析方法,融入进不断发展的数据科学生态。
第三,如果想提高学生的实战能力,将教学和数据竞赛结合起来肯定会事半功,作为数据人才转型的练兵场,数据竞赛的热度已经越来越高,数据竞赛中不仅有来自真实场景的课题和数据集,还等锻炼选手的组队协作,参加数据竞赛对于学生的技能运用能力有很大提升。
最后,新型教学工具还具备公开分享和评论功能,让学生能够在公开的场合进行分析交流,例如和鲸社区这样的数据科学社区,在社区中学习更容易找到兴趣点,与学习伙伴一起,融入进不断发展的数据科学生态,在课内外都可以进行学习交流,这是封闭的传统教学工具无法做到的。
据悉,清华大学在开设数据科学辅修专业的时候便采用了和鲸科技研发的一款云原生教学工具,名称叫K-Lab,不仅支持教学需求,学生还能在K-Lab连接的开放数据社区上参与数据竞赛和企业项目,很好地提升了教学质量。
虽然数据科学新型教学工具应用起来有一定门槛,类似传统教学工具的托拉拽简易操作也相应减少,但数据科学是一门极其特殊的新兴学科,从数据范式到知识范式转变的过程,要有合适的的教学工具作为依托,才能走的更远。