关于什么是大数据,有许多定义。理解的角度可以是数据集,是工艺与技术,是信息资产。例如,Paul Zikopoulos等[15]认为大数据是具有大体积,多来源多种类三个特征的快速的输入与输出数据。IBM公司提出大数据的4V特征Volume、Variety、Velocity、Veracity。本文认为大数据还有一个特征,结构的复杂性complexity。大数据结构的复杂性决定了大数据在一定时间范围内通常无法用常规软件工具进行捕捉、管理和处理,大数据挖掘技术离不开一些以C++语言为基础的语言编程。
大数据工程是利用计算系统、计算机软件作大数据分析以提取有用信息的多学科实践,涵盖大数据的设计、部署、获取和存储。在大数据行业中有这样几种不同角色:数据分析员、大数据工程师、大数据科学家。
数据分析员的职责是以特设报告和图表去帮助公司人员了解具体的查询和处理数据,提供报告,总结和可视化数据。例如,行业数据分析员是依据行业业务需求来建模,数据可视化分析员,则对分析结果作直观化展示。
大数据工程师的职责是设计、建设、整合各种资源的数据以创建大数据仓库,编写复杂的查询,确保数据仓库是容易访问、对数据的提取,转换和加载顺利。他们就是数据软件工程师,工作中通常不需要机器学习或统计学知识。例如,大数据系统管理工程师职责是大数据系统管理维护,包括云计算、软硬件系统平台的安装、调配、运行及维护。大数据系统构架师职责是大数据系统解决方案(包括应用系统的设计部署)和构架设计。
大数据科学家的职责是应用统计学,机器学习和分析方法来解决关键业务问题。他们应具有较强的编程技能、能建立数学或统计模型,把原始大数据转化为知识,对研究结果能解释和发表。一个大数据科学家可以利用大数据工程师准备的“大数据”基础设施去分析大数据,不需要具备大数据工程师的技能。
从知识层面要求看,数据分析员首先是某个具体应用领域,然后是数学与统计学,最后是工智能,计算机信息技术;而大数据工程师的程度顺序是计算机信息技术、人工智能,某个具体应用领域,数学与统计学;大数据科学家的程度顺序是数学与统计学,人工智能、计算机信息技术,某个具体应用领域。
因此,在大数据工程教育中,必须准确理解这三种角色,依据学校自身的实力,精准定位数据科学与大数据技术专业的人才培养目标。
此外,还需理解这三种不同角色所需技能与使用的工具。
一个数据分析员一般不做大数据分析,只需具备基础的数理统计,数据库原理以及相关知识,能做描述性统计、数据修改、简单的数据可视化,精通微软Excel,SPSS,QUANVERT,微软Access,基本掌握SPSS Modeler,SAS,SQL,Tableau,SSAS等软件。
大数据工程师为数据科学家分析大数据而准备“大数据”基础设施,优化公司大数据仓库的性能,工作重心是大数据生态系统的设计和架构,其技能和工具就是:Hadoop,MapReduce,Hive,Pig,MySQL,MongoDB,Cassandra,数据流,NoSQL,SQL编程。
一个大数据科学家把大数据变成有价值和可操作的见解,具备非常广泛机器学习,数据挖掘,统计和大数据基础设施方面的不同技术知识,了解计算机科学基础和多种语言编程是必不可少的。大数据科学家的技能和工具是:Python,R,Scala, Apache Spark,Hadoop,数据挖掘工和算法,机器学习、统计学。