关于什么是大数据,有许多定义。理解的角度可以是数据集,是工艺与技术,是信息资产。例如,Paul Zikopoulos等[15]认为大数据是具有大体积,多来源多种类三个特征的快速的输入与输出数据。IBM公司提出大数据的4V特征Volume、Variety、Velocity、Veracity。本文认为大数据还有一个特征,结构的复杂性complexity。大数据结构的复杂性决定了大数据在一定时间范围内通常无法用常规软件工具进行捕捉、管理和处理,大数据挖掘技术离不开一些以C++语言为基础的语言编程。
大数据工程是利用计算系统、计算机软件作大数据分析以提取有用信息的多学科实践,涵盖大数据的设计、部署、获取和存储。在大数据行业中有这样几种不同角色:数据分析员、大数据工程师、大数据科学家。
数据分析员的职责是以特设报告和图表去帮助公司人员了解具体的查询和处理数据,提供报告,总结和可视化数据。例如,行业数据分析员是依据行业业务需求来建模,数据可视化分析员,则对分析结果作直观化展示。
大数据工程师的职责是设计、建设、整合各种资源的数据以创建大数据仓库,编写复杂的查询,确保数据仓库是容易访问、对数据的提取,转换和加载顺利。他们就是数据软件工程师,工作中通常不需要机器学习或统计学知识。例如,大数据系统管理工程师职责是大数据系统管理维护,包括云计算、软硬件系统平台的安装、调配、运行及维护。大数据系统构架师职责是大数据系统解决方案(包括应用系统的设计部署)和构架设计。
大数据科学家的职责是应用统计学,机器学习和分析方法来解决关键业务问题。他们应具有较强的编程技能、能建立数学或统计模型,把原始大数据转化为知识,对研究结果能解释和发表。一个大数据科学家可以利用大数据工程师准备的“大数据”基础设施去分析大数据,不需要具备大数据工程师的技能。