首先,大数据是由诸多数据单元构成的系统整体。大数据是相对于传统小数据而言的,传统小数据的形式众多,随机抽样数据是其典型形式之一。大数据则是反映系统全貌的数据,是关于系统的所有数据之和。正如《大数据时代》一书的作者所说:“我们需要的是所有的数据,‘样本=总体’”。例如气象台每日用作天气预报的数据无疑是一种大数据,这种大数据就是种类相当多的总体:其中既有大气温度的数据,也有大气压力的数据,亦有大气湿度的数据以及风力和风向的数据等等,此外不同高度、纬度、时间段的数据也不同,这些数据的总体就构成所谓的大数据。又如经济大数据也是这样,它不仅包括成千上万经济部门的数据,而且包括各个部门不同历史时期的数据,只有尽可能全面把握这些数据,才能对其进行比较研究,并找出经济整体变化的规律性。总之,人们在收集大数据时,应把重点放在不同质的数据收集上面,并且要尽可能地保证全面性,而不能有重要残缺,这样才能为完整大数据的形成和应用打下坚实基础。
其次,大数据是有复杂结构的系统整体。任何真正的大数据都必然是有结构的整体,胡乱堆积在一起的数据并不是真正的大数据,也没有认识意义。大数据的结构形式是很多的,主要有㈠空间结构,即各种数据按一定空间关系形成的结构,如地理大数据通常就具有这种结构。㈡时间结构,即按数据出现的时序特征形成的结构,通常所说的数据链就是指这种结构。㈢逻辑结构,即各种数据之间按照逻辑关系形成的结构,如哪些数据是关键数据,那些数据是非关键数据;哪些数据是主要数据,哪些数据是非主要数据;那些数据是核心数据,那些数据是非核心数据,哪些数据是因,那些数据是果,等。㈣数量关系结构,即各种数据之间按着数量比例关系形成的结构,如在各种致死疾病的数据中,有些疾病致死率为50%,有些疾病致死率为30%,另有些疾病致死率为10%等,这就是一种具有数量比例关系结构的大数据。除此之外,大数据的结构还有静态与动态、协同与冲突等形式上的差别。把握大数据的结构特征,是利用大数据认识世界和改造世界的关键。缺乏对大数据的结构认知,是无法利用其取得认识世界和改造世界成功的。现在有人认为创立大数据就是收集各种数据的过程,这是一种片面性认识,只有在充分收集了各种数据之后,把这些数据按照一定结构组织起来,才能形成真正有用的大数据系统。
再次,大数据是与环境密切关联的系统整体。事实说明,任何大数据都是与环境密切关联着的,脱离了特定环境,大数据就难以形成,即便形成也会很快失效,因而把握大数据与环境的关联至关重要。所谓大数据与环境的关联主要表现在两个方面:一是大数据是在特定环境中产生的。例如我国人口大数据有些是在计划经济时代形成的,有些是在市场经济环境下产生的。脱离这两种特定环境来应用人口大数据,就会发生认知或实践错误;又如世界各国的政治经济环境不同,因而其经济大数据也各有特征,甲国的政府决策只能依赖于甲国的经济大数据,而不能以乙国的大数据作为依据,反之亦然。二是大数据随时空环境的变化而变化。如我国政府规定每隔5年做一次经济普查,标准时点为普查年份的12月31日;每隔10年做一次人口普查,即在年号末尾为0的年份进行。每一次普查环境都不一样,获得的大数据也不同。总之,大数据是始终处在开放环境之中的,并时刻与环境进行着数据交换,忽视大数据的环境特征,大数据就难以形成并会丧失现实意义。
复次,大数据具有指导人们认识和实践的系统功能。任何系统都是有特定功能的,大数据是对客观系统的组成和结构的信息化反映,是一种数据信息系统,人们通过把握大数据,可以有效认识事物、评价事物、设计改造事物的方案。大数据的认识功能与传统小数据的认识功能是有别的,小数据的认识功能主要是通过个别来把握一般,通过局部来把握总体。利用小数据来认识事物时,小数据载体的典型性选择十分重要,如果是非典型性的小数据,则难以反映出系统事物的全貌。而大数据方法则是通过数据总体来认识和把握系统事物,因而既能反映事物总体特征,也能反映出事物的局部特征,从而系统地把握系统和事物。由于大数据不仅规模庞大,而且种类繁多,因而光靠人力难以为之,必须借助计算机和网络才能有效获取并处理和利用之。现在的人工智能就是以大数据的获取和处理、利用为基础的。此外,人们通过把握大数据,更可以有效改造世界,极大扩展人类实践能力。现在的宇航技术、深海探测技术、人工智能技术、生物工程技术、灾害预报技术、环保技术、以及高铁等交通技术全都离不开大数据支持。有一种观点认为,大数据不能解决因果关系的认识问题,而只能解决相互关系。这是一种误解,是缺乏对大数据自身发展规律认识的表现。实际上,通过系统不同时期和不同阶段大数据的比较,就可以获得对系统宏观因果关系的认识。随着科学技术的进一步发展,人类将进入一个新的以大数据为基础的认知世界和改造世界的时代——大数据时代,从而使人类的认识和实践能力大大超过以往小数据时代人类能力的总和。
最后,大数据遵循系统生命周期规律。任何大数据系统的存在都不是永恒的,而是周期性地不断更新的。在大数据形成的开始阶段,数据种类和数据量总会不断增多增大,数据结构则会趋于复杂和优化,数据与环境的关系则会日益紧密,其指导人们的认识和实践功能也会不断增强;而当这种趋势达到一定节点之后,就会开始相反方向的变化:数据种类和数据量就会逐渐减少,其结构则会出现紊乱和劣化,其与环境的关联度就会减小,功能也会日益减弱,而当这种趋势达到某种关节点时,则原有大数据系统也就会陷于崩溃而被新的大数据系统所取代,而其中的有价值数据成分则会被新的大数据系统吸收。例如,普通列车运行大数据被高铁运行大数据取代、传统农业大数据被现代农业大数据所取代、工业时代大数据被信息时代大数据所取代等等过程都是如此。因而,人们在使用大数据系统时一定要有更新观念,而不能拘泥于一种大数据系统而不能自拔,以防落后于时代而造成损失。