运用大数据技术开展审计工作,首先必须要获得可靠的审计数据,传统审计工作中,数据抓取的方法可以分为以下四种:⑴直接复制。当审计人员与被审计单位使用同一数据平台时,根据审计工作开展的进程判断所需的审计数据,根据被审计单位财务状况等特点,利用数据平台提取已经设置好的审计数据,根据后续审计工作的需要进行保存。 ⑵通过中间文件采集。 ⑶通过0DBC 接口采集。被审计单位对审计人员提供数据端口的对接权限,并可以将所得数据运用于后续审计工作。 ⑷通过备份/恢复的方式进行采集。将被审计单位的备份数据在其数据平台还原为审计工作需要的数据格式。传统的审计数据采集方法对大数据技术的运用并不广泛,在开展审计工作时,有大量企业还未接驳数据共享端口以及建立成熟的大数据共享机制,缺少平台的支持使得大数据技术在审计工作中的应用存在困难,审计人员不能客观全面的获取审计数据,对审计工作的开展带来操作困难。
网络爬虫技术可充分获取被审计单位的外部公共信息,其操作原理如下:⑴确定目的。确定审计目的明确所需采集的审计数据领域。 ⑵分析页面结构。主要分析数据采集的逻辑以及数据采集的目的。 ⑶通过爬虫数据进行抓取,获得所需数据。 分析得出工作领域后,通过爬出对所需的审计数据精准抓取。 ⑷对获得的数据进行分析核查。对网络爬虫抓取的审计数据进行合理的分类,去除无用的信息数据,为后续审计工作高效的开展提供高质量的信息。