欢迎光临~星空体育竞技娱乐app官网

全屋定制

挖掘数据生产力让数据随时准备就绪

发布时间:2024-10-22 01:37:40   来源:星空体育官网app

  自去年12月“数据二十条”(《关于构建数据基础制度更好地发挥数据要素作用的意见》)发布以来,数据要素价值不断凸显。如何让数据从无序的“存储态”转变为能够有序流转的生产要素?源源不断产生的数据需要导入、清洗、分类归总,如何缩短数据挖掘前的准备时间,提升数据要素化的效率,让数据随时准备好被使用?

  “当前无论是机构还是企业都存储了大量数据,使用这一些数据一度不太高效。”在12月15日举行的《NoETL白皮书》发布会上,浙江大应科技CEO周卫林表示,数据编织技术的应用将快速缩短数据从混乱到有序的时间。

  资料显示,权威信息技术分析公司高德纳(Gartner)连续三年将数据编织技术(Data Fabric)列为“十大数据和分析技术趋势”之一。在其此前发布的中国数据分析与人工智能技术的相关报告中,数据编织技术与大模型一并被列为有望膨胀发展的技术。

  那么,什么是数据编织技术?应用这一技术对挖掘数据生产力,提高数据要素效能将发挥哪些作用?

  近年来,数据计量单位从兆比特(MB)持续增长到吉字节(GB)、太字节(TB)、拍字节(PB)……无论传统行业还是新兴行业的数据都在以指数倍速度扩大体量。

  “数据仓库是‘只进不出’的,它的规模会一直增长,但量的增长未必会带来价值的增加。”周卫林解释,数据是不是产出价值与其数量并不存在线性关系,若无法立即处理、分析,提炼成知识,数据量的增加反而会增加成本,降低效率。

  因此,由于数据海量增加,很多企业或机构面临新问题,需要及时对数据的“经纬”逻辑进行梳理。相关负责这个的人说,招商银行总行数据“湖仓”的整体规模已达数十PB。主要数据仓库生产系统规模已经增长到十几万张表、每天需运行几十万个任务对数据来进行抽取、转换、加载,由于处理量巨大,数据准备周期长、人力投入大,有些任务的完成周期达到两周,难以完成及时“微决策”需求。

  应对数据量陡增,数据编织被认为能为海量数据快速、“有序”分析提供有效方案。“对数据来进行‘编织’是在数据虚拟化的基础上。”周卫林说,虚拟化之后,数据无需复制就可以整合,且不受数据源、格式的限制,这一技术隐藏了数据本身的复杂性和差异性。

  “数据编织技术能够对不同数据来进行逻辑整合,我们和大应科学技术合作构建出一个统一的逻辑数据资产层。”招商银行技术人员介绍,数据使用者只需在“逻辑层”调用,就可高效获得可用数据,整体计算和存储消耗不到传统方案的50%。

  “通过‘逻辑层’提供统一数据服务,不仅实现了实时的数据访问,还减少数据复制的搬运时间和成本。”周卫林表示,因此,能够极大提升数据要素的生产力。

  此外,由于有了统一的“逻辑层”,此前需要技术人员才能有效处理的跨源、异构数据普通业务人员也能处理。周卫林打了个比方,“逻辑层”就好比电脑的“视窗”系统,之前要学会DOS语言才能操作,现在操作则只需要鼠标和按键。

  “我们的可信数据能够以可理解的方式交付给业务的决策者。”招商银行有关技术人员表示,由于数据都在“逻辑层”上,业务部门能够直接进行自助服务,不同部门间也能开展高效协作,无需像之前只能等待数据工程师在物理集成的基础上再开发复杂的数据链路。

  “数据二十条”提到要带领企业和科研机构推动数据要素相关技术和产业应用创新。为保障数据安全,数据流通通过技术实现了“可用不可见”;为了更好的提高数据利用效率,仍需要通过技术改变数据价值挖掘时“可见不可用”的问题。

  “随着信息化水平的提升,机构和企业中均形成了大量新的数据源,不同数据源的数据类型不同。”周卫林表示,为应对这一新问题,企业将持续开展科研创新,通过应用数据编织、AI增强的自适应加速等新技术助力数据要素在实现价值的“最后一公里”上随取随用。