第三届世界智能大会脚步临近,作为大会官方赛事的中国华录杯·数据湖创新大赛也将同步亮相,那么这听起来高大上的“数据湖”是什么?下面就为大家通俗易懂地讲解下。

  数据湖,字面意识理解,就是存放数据的湖泊。

  如果把来自不同个体的数据看作是已经装好的“瓶装水”,数据湖则是更加自然状态下的一大片水。想想一下,在大数据时代,庞大的数据量已经让传统的“桶装水商店”装不下了,因此需要一个可以满足更大存储需求的新的架构来做大数据的基础设施,这就是数据湖。数据湖汇聚来不同地方的“瓶装水”进行储存,等户需要的时候再进入数据湖中提取所需要的数据就可以了。

  “随着数据剧增,数据储存成本太高,导致大部分数据留不下来。比如城市交通摄像头拍摄的视频,最多能保存1-2个月,而这部分数据对于智慧交通来说则是非常重要的分析基础。”北京易华录信息技术股份有限公司总裁林拥军分析目前大数据产业遇到的难点问题时说,“一般超过2个月数据,我们称其为‘冷’数据。就好像我们平时刷微信一样,3天前的信息不会有多少人还回去浏览,但并不意味着这些数据失去意义,我们需要将这些数据更好地、更低成本地储存起来。一方面不占用现有资源,一方面保证数据能够被完好保存。”

  数据存储分为磁盘存储和光盘存储,磁盘访问速度快,但是成本高,光盘相反。“我们提出了光磁一体化,将短期用不到的数据放到光盘,经常使用的放到磁盘,这样在存储这块,可以节约很大一部分成本。” 林拥军说。

  同时,光磁一体存储,可以使冷、热数据得以完美结合,不怕“勒索”病毒勒索,不怕黑客黑你,也不怕别人有意无意改数据,防水、防电磁、还省电!一用就是50年,更主要的是—便宜!而这种数据湖基础设施建成之后,利用大数据平台+人工智能的完美组合,辅之各类行业子湖、数据分析与展示、模型训练等增值要件,使数据湖不会变成数据沼泽。最后是可以满足城市数据湖面向的客户——政府的多元化需求,形成有用的价值判断并提供给付费用户使用。

  这也就是他们提出的数据湖三部曲,即建湖(海量数据的存储)、引水(数据汇聚)、水资源利用(数据的处理和分析)。

  林拥军举了一个例子,“就好像每个城市都有一个档案馆一样,我们为这些数据找到一个家,并分门别类建立索引,实现数据结构化处理,储存的同时也便于数据提取时能够赋予更多的价值。”

  现如今,数据已经变成资产,大数据产业正在逐步形成一种生态系统,发挥出更大的迭代效能。就在天津津南区华录未来科技园,基于“数据湖”海量数据资源,为园区企业匹配相应的承载平台,汇聚更多生态系统中的企业入驻。在园区规划图上,按照创业成长规律上的孵化、加速、腾飞,不同阶段匹配不同的支持模块。这种“数据湖”模式,已经从天津出发复制到了多个城市。

  5月16日,第三届世界智能大会期间,数据湖创新大赛正式启动预热。林拥军也希望能通过大赛,发现更多善于数据挖掘的团队。所以,今年大赛赛题也将基于真实城市数据问题,并将优秀团队的成果迅速转化为商业模式,不仅有300万元的巨额奖金,还将提供孵化机会,提供融资、市场和技术的全方位创业支持。