新冠病毒传染性强,潜伏期长,如何以最快速度掌握感染者的行动轨迹,切断传染源、阻断传播链条成为防控中的重中之重。为了助力疫情防控和复工复产,健康码等一批应用平台短时间内迅速开发上线,然而这些软件的应用,都要依赖强大的数据库为基础。

  天津数据库开发企业——天津南大通用数据技术股份有限公司就是这样一个幕后英雄,他们配合软件企业开发的数据库产品可以在非常短的时间内完成数以百亿千亿级的计算,只要几秒、甚至几毫秒就能搜寻到密切接触者的相关信息。这样庞大的计算是如何完成的?在长期被国外巨头所垄断的数据库领域,南大通用是如何异军突起,实现国产替代的?

  ▲天津南大通用数据技术股份有限公司外景

  大数据助力疫情“精准”防控

  几毫秒找到密切接触者

  疫情期间任何一个确诊病例,都会有密切接触者,而排查密切接触者是一个很繁杂的工作,特别是排查有过旅行史的人员,尤其难。如果仅仅是依靠发布通告、通知,让旅客自行核对,一是会漏看信息,二是也难免有人因为各种担心而不敢主动申报,给防疫工作带来困难。因此,最好是根据确诊病例迅速形成密集接触者的名单,确定他是谁,坐哪趟车,哪个座位,防控部门就可以迅速找到并展开流行病学调查。但是这样就对数据的完整性、调取数据的准确性和速度提出很高要求。

  ▲12306购票系统的背后是南大通用强大的数据库系统

  天津南大通用数据技术股份有限公司成立于2004年,是国产数据库“四朵金花”之一,也是推动国产基础软件自主可控发展的重要参与者。2017年,中国铁道科学研究院为了支撑12306客票系统上百TB(1TB=万亿字节)的数据量对新一代客票及电子支付平台系统升级工程,采用了南大通用的GBase 8a MPP数据库。新冠疫情的爆发对数据库系统提出了新的要求,南大通用市场部总部总经理袁萌伽说:“新冠肺炎爆发的时候正是春运,这个时候铁路流量会达到峰值。作为铁路的“数据仓库”,我们每天处理的业务数据量高达数百TB,高峰期一天点击量高达千亿次。在这种情况下还要提供新冠肺炎患者及密集接触者的查询,对数据库的要求可想而知。”

  南大通用提供给12306的数据库里存储着我国2000年以来20年的旅客铁路出行数据,有上百TB(1TB=万亿字节)之多。对此,袁萌伽用了一个形象的比喻:“我们可以把数据仓库理解成一个放衣服的大柜子,里面有特别多的衣服,如果你要很快的找到要穿的衣服,那衣服就要收拾整齐,而且摆放也有艺术,把你常穿的、喜欢穿的放在外面。那你找衣服就快。现在这个数据仓库里面放的不是衣服,是表格和数据,这些客票数据约有1000张表,最大表约230亿条记录数据。存储的表格数据非常多。以前我们给12306原来设计的数据仓库,数据管理目标是车票,现在新冠肺炎查询数据管理目标变成了人,关注的是每个车厢乘客的上下车情况、行动轨迹等等。数据管理目标就发生了变化。怎么理解呢?就相当于你以前的衣柜是按照季节放的,夏天的衣服在前,冬天衣服在里面,现在变成按人来收纳了,只找你的衣服,春夏秋冬的只要是你的都放在外面,所以这衣服要重新摆放。”

  2月上旬,接到负责12306研发的中国铁道科学研究院的要求,南大通用立刻开展研发。南大通用数据智能产品经营部总经理张绍勇说,“防控新冠疫情,这就是打仗!我们要不惜代价守好自己的阵地,一定要保证数据库的稳定、数据的准确和查询的及时。”

  当时正是疫情最严重的时候,很多科研人员在老家回不了天津。南大通用就打破部门界限,从各部门紧急抽调了张健等10多名在津技术人员,组成突击队,并由张绍勇亲自带领。

  “当时是临时抽调,很多同事对这个产品并不熟悉,大家一边学习一边开发。铁路系统存的数据非常大,用以前的数据分析方式需要从很多数据库查询数据,查询新冠肺炎确诊患者轨迹很慢,需要几分钟甚至十几分钟。现在我们重新针对疫情特殊的分析查询需求,建立了一个专门的疫情轨迹信息数据‘集市’。这个数据‘集市’只有疫情相关轨迹的信息,所以数据量大大减少,查询、抓取数据就非常的快。还拿衣柜举例子,这就相当于我们干脆把你的所有衣服单独拿出来,放在一个小的箱子里面,箱子里面的衣服数量比衣柜里面的少多了,你现在再找衣服就快多了,不用像以前一样,一个是衣柜里面衣服多,谁的都有,而且这找一件那找一件耽误时间。所以我们现在查询时间从几分钟甚至十几分钟,缩短到几秒钟、甚至几毫秒,整体查询分析性能比原来提升了至少10倍以上。”

  ▲南大通用数据智能产品经营部总经理张绍勇带队研发

  新版本升级上线后,还要保证它的稳定性,为此,公司十几位工程师24小时轮流值守。

  “为了和疫情赛跑,咱们这个新版本是跑步上线,很多暂时无法实现自动处理的事情,我们就先人工顶上,比如人工清理磁盘,人工排查漏洞等等。每天、每分钟都至少有两名工程师值守。”张绍勇介绍说。

  为战斗而生 打破国外垄断

  不仅仅在疫情中,创立16年来,南大通用一直在战斗。

  数据库并非新兴行业,在它40多年的发展过程中经历了多个时代的演进,但前30多年都鲜有中国公司的参与,就更别提做出一款世界级的数据库了。长久以来,在核心的芯片、数据库、操作系统等关键节点,中国公司、中国技术都受制于人。以甲骨文为代表的传统商业数据库始终统治着市场,几乎每家大型企业都需要从国外采购数据库软件,价格居高不下、学习门槛高、维护困难,但大家也别无他选。而数据库作为现代信息系统中最复杂、最关键的基础软件之一,是非常关键一环;银行、电信、交通等金融、通信领域,急需专业的国产数据库来替换以前使用的国外数据库产品来保证庞大数据的安全。南大通用就瞄准了这个机会。

  “2011年,农行的科技部总工叶又生找到我们,给我们两个项目要我们选,一个是小系统审计的,一个大数据仓库,我们胆子大,选了数据仓库这个大项目。”袁萌伽说,中国农业银行以前采用的是国际数据库巨头Sybase IQ产品,主要用于统计报表。随着数据量的不断增大、接入的系统越来越多,Sybase IQ由于性能的限制,很难在指定的时间窗口中完成数据统计分析工作,也无法继续接入其它的业务系统数据,根本满足不了银行内部数据分析和监管机构的监管数据要求。“我们真是初生牛犊不怕虎,这之前我们只做过不到百万级的项目,做了才发现银行系统太复杂,几万亿行的表格司空见惯,表跟表之间的关系也很复杂,每个银行都有上百个信息化系统,各种数据标准不同,格式软件都不一样。一天最高峰时候有200多个问题,这样持续一年多到两年的时间,到现在为止已经5年时间没有出过任何问题,现在农行78个系统接在我们的业务平台上。”中国农业银行大数据平台项目也因此荣获了中国人民银行科技发展一等奖。

  ▲研发团队

  功夫不负有心人,在团队的努力下,南大通用目前已推出多款世界级的国产数据库产品,填补了国内空白,在技术和市场上打破了国外厂商的垄断。就在去年,他们又开始着手某大型保险公司数据仓库的国产替代。张绍勇说,“以前这家公司用的是国外软硬件一体数据库,系统上面应用越多的,用户的依赖性就越强,替代就越难,就跟人换心脏、树换根一样。国外产品经常用这种方式绑架用户,收取高额的维保费用。我们将整体数据仓库业务迁移根据业务优先程度分阶段进行,目前数据仓库第一阶段迁移工作基本完成。替换成功后增量执行时间由原来的18小时减少到7小时,提升了2.5倍;月度报表执行速度提升10倍;整体性能提升了10倍。在保证安全的前提下,我们的产品无论在功能、性能、价格、稳定性上均优于国外软硬一体数据库产品。”

  疫情中,国产数据库大咖也遇到了贷款难

  疫情期间,南大通用为了守住自己的阵地,不计成本,原本该启动的项目都停了,甚至有的订单都取消了。袁萌伽说,“项目启动不了了,只有支出没有收入,资金链紧张。想着贷款,可是我们是IT企业,轻资产没有抵押物,贷款很困难。疫情期间,经常有滨海新区、高新区的领导来,他们不仅仅帮助我们有序复工,还在调研中了解到我们贷款的困难,通过‘中小担’,为我们提供担保,又联系滨海农商行为我们贷款,解了我们的燃眉之急”

  袁萌伽所说的“中小担”是天津市中小企业信用担保中心。这是由天津市工业和信息化委员会与天津市财政局共同出资的事业法人单位,是天津市政府为解决中小企业融资难、扶持中小企业健康发展而设立的担保机构。截止到2019年年底,天津市中小企业信用融资担保中心累计担保户数2700多户,融资担保项目超过10000多笔,累计担保额近150亿元。其中,在保企业中70%以上是像南大通用这样的为无实物抵押的信用担保贷款。

  “像我们这种基础软件行业的科技企业,研发经费投入往往需要十几亿之多,这笔钱完全靠企业自身去募集,压力可想而知。很多民企就是因为资金难以为继不得不抱憾离场”,南大通用高级副总裁赵伟说,“而一旦我们在技术上有了突破,推出的产品实现了产业化,国外巨头就会打价格战,对我们展开围剿,因此企业现金流始终处于紧张状态。资金上的支持特别重要。事实上,市里对我们一直很支持,不仅仅是疫情期间,2018年,公司创始人、第一大股东突然去世,公司运营一度摇摇欲坠。在最困难的关口,市税务局、滨海高新区税务局组建专家团队,对我们开展“订单式”针对性服务,帮我们梳理政策要点,解决涉税难题。”

  南大通用财务总监王竹霞算了算账:2018年研发投入近亿元,同比增加53.85%,研发费加计扣除比例则从50%提高到75%,企业加计扣除金额达4945.5万元。此外,企业还享受软件产品“即征即退”政策,2019年一年就退增值税几千万元。今年深化增值税改革,增值税税率由16%降到13%,企业又将减税数百万元。“天津对国家减税降费政策的落实真的非常及时。”南大通用高级副总裁赵伟感慨道。

  向死求生,放手一搏

  在南大通用的会议室里挂着一幅字“向死求生,放手一搏”。南大通用董事长丁明峰,深有感触地说,“从成立以来,与国外数据库巨头几经厮杀,才取得今天的成绩,产品性能、价格等方方面面都能与国外产品同台竞技。中国信息和通信技术产业经过30多年的发展已经到了纵深发展的阶段,需要更多的核心自主可控,5G、AI、云计算所带来的变革深藏着未来的机会。南大通用的发展已经来到拐点,我们必须放手一搏。”

  ▲向死求生放手一搏

  海量的数据是未来生产资料,蕴藏着无限的价值,合作才能共赢。丁明峰说,目前南大通用已经制定了未来以合作伙伴为中心构建国产基础软件生态体系的发展战略,“我们要全力与合作伙伴共同打造健康稳定的国产生态体系,因为数据库和大数据平台作为本轮数据驱动经济增长的基础建筑,以更加开放的心态拥抱全行业,和产业链上下游充分合作,只有实现国产生态体系的整体发展壮大,中国的高新技术产品才有可能走出国际巨头留下的夹缝市场,真正站上世界级舞台。在精细化分工愈发明显的当下,专注需要有所为有所不为,而在国产基础软件自主可控的道路上,需要更多的像南大通用这样的行路者去追问和探索。”