图片来源@视觉中国
文 | 产业家,作者 | 思杭,编辑 | 皮爷
2023,数据库格局正在变化,愈演愈烈。
如果说哪个环节是如今国产替代的最火热环节,那数据库无疑是最多人选择的答案,甚至是之一。
2018年10月,张家港农商银行的企业客户信息系统(ECIF)数据库被顺利替换为腾讯分布式数据库TDSQL,这是国内第一家进行核心系统迁移的银行机构。而在接下来的几年时间里,各个国有大行都开启了核心系统迁移的路程,其中数据库是重中之重。
“现阶段数据库的替换开始从国有大行向农商行等区域银行开始迁移,整体投入非常大。”一位互联网大厂金融负责人告诉产业家。
如果说芯片上的卡脖子,中国的企业需要几代人来填补。那么在数据库这些软件测,中国的国产数据库厂商正在奋起直追,不论是今年阿里云和腾讯云数据库的先后打榜,再或者是之前达梦、星环科技的上市,以及华为云数据库最近公布的软硬一体协同,都在昭示着中国的国产数据库正在尽全力完成对固有“IOE”的替换。
如今,战场不仅银行,参战者也不仅单独的一家。对中国的国产数据库而言,机会和挑战都在加速涌来。
2023,国产数据库迁移潮
据2022年9月国资委79号文件,截止到2027年“2+8+N”党政与八大行业完成100%国产替代,替换范围涵盖芯片、基础软件、操作系统、中间件等领域。然而,目前这些行业的国产渗透率只有10%。
在所有行业中,金融是国产化进程最快的行业。从2022年到2023年的数据中就可以看出这一趋势。
据墨天轮不完全统计,2022年国产数据库行业共收到51次中标喜讯。其中,金额最大的是中兴通讯、OceanBase、亚信AntDB、万里数据库4家联合中标中国移动1.45888亿元超级大单。单家中标金额最大的是阿里云,其中标广东移动2022-2023年主备式自主可控 OLTP 数据库,金额达到了967.28 万。
从采购单位性质分析,46%的采购单位集中在金融领域,其次是政府,占比达18%。这一趋势也延续到了2023年。
根据公开数据,2023年1月-5月国产数据库共中标15次,中标最多的行业是金融业,其中银行的数据库国产替代进程步伐更快,并且几乎都是核心业务数据库的替换。
从替换成果来看,2023年云原生数据库和湖仓一体数据库的趋势已经开始显现。
在国内政策和国际环境的双重作用下,国产数据库百花齐放,起步较早的国产数据库厂商在稳定性和性能上已经可以与国际大厂同台竞技。这些国产数据库在金融、政府、能源等重要行业已经得到多次验证。
实际上,在所有国产数据库中,每家数据库所具有的特性各不相同。不同行业对数据库的要求也都不同。综合多方报告来看,OceanBase是目前国内企业使用频次最高的国产数据库,排名第二的是达梦。而其中在各个行业这个指标也是有所不同,比如银行未来最多计划使用的是华为云GaussDB,而互联网行业最多未来计划使用的国产数据库是阿里云的PolarDB。
目前看来,Oracle、MySQL和微软等海外数据库在国内部署占比依旧是最高的。
此外,一个最真实的问题是,目前国产数据库与国外数据库的是否还有差距?。
首先,在数据层面,有三点考量因素,数据一致性、数据安全性和代码安全性,这也是最重要的考量因素。尤其在金融和政府等行业,数据安全永远排在第一位。
数据一致性是指交易发生的同时性。比如A给B转账50元,A账户上减少50元的同时,B账户上也要增加50元。这种因素对于银行和券商极为重要。
总体来看,相较于国外数据库,国内数据库在数据层面的表现欠佳。Oracle、MySQL和微软的SQL Server都有极强的数据一致性和安全性。而国内数据库除了部分厂商表现与国外数据库相当,其平均水平与国外仍有一段差距。
但值得一提的是,国外数据库在代码安全性上表现并不好,整体弱于国内数据库。其中,阿里的OceanBase、南大通用的Gbase8a和华为云的GaussDB这这方面有不错的参数表现。
第二,在功能层面,包括兼容与迁移能力、事务处理能力和大数据实时处理能力。在这一点上,国内外数据库表现相当。在此之中,厂商最担心的因素是兼容性。因为更换了数据库后,向下需要担心服务器、芯片和操作系统的适配性,向上还要考虑OA、ERP等应用系统的兼容性。
在效果层面,包括稳定性、可靠性与性价比。其中,稳定性也是厂商和机构在选购时最在意的因素。可以发现,在这些最重要的因素,国外数据库的表现都非常出色,国内数据库厂商则良莠不一。
而这些问题在具体的交付过程中,则会被一一显现出来。
国产替代,长路漫漫
数据库作为基础软件,需要几十年如一日的积淀。如今,去O的进程在中国已经进行了15年,但国内数据库市场渗透率仍不足10%。关于“国产数据库真的能替代Oracle吗?”这一问题,至今还在被持续热议。
根据艾瑞咨询2022年数据库使用情况调查结果显示,在数据迁移难度、数据库一站式管理、运维与备份复杂度是数据库用户遇到最多的几个难题。
第一,数据库迁移难度大,占比19.2%,难点聚焦于迁移过程中的兼容性、数据安全、停机时间、数据校验和性能保证等。第二,缺乏数据库的一站式管理,占比14.8%,当前市场上的一站式管理平台以管控类为主,主要面向DBA等专业技术人员,而对开发、业务、运维等其他角色的门槛偏高。第三,运维与备份的复杂度高,占比14.3%,随着技术路线的灵活度和复杂度提升,运维与备份和难度势必增加。
从数据库厂商的角度分析,国产数据库的几大通病聚集在研发、专利和代码自主化程度上。这些都是经常被人诟病的几大难点。
首先,国产数据库厂商研发人数占比过低,超60%的厂商研发人员还不过百人,这与国外形成了鲜明对比。其次,在国产数据库专利方面,所有国产关系型数据库的专利数加在一起不足4000件,而单Oracle的专利数就达到了14000件。最后,国内目前很多代码自主化率并不高,大部分国产数据库都是在现有的开源基础上进行修改。
此外,根据大部分使用国产数据库的口碑来看,国产数据库在性能、功能和可用性方面也存在问题。
首先看性能方面,国产数据库的性能并不是均衡发展的。与Oracle相比,有些国产数据库OLTP的性能较好,有些则是OLAP的性能更好。所以,国产数据库要想克服这一问题,就需要针对不同类型的数据库,采用不同的解决方案。
其次是功能方面。像Oracle等传统商业数据库有几十年的积淀,国内“年轻”的数据库还有很长的路要走。在这种情况下,国产数据库要想实现“弯道超车”,就不能沿着Oracle的老路继续走,而是根据国内的数据需求,制定出一条符合自己的数据库类型,在保障性能和主要功能的前提下,实现功能上的差异。
最后则是最关键的可用性方面。由于Oracle数据库较为成熟,所谓的“成熟”,具体来说是,其使用率较高,修复的bug也较多。而国产数据库较为年轻,仍有许多未发现的漏洞。针对这种问题,解决办法只能靠所有使用国产数据库的企业共同努力。
此外,在数据库国产替代的过程中,企业还会考虑的一个更大的问题是迁移难度和迁移成本,在迁移成本中,也包括兼容性的问题。一般来说,一家企业完成数据库的国产替代需要花上2~3年的时间,在这过程中需要评估改造难度。
比如在国产数据库选型过程中,会考虑到与上层应用系统的兼容性问题。因为目前,大部分传统行业的应用系统仍然使用的国外的系统。像一家大型制造业企业,或者一家传统银行,其内部上上下下的应用系统不可能跟着数据库的更换而更换。一旦兼容性出现问题,损失重大。
但受政策驱动,全行业在2027年都要完成100%的国产替代,届时,企业对于兼容性问题的考量也会削弱。
虽然目前国产数据库的成熟度还不比国外,但在政策和市场需求侧多方面影响下,国产数据库不无“弯道超车”的可能。
数据库迁移潮,正在加速到来
2023年,国产数据库正在进入「狂飙」时代。在国内对分布式数据库需求增加,国内传统行业数字加速转型,业务复杂度升级的基础上,传统数据库局限性愈加凸显。
从2000年到2023年,国内数据库一路高歌猛进,经历了非常重要的三个转折点。
第一个转折点是2000年BAT时代的到来。当年,互联网大厂兴起,国内数据库也迎来了自己的光辉十年。国产数据库终于可以通过自己的技术力量,不依赖国外高端业务就可以做好。
第二个转折点是在2010年后,当时是4G时代。国内互联网一路演进,在那片土壤下生长出了很多种应用,比如短视频和微博。这些App的兴起,让国内对数据库的需求不再局限于关系型数据。彼时,国内云厂商也有了自己的积淀,可以提供适用全场景的数据库。
第三个转折点则是今天,2020年后,随着传统行业高速发展,Oracle、DB2局限性越来越明显。在BAT时代和4G时代积累的数据库,也愈加能承载诸如保险公司和能源公司等行业的数据需求和业务复杂度需求。这也为国产数据库“弯道超车”提供了充足的可能性。
除了市场需求的变化,信创也是所有央企国企考虑使用国产数据库的首要因素。以央企为例,如果不进行国产数据库的替换,不仅面临Oracle数据库被禁止使用的问题,还会遇到许可证费用增加的问题。
首先,中美国际环境在很长一段时间都会处于紧张状态,贸易战和科技战加剧,美国政府不知何时会在未来的某一天,以国家安全等为由,禁止央企或其他中国企业使用美国厂商研发的数据库产品和技术。
而Oracle在央企占比十分大,并且都是企业经营管理的核心系统。一旦被禁止应用,将将产生不可估量的影响与损失。
其次,近两年随着传统行业数字化程度加深,很多央企对Oracle数据库的应用不仅限于应用水平较低的数据存储。如果应用继续深入,也会带来Oracle数据库许可费用的大幅增加。
最后,由于Oracle数据库诞生于三四十年前,其技术架构存在一定局限性,如采用集中式架构无法线性扩展,稳定性、性能强依赖硬件。对于那些越来越多的并发量大、峰值高等带有互联网场景的数字化应用系统,Oracle数据库将无法支撑。
从市场需求到业务复杂度,从信创要求到技术架构局限性,当下的种种因素都驱使着国产数据库迁移的加速到来。
国产数据库,走向何方
从2023年国产数据库的中标情况可以看出,未来国产数据库有两大发展趋势——云原生、湖仓一体。
首先,云原生数据库就是从根本上改变技术架构,让数据库实现真正意义上的横向扩展。因为云本身具有弹性、可扩展性的特点,云原生数据库可以在全面云化的基础设施环境中,按照使用情况进行更细粒度的计费。
对于云原生数据库,现在有一种说法,云原生数据库已进入2.0时代,更强调一个能集成多种引擎的全面数据库解决方案。简言之,云原生数据库可以充分发挥云上的优势,让每个分区都可以充分享受云带来的弹性和高可用能力。
对此,华为云给出的解释是,业务是否“生于云、长于云”,决定了企业是否能充分享受到云原生数据库带来的极致体验。
这种弹性能力在关键时刻就会发挥作用。比如,双十一场景下,庞大的数据量如果用传统数据库,只能靠硬件堆砌。但云原生数据库就可以解决这一瓶颈,利用弹性可用这一优点成为问题的突破口。
从另一种角度看,云原生数据库也是国产数据库“换道超车”的一种可能性。
以阿里云当年自研数据库为例,当时阿里决定做双十一,创造了淘宝业务数据量的峰值,加上互联网业务所需的弹性,Oracle数据库集群已无法满足,将阿里“逼上”自研数据库的这条路。
后来阿里云时代,在阿里云不断服务客户的过程中,积累了如云数据库的托管服务RDS、云原生数据库PolarDB和分布式版本PolarDB-X等丰富的数据库服务。
过去几十年,数据库经历了从早期的关系型数据库,到数据仓库和关系型数据库配合,OLTP和OLAP两个领域的细分,再到开源数据库、NoSQL数据库,最后到今天云原生数据库的发展历程。
今天,云原生之所以成为未来数据库的一大发展趋势,一方面是因为数据规模爆炸性增长;另一方面是数据的生产和处理的实时化和一体化需求越来越强,对于一站式数据管理与服务的需求也随之增强。第三,用户处理数据对智能化的要求,也推动云原生数据库的发展。
据Gartner预测,2022年,全世界75%的数据库会以云的方式运行。未来,数据库领域的核心发展方向是云原生+分布式,以及由此带来的几个核心技术布局:安全稳定、自动化与智能化、数据库大数据一体化、数据仓库与数据湖、多模数据库以及软硬件结合。
另一大趋势是湖仓一体。
简单理解湖仓一体是,数据湖+数据仓库的结合。其中,数据湖的特点是存储非结构化的数据,这些数据往往比较杂乱,但使用起来很方便,可以从中任意挑选数据随意组合。数据湖更适用于前期的开发。
数据仓库则相反,它主要存储结构化、经过处理的数据。这些数据的“排序”非常规范、有序,但用起来却没那么灵活。但两者各有利弊,如果能将数据湖的灵活与数据仓库的规范结合到一起,就可以实现让数据先在数据湖中进行开发,再将整理后的数据在数据仓库中存储,让数据在湖与仓之间自由流动。
湖仓一体的优势已愈加明显。从各类做湖仓一体的数据库厂商来看,各家技术路线各不同,有些选择自研,有些则基于开源,而有些是自身云平台的产品组合,但最终目的都是为了降低数据在不同平台间的流动,比如国内的阿里云和华为云,会通过各类云上的工具打通不同产品或组件间的数据流通。
随着业务需求量和复杂度的攀升,未来国产数据库也会持续进化。目前,国产数据库在政策和业务环境等多重因素的驱动下,正在一路狂飙。但国产数据库若想看到“爆发点”,还需要“弯道超车”。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App