过去一个月里,无极4好吗 堪称国产数据库又一高光时刻。
这边厢PingCAP刚刚发布面向企业级核心场景、具备完整 HTAP 能力的分布式数据库TiDB 5.0 版本;那边厢OceanBase也紧跟着推出3.0版本,主攻方向亦是HTAP分布式数据库,在GitHub Oceanbase标注自己为“ The leading Scalable HTAP Database” , 并且又玩了一把TPC-H打榜第一的套路(后续:其成绩很快被超过)。
可能有人会质疑TPC-C和TPC-H的测试价值,毕竟这是两个历史悠久的测试标准,参考价值成疑。OceanBase如果能在TPC-DS上取得好成绩会更有说服力。不过OceanBase自带阿里&蚂蚁光环,属于招黑体质,一举一动都容易引来争议,但敢于在国际舞台亮剑,何尝不是国产数据库的荣耀,所以也无须过于苛刻。
闲言少叙,PingCAP和OceanBase把HTAP这个词彻底带火了。5月28日宣布开源计划的阿里云PolarDB也谈及HTAP,连Oracle上周都发了一篇HTAP的文章。PingCAP近年来一直都是HTAP信徒,大力宣传无可厚非;而OceanBase从传统意义上讲,大家普遍认为它聚焦在OLTP数据库领域,无极加速器 为何这次也大张旗鼓的喊出HTAP口号?
HTAP(Hybrid Transaction and Analytical Processing,混合事务和分析处理)就是能够将在线事务处理(On-Line Transactional Processing,简称OLTP) 和在线数据分析 (On-Line Analytical Processing,简称OLAP) 请求在同一个数据库系统中完成。
正所谓天下大势,分久必合合久必分。此话放在数据库领域一样适用。HTAP的确不是一个很新的概念,纵观数据库五十余年的发展历程,OLTP和OLAP两种需求在其中经历了漫长的融合-分离-再融合的过程。
2005年,Gartner正式提出了HTAP这一概念,并且迅速引起了一些企业的关注,被视为是未来数据发展的重要趋势之一。转眼到了2014年,Gartner又对HTAP数据库给出了明确的定义:即需要同时支持OLTP和OLAP场景,基于创新的计算存储框架,无极4平台代理 在同一份数据上保证事务的同时支持实时分析,省去费时的ETL过程。
彼时,正是大数据兴起之际,人们对于数据及其价值有着重新的认识与认知;另一方面,多核处理器、闪存等硬件技术的高速发展,也让人们逐渐意识到数据库设计是时候重新设计了,在同一数据库处理OLTP和OLAP请求的可行性大幅提升。
所以,作为国产数据库的两大代表,PingCAP和OceanBase齐刷刷瞄准HTAP,的确是摸准了时代的脉搏。但今天的HTAP已经与过去大不相同,数据资源、数据消费习惯以及数据架构的颠覆性变化,既赋予了HTAP新时代的内涵,也让HTAP承担起更重大的责任。
原因始终绕不开一个“数”字。如果仔细研究Gartner关于HTAP的定义,我们会发现“同时支持OLTP和OLAP、创新计算存储框架、去掉ETL”这几大关键词都跟“数据”密切相关,其背后是数据资源、数据消费习惯以及数据架构颠覆性的改变。
首先,数据产生方式、规模、速度与过去大不同。以行为和机器产生的非结构化/半结构化数据正在成为数据增长的主力军,这些数据无论是数据规模、密集度、产生速度都远超交易型的结构化数据;这也直接驱动着HTAP场景在未来会更加丰富化。
其次,实时性的数据消费正在成为新常态,数据消费的人群规模、场景丰富程度迅速增加,无论是最终消费者,还是企业员工都有数据消费需求,驱动着OLTP场景与OLAP场景互相渗透,彼此之间的界限变得模糊。
例如,一个快消品的调研员,会通过手持终端设备随时随地了解产品销售情况和预测销售趋势,进而根据数据做出相应决策;一个基金经理往往需要随时根据客户资产净值、交易频次变化、金融产品销售情况等一系列数据服务,来有针对性进行营销决策……而这些决定常常需要几分钟甚至几秒钟内完成,实时性需求成为新一代HTAP的刚需。
过去,OLTP场景仅仅负责产生数据,数据往往需要搬运到数据仓库或者机器学习平台进行数据消费,数据消费人群也仅仅是数据仓库管理员、决策层等少数人群;现在,在数据驱动型场景大幅增加的加持下,人人都是随时随地的数据消费者,极大推动OLTP场景与OLAP场景的融合。
第三,数据驱动型场景的井喷式出现,让计算与数据两个角色出现变化,过去一直都是以计算为核心,而数据驱动型场景则是以数据为核心,核心角色的转变意味着数据架构将发生彻底改变。
网友回应