概述最近一個(gè)月,華為公司面向全球發(fā)布了人工智能原生(AI-Native)數(shù)據(jù)庫(kù)GaussDB和業(yè)界性能的分布式存儲(chǔ)FusionStorage8.0,將多年的AI技術(shù)和能力以及數(shù)據(jù)庫(kù)經(jīng)驗(yàn)融入到新品,實(shí)現(xiàn)很多創(chuàng)新性突破,比如人工智能技術(shù)融入分布
概述
最近一個(gè)月,華為公司面向全球發(fā)布了人工智能原生(AI-Native)數(shù)據(jù)庫(kù)GaussDB和業(yè)界性能的分布式存儲(chǔ)FusionStorage 8.0,將多年的AI技術(shù)和能力以及數(shù)據(jù)庫(kù)經(jīng)驗(yàn)融入到新品,實(shí)現(xiàn)很多創(chuàng)新性突破,比如人工智能技術(shù)融入分布式數(shù)據(jù)庫(kù)的全生命周期、一套存儲(chǔ)可同時(shí)支持塊、文件、對(duì)象、HDFS協(xié)議等。
其中,最為標(biāo)桿性的場(chǎng)景應(yīng)用實(shí)屬招商銀行,在實(shí)踐中:
華為GaussDB管理數(shù)據(jù)容量提升10倍,AZ內(nèi)故障恢復(fù)速度提升30倍。以故障恢復(fù)為例,GaussDB的RTO時(shí)間小于1秒,而其他廠商則需要30秒;
FusionStorage 8.0在招行,部署渠道接入、開發(fā)測(cè)試、VDI以及大數(shù)據(jù)系統(tǒng),一套存儲(chǔ)替代原有4種存儲(chǔ)設(shè)備,節(jié)省40%的TCO,業(yè)務(wù)上線速度提升9倍。其次,將人工智能技術(shù)融入存儲(chǔ)全生命周期管理,從資源規(guī)劃、業(yè)務(wù)發(fā)放、系統(tǒng)調(diào)優(yōu)、風(fēng)險(xiǎn)預(yù)測(cè)和故障定位等方面實(shí)現(xiàn)智能運(yùn)維管理,實(shí)現(xiàn)云上云下協(xié)同。再者,分布式存儲(chǔ)性能業(yè)界第一,單節(jié)點(diǎn)性能高達(dá)16.8萬每秒讀寫速度(IOPS)和1毫秒以內(nèi)延時(shí)。基于ARM的算力,IOPS提升20%,基于AI Fabric網(wǎng)絡(luò),時(shí)延降低15%。

歷時(shí)9年的研發(fā)和打磨,低調(diào)謹(jǐn)慎的華為終于掀開了GaussDB數(shù)據(jù)庫(kù)的神秘面紗,讓之走到了臺(tái)前。
其實(shí),GaussDB并非是一個(gè)產(chǎn)品,而是系列產(chǎn)品的統(tǒng)稱,目前GaussDB至少包含有3款產(chǎn)品,有面向OLTP的數(shù)據(jù)庫(kù),面向OLAP的數(shù)據(jù)倉(cāng)庫(kù),還有面向事務(wù)和分析混合處理的HTAP數(shù)據(jù)庫(kù)。
數(shù)據(jù)庫(kù)內(nèi)核開發(fā)路漫漫
做數(shù)據(jù)庫(kù)內(nèi)核開發(fā)如在刀尖上跳舞,壓力很大,但凡在內(nèi)核架構(gòu)與機(jī)制制定上有一絲一毫沒考慮清楚,那么,上線就一定會(huì)出問題,后果嚴(yán)重。因?yàn)椋坏┐_定的方向進(jìn)行不下去,就會(huì)導(dǎo)致推倒重來。一位核心研發(fā)工程師對(duì)筆者說。
2007年,因?yàn)殡娦艑?shí)時(shí)計(jì)費(fèi)項(xiàng)目困境,華為開始組織人手研發(fā)內(nèi)存數(shù)據(jù)庫(kù),項(xiàng)目代號(hào)GMDB,這是可追溯華為最早的數(shù)據(jù)庫(kù)研發(fā)記錄。
當(dāng)時(shí),華為決定自研內(nèi)存數(shù)據(jù)庫(kù)的想法并不高大上,而是很單純,完全不是外界所猜想的搞個(gè)數(shù)據(jù)庫(kù)去售賣并干掉誰,純粹只是因?yàn)樵陔娦庞?jì)費(fèi)領(lǐng)域,華為解決方案找不到能與之很好契合的數(shù)據(jù)庫(kù),僅此而已。
眾所周知,電信行業(yè)對(duì)數(shù)據(jù)庫(kù)要求較高,尤其是可用性,定制化需求較多,涉及改動(dòng)工作量大,而采用國(guó)外數(shù)據(jù)庫(kù),讓原廠來配合改動(dòng),人家未必會(huì)配合。因此,無奈下,華為被迫走上了自研數(shù)據(jù)庫(kù)的道路,以此來提升自身解決方案的競(jìng)爭(zhēng)力。
不過,2007年的GMDB并沒有取得大規(guī)模商用,只在小范圍內(nèi)進(jìn)行試用,但這個(gè)版本卻鍛煉了一大批人。當(dāng)時(shí),國(guó)內(nèi)對(duì)數(shù)據(jù)庫(kù)內(nèi)核開發(fā)知之甚少,有經(jīng)驗(yàn)者寥寥,都是摸著石頭過河。
但有苗不愁長(zhǎng),到了2010年,華為數(shù)據(jù)庫(kù)研發(fā)團(tuán)隊(duì)開始對(duì)2007年版本進(jìn)行全面重構(gòu),并寫下了重構(gòu)版本的第一行代碼:
“typedef struct st_database{...}database_t;” 數(shù)據(jù)庫(kù)對(duì)象的定義。
從這個(gè)版本開始,華為數(shù)據(jù)庫(kù)的定位已經(jīng)不再僅局限于內(nèi)存數(shù)據(jù)庫(kù),而是在向通用關(guān)系型數(shù)據(jù)庫(kù)逐漸轉(zhuǎn)變,重構(gòu)過程中,開始融入大量非內(nèi)存數(shù)據(jù)庫(kù)的特性,這就是Gauss OLTP數(shù)據(jù)庫(kù)的前身。
重構(gòu)后的版本,質(zhì)量上取得了顯著提升,2012年,GMDB開始大規(guī)模商用,主要應(yīng)用于電信計(jì)費(fèi)領(lǐng)域,同時(shí),在華為內(nèi)部,眾多配套的解決方案也開始使用GMDB。
華為GaussDB 200
華為GaussDB 200開始于2012年,研發(fā)團(tuán)隊(duì)分析了業(yè)界數(shù)據(jù)庫(kù)相關(guān)理論和技術(shù),在基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的SQL引擎和事務(wù)強(qiáng)一致性等基礎(chǔ)上,進(jìn)行了分布式、并行計(jì)算的改造。歷時(shí)6年,打造了一款架構(gòu)領(lǐng)先的分析型數(shù)據(jù)庫(kù),為各行業(yè)PB級(jí)海量數(shù)據(jù)分析提供有競(jìng)爭(zhēng)力的解決方案。
GaussDB 200可以很好兼容標(biāo)準(zhǔn)ANSI SQL 99/2003語法和PostgreSQL生態(tài)。
與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品使用專有硬件不同,GaussDB 200運(yùn)行在通用X86服務(wù)器上,采用MPP+shared-nothing架構(gòu),因而能夠具備良好的擴(kuò)展性。可以在不中斷業(yè)務(wù)的前提下,實(shí)現(xiàn)數(shù)據(jù)庫(kù)的在線擴(kuò)容。
這個(gè)擴(kuò)容采用表級(jí)擴(kuò)容機(jī)制,即完即用,支持未擴(kuò)容表與已擴(kuò)容表之間關(guān)聯(lián)分析;通過引入一套增量機(jī)制記錄擴(kuò)容重分布過程中的數(shù)據(jù)修改(增刪改),待基線數(shù)據(jù)重分布完成后,將增量數(shù)據(jù)Merge到擴(kuò)容后的集群中;提供任務(wù)自動(dòng)等待Retry機(jī)制,確保新舊數(shù)據(jù)切換業(yè)務(wù)不中斷、無感知。
GaussDB 200 MPP節(jié)點(diǎn)間并行+SMP單機(jī)多核并行+列存向量化指令集并行+LLVM機(jī)器碼編譯等技術(shù),可以充分發(fā)揮集群硬件資源,能夠達(dá)到萬億級(jí)數(shù)據(jù)查詢秒級(jí)響應(yīng)的能力。其中通用X86服務(wù)器上,可以提供彈性集群、跨代兼容等特性,避免硬件鎖定。
- 在架構(gòu)設(shè)計(jì)上,硬件中磁盤、交換機(jī)、網(wǎng)卡等均采用高可用設(shè)計(jì);軟件上則采用全組件高可靠架構(gòu),協(xié)調(diào)節(jié)點(diǎn)多活,數(shù)據(jù)節(jié)點(diǎn)獨(dú)創(chuàng)主+備+Handoff三重?cái)?shù)據(jù)保護(hù),GTM(Global Transaction Management)等進(jìn)程采用主備方案。可以確保集群中任意一個(gè)節(jié)點(diǎn)故障業(yè)務(wù)不中斷。
- 安全性方面,新產(chǎn)品支持客戶端連接的SSL認(rèn)證服務(wù);并通過了華為網(wǎng)絡(luò)安全實(shí)驗(yàn)室ICSL認(rèn)證,遵從英國(guó)頒布的網(wǎng)絡(luò)安全標(biāo)準(zhǔn)。
GaussDB 200支持通過SQL訪問HDFS上的數(shù)據(jù),支持CUDF,支持全文檢索,從而為數(shù)據(jù)業(yè)務(wù)創(chuàng)新,提供簡(jiǎn)單應(yīng)用的技術(shù)手段。
總結(jié)
還記得華為GaussDB發(fā)布視頻中的一行文字:向數(shù)學(xué)致敬、向科學(xué)家致敬。GaussDB,不僅蘊(yùn)含著華為對(duì)數(shù)學(xué)和科學(xué)的敬畏,也承載著華為對(duì)基礎(chǔ)軟件的堅(jiān)持和夢(mèng)想。
后面會(huì)分享更多devops和DBA方面的內(nèi)容,感興趣的朋友可以關(guān)注一下~