IT人都知道:768k日快要來了。
據(jù)專家估計,就在5月,還有可數(shù)的20來天吧。
所以,網(wǎng)絡(luò)上充斥著對768k日緊張又期待、忐忑又興奮、謹慎又樂觀的各種猜測和預(yù)測。
這種酸爽復雜的心緒,就像是迎接初戀......
無論從哪個角度看,768k日都不算是初戀啦。前有大名鼎鼎的互聯(lián)網(wǎng)故障之母:512k日(512k Day),這場發(fā)生在2014年8月12日的意外事故,令當時全球各地的數(shù)百家互聯(lián)網(wǎng)服務(wù)提供商(ISP)癱瘓,造成了因連接中斷或數(shù)據(jù)包丟失而導致的損失高達數(shù)十億美元。
512k Day & 768k Day 的背景
512k日之所以會發(fā)生,是由于路由器用來存儲全局BGP路由表的內(nèi)存不足,BGP路由表是一個文件,包含所有連接至互聯(lián)網(wǎng)的已知網(wǎng)絡(luò)的IPv4地址。當時,互聯(lián)網(wǎng)的大部分系統(tǒng)通過分配TCAM(三元內(nèi)容可尋址內(nèi)存)的設(shè)備進行路由;TCAM足夠大,存儲最多512000條互聯(lián)網(wǎng)路由。
但在2014年8月12日那天,韋里遜增加了15000條新的BGP路由,這導致全局BGP路由表在沒有警告的情況下突然超過512000條。在舊路由器上,這表現(xiàn)為全局路由表文件從分配的內(nèi)存中溢出,每次嘗試讀取或處理該文件都會使設(shè)備崩潰。微軟、eBay、LastPass、BT、LiquidWeb、康卡斯特、AT&T、斯普林特和韋里遜等公司統(tǒng)統(tǒng)受到了影響。
許多老式路由器都收到了緊急固件補丁,讓網(wǎng)絡(luò)管理員得以為分配用于處理全局BGP路由表的內(nèi)存大小設(shè)置更高的閾值。大多數(shù)網(wǎng)絡(luò)管理員都遵循當時提供的文檔,將新的上限設(shè)置為768000,即768k。
近期,多方數(shù)據(jù)顯示:全局BGP路由表在舊路由器上即將達到768000的限制——CIDR Report是跟蹤全局BGP路由表的網(wǎng)站,它估計該文件的大小是773480個條目,但其中含有一些重復條目;一個名為BGP4-Table的Twitter機器人程序也一直在跟蹤全局BGP路由表的大小,它估計文件的實際大小為767392,離溢出僅一步之遙。
好消息是:不少專家認為768k日不會像2014年那樣引起整個互聯(lián)網(wǎng)的中斷。由于很多網(wǎng)絡(luò)管理員早就知道了768k日,許多人已作好了準備,要么把舊的路由器換成新的;要么調(diào)整固件,允許設(shè)備處理超過768000條路由的全局BGP路由表。
但,我們不禁要問:隨著路由表的不斷累積增大,難道這閾值就這樣一直調(diào)整下去嗎? 512k日之后有768k日,接下來呢,會不會還有1024k日、2048k日呢?
表項空間不足的問題不僅給我們帶來了512k日、768k日這些網(wǎng)絡(luò)運維的麻煩,也給云數(shù)據(jù)中心的規(guī)模擴展和性能提升造成了束縛和困擾。
下圖描述了在傳統(tǒng)底層網(wǎng)絡(luò)中,將二層虛擬網(wǎng)絡(luò)卸載到底層網(wǎng)絡(luò)的Leaf交換機上、并且采用EVPN在所有的Leaf交換機之間傳遞所有虛擬網(wǎng)絡(luò)的所有虛擬計算節(jié)點的網(wǎng)絡(luò)可達信息時的情景:
所有二層虛擬網(wǎng)絡(luò)的VTEP功能被從物理服務(wù)器上遷移到Leaf交換機上部署,因此,每一個Leaf交換機的FIB(ForwardingInformation base,轉(zhuǎn)發(fā)信息表)需要裝載的信息包括兩類:
* 它自己連接的所有物理服務(wù)器中運行的所有虛擬計算節(jié)點的轉(zhuǎn)發(fā)信息,簡稱為本地虛擬計算節(jié)點信息
* 與所有本地虛擬計算節(jié)點處于同一個二層虛擬網(wǎng)絡(luò)中的、運行于其他Leaf交換機下的物理服務(wù)器中的所有虛擬計算節(jié)點的轉(zhuǎn)發(fā)信息,簡稱為遠端虛擬計算節(jié)點
再考慮到二層虛擬網(wǎng)絡(luò)之間的互通、三層虛擬網(wǎng)絡(luò)網(wǎng)關(guān)的分布式部署等因素,我們可以近似地認為,在上面的方案中,每一臺Leaf交換機都需要在其FIB中裝載全網(wǎng)(或全云)所有租戶的所有虛擬網(wǎng)絡(luò)的所有虛擬計算節(jié)點的轉(zhuǎn)發(fā)信息。而且,更為嚴峻的是,這樣的信息在所有Leaf交換機上完全是高度地重疊,即每一臺Leaf交換機都無差別地復制、承載了所有信息。換句話說:一臺Leaf交換機的FIB表項空間的大小,直接決定了云中的虛擬計算節(jié)點的數(shù)量。而Spine交換機的FIB空空如也,除了底層網(wǎng)絡(luò)很少的那一點點轉(zhuǎn)發(fā)信息以外,沒有裝載任何跟虛擬網(wǎng)絡(luò)和虛擬計算節(jié)點相關(guān)的信息……
以一個可容納5,000臺物理服務(wù)器的中小規(guī)模的云數(shù)據(jù)中心為例,將其最低虛擬計算節(jié)點容量設(shè)計為5,000,000是一個最正常的需求。但是,在今天的商業(yè)以太網(wǎng)交換芯片市場上,為1RU高的Leaf交換機設(shè)計的交換芯片的FIB表項空間的容量最常見的只有128K,做的最大的也就僅512K而已。
由此,5,000,000和512K的矛盾就尖銳地凸顯出來了。
在這種矛盾面前,不得不做出的妥協(xié)就是:為了追求將VXLAN的功能卸載到物理交換機上,不得不將整張云能夠支持的虛擬計算節(jié)點的數(shù)量進行數(shù)量級的降低;甚至,干脆棄用明顯具備性能優(yōu)勢的“硬件/EVPN方案”,退回到“vSwitch方案”的世界里,用耗費大量計算力模擬網(wǎng)絡(luò)功能和大幅降低整體性能的成本來換取非常有限的容量提升。
那么,表項空間的難題,有沒有更好的解決方案呢?
重點來了——當然有!它就是PICFATM,Protocol Infinity Cloud Fabric Architecture,協(xié)議無限云網(wǎng)架構(gòu)。它是Asterfusion(星融)為下一代云網(wǎng)絡(luò)全面創(chuàng)新的分布式架構(gòu)。
PICFA采用獨創(chuàng)的分布式路由算法和與之相配合的轉(zhuǎn)發(fā)邏輯,完全重構(gòu)了云網(wǎng)絡(luò)的控制平面與數(shù)據(jù)平面,徹底拋棄了傳統(tǒng)網(wǎng)絡(luò)中低效的集中式存儲結(jié)構(gòu)與轉(zhuǎn)發(fā)邏輯,將云網(wǎng)絡(luò)對云中虛擬計算節(jié)點的容量支持一舉提升100倍至千萬量級,同時大幅提升轉(zhuǎn)發(fā)性能,使網(wǎng)絡(luò)不再成為云計算容量的限制因素,從而為云網(wǎng)絡(luò)從計算空間向底層物理網(wǎng)絡(luò)的遷移打下堅實的基礎(chǔ)。
PICFA將Asterfusion(星融)云網(wǎng)絡(luò)所有交換機的能力整合為一個超級的“分布式虛擬路由表”。在部署了PICFA的云網(wǎng)絡(luò)中,所有租戶的所有虛擬網(wǎng)絡(luò)信息被動態(tài)、智能、均衡地分布在全網(wǎng)的所有Spine和Leaf交換機上,充分利用所有交換機的所有表項空間,由此,單臺網(wǎng)絡(luò)設(shè)備的FIB容量不再成為云的容量限制,虛擬機數(shù)量獲得量級的提升,服務(wù)器計算力被充分利用。
此外,所有Spine交換機可被動態(tài)地劃分為三組,其中第三組可以被指定用來承載VIP租戶和/或關(guān)鍵業(yè)務(wù),這組Spine交換機將會被PICFATM從物理上與其他Spine交換機隔離開來,運行在HULL架構(gòu)(High-bandwidth Ultra-Low Latency Architecture)所描述的資源使用率較低的狀態(tài)下,從而真正做到了物理隔離,讓低優(yōu)先級租戶的流量和盡力傳送型業(yè)務(wù)流量對VIP租戶和業(yè)務(wù)的影響降至0,完全達到SLA(Service Level Agreement)所規(guī)定的服務(wù)質(zhì)量保證,即極低的網(wǎng)絡(luò)延遲和近似于0的丟包率。
最后,做個總結(jié)吧!
▼
由于采用了專利算法,PICFA不僅一勞永逸的解決了表項空間的問題,而且將網(wǎng)絡(luò)對云的支撐能力提升了100倍,將單數(shù)據(jù)中心可制成的虛擬計算節(jié)點數(shù)量一舉提升到千萬量級,為大規(guī)模公有云向更多的租戶提供業(yè)務(wù)支撐打下堅實的基礎(chǔ)。所以,采用PICFA構(gòu)建的Asterfusion(星融)云網(wǎng)絡(luò),可以成功突破服務(wù)器內(nèi)部10G帶寬的物理限制,緊密跟隨基礎(chǔ)網(wǎng)絡(luò)的發(fā)展速度,進入到100G/400G時代,成為名副其實的超高性能網(wǎng)絡(luò)。
也正是因為有了PICFA,Asterfusion(星融)才一直走在“讓云網(wǎng)絡(luò)回歸網(wǎng)絡(luò)”的征途上。區(qū)別于傳統(tǒng)云網(wǎng)絡(luò)中被定義為“粗但是傻”的底層線路,Asterfusion將底層網(wǎng)絡(luò)重新定義為“粗并且靈”的智能網(wǎng)絡(luò),為云中租戶與業(yè)務(wù)服務(wù)的虛擬網(wǎng)絡(luò)直接承載在其上,在提供虛擬化、多租戶的同時,支持NFV等增值功能,讓云的ROI“里外里”地增長。