2022年9月16日-17日,QECon全球軟件質(zhì)量&效能大會(huì)上海站在上海龍之夢(mèng)大酒店隆重舉辦。本次大會(huì),聚焦人工智能、云原生、移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、業(yè)務(wù)價(jià)值、協(xié)同提效等主題,邀請(qǐng)眾多行業(yè)技術(shù)大咖展開(kāi)專場(chǎng)分享。掌動(dòng)智能作為戰(zhàn)略合作伙伴受邀參會(huì),首次提出“三位一體”IT反脆弱性工程解決方案,為大型數(shù)字化系統(tǒng)的穩(wěn)定可靠運(yùn)行保駕護(hù)航!
大會(huì)現(xiàn)場(chǎng)
▲ 掌動(dòng)智能“三位一體”IT反脆弱性工程在大會(huì)主會(huì)場(chǎng)首發(fā)亮相
何為“三位一體”IT反脆弱性工程?下面為您一一揭秘!
反脆弱性與混沌工程
“反脆弱(Antifragile)”是趨勢(shì)作家塔勒布在其同名著作中提出的觀點(diǎn)。他認(rèn)為,風(fēng)險(xiǎn)事件無(wú)法預(yù)估,但脆弱卻可以被提前發(fā)現(xiàn)。反脆弱性方案針對(duì)脆性提前發(fā)現(xiàn)并從不確定性中收益。
在IT領(lǐng)域,混沌工程就是反脆弱性方案的典型代表。它是一套通過(guò)在(準(zhǔn))生產(chǎn)環(huán)境,對(duì)IT架構(gòu)和業(yè)務(wù)系統(tǒng)進(jìn)行壓力與故障模擬實(shí)驗(yàn),主動(dòng)暴露實(shí)驗(yàn)對(duì)象脆弱性的方法論,能有效地幫助探索和避免潛在的穩(wěn)定性缺陷,檢驗(yàn)和提升系統(tǒng)高可用性和容錯(cuò)性,提升故障響應(yīng)修復(fù)效率,減小事故影響,從而打造更具彈性、更抗風(fēng)險(xiǎn)的系統(tǒng),掌握系統(tǒng)運(yùn)行時(shí)各種行為規(guī)律,持續(xù)提高技術(shù)團(tuán)隊(duì)的應(yīng)急能力和抗壓素養(yǎng)。
但是傳統(tǒng)的混沌工程也有自身的缺陷。根據(jù)反脆弱性理論,IT組織的脆弱性來(lái)自于內(nèi)部隨機(jī)事件和外部壓力事件,但現(xiàn)階段混沌方案,只側(cè)重于來(lái)自內(nèi)部,面向架構(gòu)的故障注入;而欠缺來(lái)自外部,面向業(yè)務(wù)的故障注入。同時(shí)由于歷史原因,大部分混沌工程方案,并未形成跨架構(gòu)的能力,在“軟件定義一切”的大背景下,絕大多數(shù)的故障注入,又都會(huì)對(duì)IaaS,PaaS和SaaS產(chǎn)生影響。因此,跨架構(gòu)的可觀測(cè)性成為必然。
“三位一體”反脆弱性工程
針對(duì)混沌工程的短板,掌動(dòng)智能提出“三位一體”反脆弱性工程解決方案。它是基于反脆弱性理論,以業(yè)務(wù)壓測(cè)作為外部壓力,混沌工程作為隨機(jī)事件,性能監(jiān)控作為統(tǒng)一的測(cè)量方法,將三個(gè)方案有機(jī)融合在一起。
三位一體的反脆弱性工程解決方案主要包括:
1、混沌業(yè)務(wù)級(jí)故障注入
通過(guò)配置不同參數(shù),組合不同業(yè)務(wù)報(bào)文,播放不同類型的業(yè)務(wù)交易,實(shí)現(xiàn)對(duì)被測(cè)對(duì)象的容量爆破,容錯(cuò)爆破,風(fēng)險(xiǎn)爆破。
2、混沌架構(gòu)級(jí)故障注入
通過(guò)執(zhí)行不同策略的故障腳本,實(shí)現(xiàn)對(duì)架構(gòu)級(jí)、應(yīng)用級(jí)的混沌爆破,主要以資源耗盡,錯(cuò)誤配置,人工切換等方法,實(shí)現(xiàn)故障注入。
3、跨架構(gòu)全棧可觀測(cè)性
通過(guò)資產(chǎn)、指標(biāo)(KPI/KQI)和業(yè)特征務(wù)(API/SQL/報(bào)文),實(shí)現(xiàn)基于性能異常方法的故障注入監(jiān)控告警以及基于故障定位方法的故障爆炸半徑測(cè)量。
從落地角度,掌動(dòng)智能針對(duì)“三位一體”的實(shí)現(xiàn),推出了三套業(yè)界領(lǐng)先的工具集。
1、X-Runner業(yè)務(wù)測(cè)試工具
具有國(guó)際先進(jìn)水平的新一代國(guó)產(chǎn)化性能安全保障軟件套件產(chǎn)品。X-Runner使用百萬(wàn)級(jí)別的并發(fā)虛擬用戶模擬真實(shí)用戶訪問(wèn),從集中控制點(diǎn)管理分布式壓測(cè)端對(duì)系統(tǒng)生成準(zhǔn)確、可衡量和可重復(fù)的負(fù)載,并在服務(wù)器、虛擬化、容器等多種不同環(huán)境采集云網(wǎng)性能指標(biāo)和業(yè)務(wù)運(yùn)行指標(biāo)。
XRunner實(shí)現(xiàn)了大規(guī)模用戶瞬時(shí)并發(fā)訪問(wèn)場(chǎng)景注入,無(wú)規(guī)律,瞬時(shí)隨機(jī)的大規(guī)模業(yè)務(wù)并發(fā),通過(guò)響應(yīng)時(shí)間、辦理成功率等數(shù)據(jù),檢測(cè)系統(tǒng)對(duì)尖峰流量的抗沖擊能力,伸縮性以及自恢復(fù)能力;錯(cuò)誤業(yè)務(wù)數(shù)據(jù)場(chǎng)景注入,構(gòu)建錯(cuò)誤數(shù)據(jù)、錯(cuò)誤流程、重復(fù)數(shù)據(jù)、攻擊性數(shù)據(jù)等場(chǎng)景,通過(guò)返回報(bào)文的正確性校驗(yàn),檢測(cè)系統(tǒng)對(duì)非正常數(shù)據(jù)的容錯(cuò)能力
2、X-Chaos-混沌工程工具
Chaos混沌工程,是一類基于方法論和實(shí)踐相結(jié)合的工程化項(xiàng)目。X-Chaos以ChaosBlade為基礎(chǔ),結(jié)合某超大型央企的全國(guó)云環(huán)境的混沌需求打造,也是國(guó)內(nèi)現(xiàn)階段,單一項(xiàng)目規(guī)模最大,內(nèi)容最復(fù)雜,故障注入用例最多,實(shí)施頻次最高的混沌工程。X-Chaos的混沌能力借助故障注入對(duì)基礎(chǔ)層、平臺(tái)層和應(yīng)用層進(jìn)行混沌演練,依托PaaS平臺(tái)的安全能力和自身的權(quán)限控制做到在進(jìn)行混沌實(shí)驗(yàn)的同時(shí)保障集群的安全可靠。
3、X-UniEye-跨架構(gòu)全棧性能監(jiān)控
X-Unieye以超輕量的單體探針,實(shí)現(xiàn)豐富的資產(chǎn)、業(yè)務(wù)、指標(biāo)的數(shù)據(jù)采集、解析和治理;憑借“顯微鏡”一樣的可觀測(cè)性能力,快速實(shí)現(xiàn)豐富的運(yùn)維與安全多場(chǎng)景方案。
X-Unieye的觀測(cè)維度包括:
① 資產(chǎn)類:從IP、Port、MAC到Host-Name、System、Process和Pod,再到Domain、URL和API業(yè)務(wù)特征
② 指標(biāo)類:從主機(jī)資源使用率;到每一次通信連接的流量,數(shù)據(jù)包,會(huì)話,各種標(biāo)志位,各類時(shí)延;再到每一次應(yīng)用會(huì)話,業(yè)務(wù)報(bào)文的通信指標(biāo)、各類時(shí)延,返回碼;實(shí)現(xiàn)最完整的基于流量的Metrix能力。
③交易鏈路類:從每一次TCP/UDP通信四元組,到每一次HTTP/URL/API,DNS,SQL…各類應(yīng)用層會(huì)話,再到每一次負(fù)載段的業(yè)務(wù)報(bào)文。
收益與價(jià)值
通過(guò)三位一體的反脆弱性工程的實(shí)施,能帶給企業(yè)如下價(jià)值體現(xiàn):
1、提高事故預(yù)測(cè)和預(yù)警能力,有效降低事故率
通過(guò)對(duì)不同業(yè)務(wù)量下,各個(gè)應(yīng)用組件,架構(gòu)組件,網(wǎng)絡(luò)組件的性能指標(biāo)分析,實(shí)現(xiàn)定位故障隱患,減少事故風(fēng)險(xiǎn),為每個(gè)單元建立基于業(yè)務(wù)量的性能基線,提高異常發(fā)現(xiàn)能力。
2、驗(yàn)證自愈和應(yīng)急能力,減小事故影響和損失
精確衡量業(yè)務(wù)影響度和故障恢復(fù)時(shí)間,有效判斷系統(tǒng)自愈能力、高可用能力、資源配置合理性以及監(jiān)控告警的有效性,降低事故影響和業(yè)務(wù)損失。
免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。
關(guān)鍵詞: