云海麒麟應用容災系統(tǒng)(KIRIN CDP)是一套基于連續(xù)數(shù)據(jù)保護的在線容災系統(tǒng),是集持續(xù)數(shù)據(jù)保護、數(shù)據(jù)備份、應急接管、容災資源管理、容災體系管理為一體的災難恢復平臺。
廣泛應用于各類型應用服務器、數(shù)據(jù)庫系統(tǒng)等核心業(yè)務系統(tǒng)數(shù)據(jù)和業(yè)務的不間斷保護,實現(xiàn)數(shù)據(jù)實時備份和業(yè)務應急接管,保障各業(yè)務系統(tǒng)持續(xù)對外提供服務。
術語釋義
CDP:持續(xù)數(shù)據(jù)保護,通過在操作系統(tǒng)核心層中植入文件過濾驅動程序,來實時捕獲所有文件訪問操作。對于需要CDP連續(xù)備份保護的文件,當CDP管理模塊經(jīng)由文件過濾驅動攔截到其改寫操作時,則預先將文件數(shù)據(jù)變化部分連同當前的系統(tǒng)時間戳(System Time Stamp)一起自動備份到CDP存儲體。從理論上說,任何一次的文件數(shù)據(jù)變化都會被自動記錄,因而稱之為持續(xù)數(shù)據(jù)保護。
VPC:虛擬數(shù)據(jù)中心,是擁有獨立網(wǎng)絡管理能力的一套私有網(wǎng)絡空間,在本產(chǎn)品中,主要用于災難恢復演練等功能獨立使用,使用該技術避免在演練過程中對生產(chǎn)網(wǎng)絡造成額外影響。
KVM:Kernel-based Virtual Machine,是 Linux下x86 硬件平臺上的全功能虛擬化解決方案,包含一個可加載的內(nèi)核模塊 kvm.ko 提供和虛擬化核心架構和處理器規(guī)范模塊。
多租戶:多租戶簡單來說是指一個單獨的實例可以為多個組織服務。多租戶技術為共用的數(shù)據(jù)中心內(nèi)如何以單一系統(tǒng)架構與服務提供多數(shù)客戶端相同甚至可定制化的服務,并且仍然可以保障客戶的數(shù)據(jù)隔離。一個支持多租戶技術的系統(tǒng)需要在設計上對它的數(shù)據(jù)和配置進行虛擬分區(qū),從而使系統(tǒng)的每個租戶或稱組織都能夠使用一個單獨的系統(tǒng)實例,并且每個租戶都可以根據(jù)自己的需求對租用的系統(tǒng)實例進行個性化配置。
業(yè)務保護技術
針對于核心業(yè)務系統(tǒng),KIRIN CDP平臺提供連續(xù)數(shù)據(jù)復制和應急接管能力。
連續(xù)數(shù)據(jù)復制以實時的方式把數(shù)據(jù)從源系統(tǒng)復制到KIRIN CDP平臺的存儲資源池,對源系統(tǒng)整機進行保護,并在KIRIN CDP平臺實現(xiàn)應急接管。由此來滿足用戶趨近于零的RTO和RPO要求。
采用KIRIN CDP平臺保護生產(chǎn)系統(tǒng)時,容災存儲池中的的數(shù)據(jù)僅比源系統(tǒng)延遲可達微秒級,并且可隨時恢復至任意一個歷史時間點。與容災存儲池中的全量數(shù)據(jù)副本相結合,在數(shù)分鐘內(nèi)即可啟動應急接管。使用應急接管功能,即可將業(yè)務中斷時間控制在5分鐘以內(nèi)。
l 數(shù)據(jù)復制原理
KIRIN CDP的連續(xù)數(shù)據(jù)復制技術基于磁盤過濾驅動實現(xiàn),實時監(jiān)控每個磁盤的寫IO,并將其采用異步方式復制到目標端存儲池。
連續(xù)數(shù)據(jù)復制過程分為兩個階段,開始時對源系統(tǒng)所有數(shù)據(jù)或指定的磁盤、分區(qū)創(chuàng)建一個基本的復制副本,即全量鏡像,接下來對源系統(tǒng)中的增量數(shù)據(jù)進行連續(xù)復制,并通過數(shù)據(jù)位圖來確保增量數(shù)據(jù)傳輸?shù)目煽啃浴?/span>
被保護的數(shù)據(jù)可以復制到KIRIN CDP平臺自身存儲空間,也可復制到第三方裸設備。
l 業(yè)務恢復方式
通過連續(xù)數(shù)據(jù)復制保護的業(yè)務系統(tǒng),可以通過KIRIN CDP平臺實現(xiàn)整機接管、細粒度數(shù)據(jù)恢復等各類場景。
1) 整機硬件接管
對于發(fā)生整機故障的業(yè)務系統(tǒng),如病毒、誤操作導致的整機故障或應急損壞等情況,可采用整機應急接管功能實現(xiàn)業(yè)務不間斷。
在KIRIN CDP統(tǒng)一容災管理平臺中,整機應急接管支持如下特性:
? 支持任意時間點狀態(tài)的業(yè)務應急接管,在面臨邏輯故障時,可靈活選擇一個發(fā)生邏輯錯誤前的時間點來接管業(yè)務系統(tǒng),保證業(yè)務可用性;
? 接管主機環(huán)境保持與源主機完全相同,如磁盤分區(qū)結構、系統(tǒng)環(huán)境、程序配置信息等;
? 智能化自動分配計算資源,根據(jù)保護過程中收集的源系統(tǒng)負載信息自動匹配;
? 自動構建接管虛擬網(wǎng)絡;
? 支持災后重建過程中的不停機反向復制。
2) 細粒度數(shù)據(jù)恢復
如僅有個別數(shù)據(jù)發(fā)生丟失情況,可采用細粒度數(shù)據(jù)恢復功能將需要的數(shù)據(jù)恢復至原機或異機。
在KIRIN CDP統(tǒng)一容災管理平臺中,數(shù)據(jù)恢復支持如下特性:
? 支持任意時間點的數(shù)據(jù)恢復;
? 支持多業(yè)務系統(tǒng)一致性組恢復;
? 支持整機數(shù)據(jù)恢復;
? 支持磁盤級數(shù)據(jù)一致性組恢復;
? 支持文件級數(shù)據(jù)恢復。
l 災難恢復演練
定期組織災難恢復演練,檢驗和確保災難備份系統(tǒng)的有效性,是災難恢復體系建設中的重要組成部分。KIRIN CDP統(tǒng)一災備管理平臺提供便利的數(shù)據(jù)驗證和仿真測試功能。
? 支持一鍵仿真全部原生產(chǎn)環(huán)境;
? 可同時啟動多個時間點副本,演練過程對保護作業(yè)和生產(chǎn)業(yè)務無任何影響;
? 演練過程可手動或自動的記錄流程并保存
? 無需手工搭建演練環(huán)境。
關鍵技術特點
l 同時支持周期保護與持續(xù)數(shù)據(jù)保護
對于同一數(shù)據(jù)源,可同時設定周期保護策略和持續(xù)數(shù)據(jù)保護策略。
周期保護策略最大保留副本數(shù)量無限制,并且支持副本合并和副本固化技術,副本保留策略可靈活設定,如按時間保留、按副本數(shù)量保留、按父子策略保留、按照自定義計劃保留等方式。也可隨時查看每一個副本的存儲占用情況,以便手動刪除副本或調(diào)整副本保留策略。
持續(xù)數(shù)據(jù)保護策略為保留任意微秒級IO錄像,支持按照時間策略或存儲空間策略設定保留策略。
l 自動精簡復制
KIRIN CDP在保護業(yè)務系統(tǒng)時,采用自動精簡模式對整機或指定磁盤進行保護,即全量復制僅需復制已使用的區(qū)塊,對于空塊進行排除處理。在存儲端僅占用已有數(shù)據(jù)量大小的空間,傳輸時也僅傳輸已有數(shù)據(jù)塊。降低存儲資源占用、減少傳輸數(shù)據(jù)量。
l 微秒級持續(xù)數(shù)據(jù)保護
KIRIN CDP采用IO級的數(shù)據(jù)塊捕獲技術,歷史副本保留最小時間粒度為微秒級(百萬分之一秒),任意一微秒的時間點均可查看到IO數(shù)量記錄,為IO級別的持續(xù)記錄。支持任意時間點的瞬時掛載恢復,在進行恢復過程中業(yè)務系統(tǒng)的屬性、環(huán)境變量、存儲歸屬、數(shù)據(jù)大小以及相關使用權限與原生產(chǎn)環(huán)境保持一致,確保備份數(shù)據(jù)的有效性。
l 源端資源零占用
在持續(xù)數(shù)據(jù)保護時,無論是初始化全量過程還是增量過程,均極少占用生產(chǎn)端系統(tǒng)資源。實際測試結果而言,CPU占用小于1%,內(nèi)存占用小于10MB,是一套真正意義上的隱形保護系統(tǒng)。
l 廣泛兼容能力
KIRIN CDP廣泛兼容各類基礎設施,包括但不限于小型機系統(tǒng)(含AIX、HP-UN、Solaris等,含LPAR等部署模式)、X86架構(包括物理機及各類虛擬平臺,如支持VMWare、Hyper-V、Xen、華為等)的Windows或Linux系統(tǒng)、支持ARM架構的Linux系統(tǒng)。同時支持MSCS、Oracle RAC、ROSE、LVS等雙機或集群架構的保護,在針對雙機或集群保護時,可自動跟蹤節(jié)點切換進行保護,確保備份數(shù)據(jù)的完整性和實時性。
l LAN-FREE支持
KIRIN CDP平臺支持通過FC鏈路進行LAN FREE保護。并且支持NPIV技術,即將同一個硬件FC端口進行虛擬化,生成多個N端口以供復雜環(huán)境中使用,多個N端口可分別設置為目標端或啟動端。
l 本異地容災
KIRIN CDP平臺通過系統(tǒng)間的數(shù)據(jù)復制實現(xiàn)異地容災功能,支持單向傳輸、雙向復制、環(huán)形復制、多對一集中復制等多種異地容災部署模式。
遠程復制容災支持實時、定時、指定時間段等復制模式,支持靈活的帶寬控制策略,如按任意時間段、按節(jié)假日模式等進行帶寬限制等,最小帶寬設置精度為0.5kbps。
本異地復制時,默認啟用重復數(shù)據(jù)刪除技術進行傳輸,結合壓縮等技術,進一步減少帶寬占用,最大可降低至原來的10%。
l 容災演練
KIRIN CDP平臺支持獨立的演練VPC網(wǎng)絡,通過此項技術,可在不影響生產(chǎn)業(yè)務正常運行、不影響容災任務、不影響現(xiàn)有網(wǎng)絡的前提下實現(xiàn)容災演練。
演練時,可同時提取多個時間點的歷史副本進行啟動,以便進行數(shù)據(jù)對比、系統(tǒng)測試等。當然,也可將數(shù)據(jù)副本掛載至原機或其他服務器(物理機或虛擬機均可),以便進行數(shù)據(jù)查驗等。
演練過程中所產(chǎn)生的數(shù)據(jù)均不會影響原生產(chǎn)機和容災數(shù)據(jù),此部分臨時數(shù)據(jù)在演練結束后,可選擇刪除或保留以供下次演練使用。
容災演練可以采用手動發(fā)起方式執(zhí)行,也可采用演練計劃由系統(tǒng)自動執(zhí)行,所有演練動作均可在數(shù)分鐘內(nèi)完成。
· 容災資源池管理
KIRIN CDP平臺創(chuàng)新性的引入私有云管理框架,將容災中心的各類資源池化管理,形成以計算資源池、存儲資源池和虛擬化網(wǎng)絡為核心的容災資源池。通過池化管理,提升容災平臺的可靠性、冗余性和擴展性,真正實現(xiàn)一體化容災。
l 容災計算資源池
容災計算資源池基于成熟的KVM硬件輔助虛擬化技術構建,部署時可選擇采用單節(jié)點模式或多節(jié)點集群模式。
同時,容災計算資源池由KIRIN CDP平臺統(tǒng)一調(diào)度,充分發(fā)揮KVM集群的各類特性,達到以下優(yōu)勢:
? 節(jié)點擴展方便,當容災計算資源不足時,通過增加節(jié)點的方式可快速橫向擴展;
? 自動資源匹配,在容災保護過程中,KIRIN CDP平臺會自動收集并分析業(yè)務系統(tǒng)的實際負載,這些信息將被利用于應急接管中。發(fā)起應急接管時,KIRIN CDP平臺會根據(jù)收集的負載信息自動匹配相應的CPU、內(nèi)存等資源。從而達到即不浪費計算資源、又能滿足業(yè)務負載需要的目的;
? 超高可用性,多節(jié)點部署時,利用集群特性,無任何單點故障,保障業(yè)務持續(xù)在線。
l 容災存儲資源池
容災存儲資源池基于分布式技術構建,同時支持單節(jié)點部署時RAID冗余。即多節(jié)點部署時采用分布式架構,單節(jié)點部署時采用RAID冗余。
存儲資源池采用Linux系統(tǒng)部署,采用專用存儲資源池管理架構,無需在系統(tǒng)中生成文件系統(tǒng)進行管理,即無掛載目錄結構。
在多節(jié)點部署時,具有超高IO和吞吐量性能,并有效避免單點故障風險。同時,在所有節(jié)點均保存有一份副本,保證元數(shù)據(jù)的可靠性。通過對元數(shù)據(jù)進行緩存,減少各個容災組件與實際存儲路徑的直接交互,提高IO效率。
容災存儲資源池支持通過SSD進行緩存加速,在KIRIN CDP存儲資源池中,SSD緩存加速分為寫緩存和熱區(qū)緩存兩部分:
? 寫緩存:對存儲池的數(shù)據(jù)操作,包括數(shù)據(jù)塊的創(chuàng)建、刪除和修改等,均會首先寫入SSD緩存。當寫入請求的大小小于可用緩存時,所有數(shù)據(jù)塊均會寫入緩存。當寫入請求的大小超過可用緩存時(常見于容災首次全量同步),數(shù)據(jù)會直接寫入存儲池,在緩存中僅保留元數(shù)據(jù)。當緩存中的數(shù)據(jù)寫入存儲池后,緩存中的數(shù)據(jù)塊將被清空,以提供足夠高的IO。
? 熱區(qū)緩存:即讀緩存,KIRIN CDP平臺采用近期最少使用算法(LRU),緩存業(yè)務頻繁訪問的數(shù)據(jù)。當數(shù)據(jù)被訪問時,即被緩存到熱區(qū)緩存中進行管理。在熱區(qū)緩存不足時,自動將訪問量最小的數(shù)據(jù)塊踢出熱區(qū)緩存。
l 容災虛擬網(wǎng)絡
在KIRIN CDP容災管理平臺中,引入VPC管理模型。通過VPC管理,可隨時創(chuàng)建一個或多個完全隔離的網(wǎng)絡用于容災演練、應急接管等場景。
VPC是一個邏輯隔離的網(wǎng)絡空間,與獨立的數(shù)據(jù)中心網(wǎng)絡完全相似。在VPC中,可以自定義網(wǎng)段劃分、IP地址和路由策略等,而無需擔心對現(xiàn)有數(shù)據(jù)中心網(wǎng)絡產(chǎn)生影響。
在容災演練時,KIRIN CDP平臺可快速創(chuàng)建一個VPC演練網(wǎng)絡,所有演練主機均運行在該VPC中,從而使得演練更為簡單。無需配置復雜的網(wǎng)絡信息等,更不會與現(xiàn)有業(yè)務發(fā)生沖突。同時,可通過EIP將VPC中的部分主機映射至生產(chǎn)網(wǎng)絡,以便訪問。
· 系統(tǒng)管理
l 多租戶管理
KIRIN CDP平臺采用共享數(shù)據(jù)庫隔離數(shù)據(jù)的多租戶架構,每個租戶擁有自己獨立的容災資源池。
通過多租戶管理模式,一套KIRIN CDP平臺可以為多個客戶服務,而客戶之間的數(shù)據(jù)、狀態(tài)等信息完全保持隔離。每個租戶均可擁有自己獨立的管理員、審計員、安全員、操作員等。
l 策略分發(fā)
對于容災系統(tǒng)而言,制定保護策略往往需要反復衡量,并針對每個業(yè)務系統(tǒng)逐個進行配置。
在KIRIN CDP臺中,支持統(tǒng)一策略分發(fā),包括全域分發(fā)、租戶級分發(fā)和用戶自定義策略。
l 客戶端集中部署
KIRIN CDP平臺支持客戶端統(tǒng)一部署,在傳統(tǒng)物理架構的環(huán)境中,可通過掃描發(fā)現(xiàn)指定網(wǎng)絡中的所有主機,輸入需要被保護的主機密碼即可實現(xiàn)客戶端安裝。
在虛擬化環(huán)境中,則更為方便,僅需驗證虛擬化平臺管理員權限即可統(tǒng)一安裝。
客戶端安裝可選擇即時執(zhí)行或指定時間部署。
l 系統(tǒng)檢測與告警
告警功能可以將管理員未能及時察覺的事件以各類方式進行通知,無論是不需要干預的小事件、還是需要立即采取行動的嚴重事件,KIRIN CDP均會在事件發(fā)生的瞬間偵測到,并根據(jù)配置的策略發(fā)送給指定范圍的人員或者系統(tǒng)。
告警支持全局配置、按租戶配置或按照任務進行配置,支持郵件、SNMP、或移動端APP等各類告警方式。
l 全局報告
報告提供包括已完成或正在執(zhí)行的各類作業(yè)狀態(tài),包括備份恢復報告、接管報告、預檢報告、趨勢分析報告、健康檢查報告等。
報告功能將利用存儲的日志信息、檢測信息等,對歷史運行狀態(tài)和未來趨勢進行整體分析。
免責說明:此方案中軟件部分非本公司品牌,由第三方合作伙伴提供。若您所使用的軟件并非從本公司或經(jīng)軟件廠商官方授權的第三方獲取,本公司將無法保證軟件的合法正常使用,您因此遭受的損失與本公司無關。