Kubernetes支持將多種類型的應用以容器化的方式部署在同一臺宿主機上運行,不同優先級的應用會共享宿主機的三級緩存L3 Cache(Last Level Cache)和內存帶寬MBA(Memory Bandwidth Allocation)。ack-koordinator提供了對L3 Cache及內存帶寬的隔離能力,避免在資源競爭時影響高優先級應用的服務質量。本文介紹如何控制不同優先級應用使用L3 Cache和MBA隔離策略。
背景信息
為了充分利用機器中的資源,通常會將高優先延遲敏感性LS(Latency-Sensitive)和低優先級BE(Best-Effort)的任務部署在同一臺機器上,導致兩種不同優先級任務之間存在資源競爭問題。如果不進行隔離控制,不同優先級的任務在使用L3 cache和MBA內存帶寬等資源時可能會出現資源競爭,從而無法保證給LS業務分配足夠的資源,導致LS應用的服務質量受到影響。
RDT(Resource Director Technology)提供了對不同優先級應用的資源隔離能力,通過限制BE類型應用對L3 Cache和MBA資源的使用量,可以有效保障混合部署場景中LS應用的服務質量。關于RDT的更多信息,請參見resource-director-technology。
前提條件
已安裝Helm組件,且版本≥3.0。關于Helm的升級操作,請參見【組件升級】Helm V2 Tiller升級公告或如何手動升級Helm的版本?。
宿主機節點為彈性裸金屬類型,且CPU型號支持RDT。更多信息,請參見彈性裸金屬服務器概述和intel-cmt-cat。
已安裝ack-koordinator組件(原ack-slo-manager),且版本≥0.8.0,具體操作,請參見ack-koordinator(ack-slo-manager)。
費用說明
ack-koordinator組件本身的安裝和使用是免費的,不過需要注意的是,在以下場景中可能產生額外的費用:
ack-koordinator是非托管組件,安裝后將占用Worker節點資源。您可以在安裝組件時配置各模塊的資源申請量。
ack-koordinator默認會將資源畫像、精細化調度等功能的監控指標以Prometheus的格式對外透出。若您配置組件時開啟了ACK-Koordinator開啟Prometheus監控指標選項并使用了阿里云Prometheus服務,這些指標將被視為自定義指標并產生相應費用。具體費用取決于您的集群規模和應用數量等因素。建議您在啟用此功能前,仔細閱讀阿里云Prometheus的計費概述,了解自定義指標的收費策略。您可以通過資源消耗統計功能,監控和管理您的資源使用情況。
準備工作
在使用容器L3 Cache及內存帶寬隔離功能前,您需要確保已開啟內核RDT能力。查看及開啟內核RDT能力的具體操作步驟如下:
執行以下命令,查看內核RDT能力是否開啟。
cat /proc/cmdline
預期輸出:
#其他內容已省略,本示例僅顯示BOOT_IMAGE字段的RDT部分。 BOOT_IMAGE=... rdt=cmt,l3cat,l3cdp,mba
若輸出內容中包含
l3cat
和mba
選項,表示內核RDT能力已開啟;若不包含,請執行下一步操作。開啟內核RDT能力。
編輯/etc/default/grub文件。
在
GRUB_CMDLINE_LINUX
字段增加RDT相關配置。#其他內容已省略,本示例僅顯示GRUB_CMDLINE_LINUX字段的RDT部分。 GRUB_CMDLINE_LINUX="... rdt=cmt,mbmtotal,mbmlocal,l3cat,l3cdp,mba"
重要新增的RDT配置與其他部分請使用空格符進行分隔。
執行以下命令,生成新版本grub.cfg文件。
#文件路徑以實際情況為準。 sudo grub2-mkconfig -o /boot/grub2/grub.cfg
執行以下命令,重啟節點。
sudo systemctl reboot
操作步驟
內核RDT能力開啟后,使用L3 Cache及MBA隔離功能的具體步驟如下:
使用以下YAML內容,創建configmap.yaml文件。
enable
為true
表示開啟對BE類型Pod的L3 Cache及MBA隔離機制。apiVersion: v1 kind: ConfigMap metadata: name: ack-slo-config namespace: kube-system data: resource-qos-config: | { "clusterStrategy": { "beClass": { "resctrlQOS": { "enable": true } } } }
查看命名空間
kube-system
下是否存在ConfigMapack-slo-config
。若存在ConfigMap
ack-slo-config
,請使用PATCH方式進行更新,避免干擾ConfigMap中其他配置項。kubectl patch cm -n kube-system ack-slo-config --patch "$(cat configmap.yaml)"
若不存在ConfigMap
ack-slo-config
,請執行以下命令創建ConfigMap。kubectl apply -f configmap.yaml
使用以下YAML內容,創建pod-demo.yaml文件。
指定Pod的QoS級別為
BE
,約束Pod對L3 Cache及MBA資源的使用。apiVersion: v1 kind: Pod metadata: name: pod-demo labels: koordinator.sh/qosClass: 'BE' spec: containers: - name: pod-demo image: polinux/stress resources: requests: cpu: 1 memory: "50Mi" limits: cpu: 1 memory: "1Gi" command: ["stress"] args: ["--vm", "1", "--vm-bytes", "256M", "-c", "2", "--vm-hang", "1"]
執行以下命令,將pod-demo部署到集群中。
kubectl apply -f pod-demo.yaml
使用以下YAML內容,配置高級參數。
L3 Cache及MBA的隔離能力支持按照QoS等級進行精細化配置。
#ConfigMap ack-slo-config樣例。 apiVersion: v1 kind: ConfigMap metadata: name: ack-slo-config namespace: kube-system data: resource-qos-config: | { "clusterStrategy": { "lsClass": { "resctrlQOS": { "enable": true, "catRangeEndPercent": 100, "mbaPercent": 100 } }, "beClass": { "resctrlQOS": { "enable": true, "catRangeEndPercent": 30, "mbaPercent": 100 } } } }
部分參數說明如下:
參數
類型
取值范圍
說明
enable
Boolean
true
false
true
:表示集群開啟L3 Cache及MBA的隔離能力。false
:表示集群關閉L3 Cache及MBA的隔離能力。
catRangeEndPercent
Int
0~100
單位為百分比,表示對應QoS可以使用的L3 Cache比例。LS等級默認值為
100
,BE等級默認值為30
。mbaPercent
Int
0~100
單位為百分比,表示對應QoS可以使用的內存帶寬比例。當前MBA只支持以10%的粒度進行調節,LS等級和BE等級的默認值均為
100
。