VMware ESXi 上的 Intel Cluster-On-Die (COD) 技術

Summary: Intel Cluster on Die (晶片化)、COD、VMware ESXi、每個處理器插槽多個 NUMA 節點、

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

簡介

    在支援 NUMA 的系統中,記憶體通道會分佈在處理器上。所有記憶體相關作業都需要監測作業,以維持快取資料的一致性。窺視用於探測本地和遠端處理器上的緩存內容,以查找駐留在任何緩存中的請求數據的副本。  如果 NUMA 已停用 (BIOS 中已啟用節點交錯),則「監測模式」會自動停用。

        Intel Haswell 微架構提供三種窺視模式。Dell 13 代伺服器 (13G) 支援全部三種監測模式,例如:

1)早期窺探

2) 家庭窺探

3) 片上集群

在本部落格中,我們將討論 VMware ESXi 的「晶片上叢集」(COD) 監測模式。本博客涵蓋以下幾個方面。

  • 鱈魚變性需求基礎知識
  • 從硬體和 VMware ESXi 角度啟用 COD 的先決條件
  • ESXi 中的幾個命令列選項會顯示啟用和停用 COD 的 NUMA 清單差異。

在我們詳細介紹 COD 之前,需要根據英特爾 Haswell 處理器微架構上的核心數瞭解處理器類型。

Intel 已將 haswell 處理器架構分類為以下類型:

1) LCC - 低核心數 [4 至 8 核心]

2) MCC- 中等核心數 [10 – 12 核心]

3) HCC - 高核心數 [14-18 核心]

                   注意:此核心計數類型因 Intel 微架構而異。

 

什麼是晶粒上叢集 (COD) 模式?

COD 是從 Intel Haswell 處理器家族引進的全新窺視模式,具有 10 個或更多核心。在 MCC 和 HCC 處理器類別中,Intel 在單一處理器插槽中整合了兩個記憶體控制器,而 LCC 處理器只有一個記憶體控制器。處理器插槽中的每個記憶體控制器都充當一個家庭代理 [HA]。

在啟用 COD 的伺服器上,每顆處理器以邏輯方式將插槽分割成 2 個 NUMA 節點 每個 NUMA 節點都有一個家鄉代理程式的實體核心總數的一半,以及最後一層快取記憶體 (LLC) 的一半。術語「叢集」以處理器核心的形式形成,而對應的記憶體控制器則會在插槽晶片上分組並形成為叢集。每個家鄉代理使用兩個記憶體通道,並接收來自較少數量的處理器邏輯內核的請求,從而提供更高的記憶體頻寬和更低的延遲。此作業模式主要用於最佳化 NUMA 工作負載。作業系統會讀取 ACPI SRAT 表格,顯示 NUMA 節點的數量。

貨到付款的圖形表示如下:
SLN315049_en_US__1COD_Disabled
SLN315049_en_US__2COD_Enabled.jpg
 

從第二個圖中可以看出,啟用COD時,單處理器插槽晶元分為兩個邏輯節點。 

先決條件:

在本節中,我們將從硬體和 VMware ESXi 的角度討論先決條件。

硬體:

  • COD 只能在具有 10 個或更多內核的 Intel Haswell-EP 處理器上啟用。
  • 記憶體需要安裝在替代記憶體通道上 (CH0、CH2、CH1 與 CH3)。例如,R730、R730xd、R630 和 T630 伺服器的每個插槽有 4 個記憶體通道。SLN315049_en_US__3Memory_Population

              讓我們舉個例子來更好地理解上述先決條件。若為每通道僅裝有兩條記憶體模組的伺服器,則必須為特定通道安裝下列插槽

  • A1 和 A3 

 配備 4 條記憶體模組,

  • A1、A3 和 B1、B3

 搭配 8 條記憶體模組,

  • A1、A3、B1、B3 和 A2、A4、B2、B4

注意:至少需要安裝兩條記憶體模組才能啟用 COD。

  • 必須在 BIOS 設定中啟用 Cluster On Die 權杖。
SLN315049_en_US__4BIOS_Settings
 
  • VMware 對 COD 的支援始於 vSphere 6.0,現在也支援 ESXi 5.5 U3b。請參閱 VMware KB 2142499以了解詳細資訊。 
我要如何從 VMware ESXi 檢查 COD 狀態?

VMware ESXi 會讀取 ACPI SRAT (系統資源親和性表) 和 SLIT (系統位置資訊表),以識別和對應可用的硬體資源。這也包括對應 NUMA 節點。本節討論使用者可用來從 VMware ESXi 查看 COD 狀態的幾個命令列選項。

  • esxtop 提供可查看 NUMA 節點已填入的選項。輸入 esxtop 命令時,按下「m」以查看 NUMA 節點詳細資料,如下所示。

下列螢幕擷取畫面截取自具有兩個處理器插槽和 128GB 系統記憶體的系統。在未啟用 COD 的預設組態中,esxtop 會顯示兩個 NUMA 節點,每個 NUMA 節點配置 64 GB。下圖顯示停用 COD 的 VMware ESXi 中的 esxtop 命令輸出。 
SLN315049_en_US__5esxtop_COD_Disabled

啟用 COD 後,esxtop 會列出四個 NUMA 節點,而不是兩個,因為單處理器插槽晶片一分為二。

SLN315049_en_US__6esxtop_COD_Enabled.jpg
esxcli 提供少數命令列選項來顯示從硬體公開的 NUMA 節點數量。
SLN315049_en_US__7esxcli

優點

在 COD 模式中,作業系統會在每個插槽看到兩個 NUMA 節點。COD 具有最佳的本地延遲。每個家鄉代理都可以看到來自較少線程數的請求,這可能會提供更高的記憶體頻寬。COD 模式具有記憶體目錄位元支援。此模式最適合高度 NUMA 最佳化的工作負荷。請參閱 Dell HPC 團隊發表的部落格,以詳述不同的窺視模式。 

參考資料

VMware KB 宣稱支援 Intel COD 此超連結會帶您前往 Dell Technologies 以外的網站

Cause

不適用

Resolution

不適用

Article Properties
Article Number: 000147278
Article Type: Solution
Last Modified: 11 Dec 2024
Version:  8
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.