มีการปรับปรุงและปรับปรุงอย่างต่อเนื่องใน Dell EMC PowerEdge BIOS เพื่อปรับปรุงการส่งข้อความเหตุการณ์ข้อผิดพลาดของหน่วยความจําการจัดการข้อผิดพลาดและ "การรักษาตัวเอง" เมื่อรีบูตเซิร์ฟเวอร์ที่ป้องกันไม่ให้จําเป็นต้องมีหน้าต่างการบํารุงรักษาตามกําหนดเวลาหรือการแสดงตนในสถานที่เพื่อแทนที่ DIMM หน่วยความจํา DDR4 ที่บันทึกเหตุการณ์ข้อผิดพลาด
มีการปรับปรุง BIOS "การรักษาตัวเอง" ที่เกี่ยวข้องกับหน่วยความจําหลักสองรายการที่ใช้กับเซิร์ฟเวอร์ PowerEdge ที่มี DDR4 ที่ใช้ BIOS เวอร์ชัน 2.1.x และใหม่กว่า การปรับปรุงเหล่านี้จะเปลี่ยนขั้นตอน/การดําเนินการที่แนะนําหากเกิดข้อผิดพลาดของหน่วยความจําและเข้าสู่ระบบบันทึก LifeCycle
หมายเหตุ:
- หากคุณได้รับข้อผิดพลาดของหน่วยความจํากับ DDR4 และคุณกําลังเรียกใช้ BIOS 2.0 หรือรุ่นก่อนหน้าให้อัปเดต BIOS ของคุณเป็นการแก้ไขล่าสุดที่มีความสามารถในการรักษาตัวเองของหน่วยความจําจํานวนมากและการปรับปรุงอย่างต่อเนื่อง เราสนับสนุนให้ลูกค้าอัปเดตเป็น BIOS รุ่นล่าสุดที่มีอยู่ (และเฟิร์มแวร์ iDRAC) เพื่อให้พวกเขาสามารถใช้ประโยชน์จากการปรับปรุงการรักษาตัวเองล่าสุด
- ขั้นตอนการแก้ไขปัญหาหน่วยความจําแบบเดิมจะรวมการย้าย DIMM ที่ล้มเหลวไปยังช่องเสียบอื่นเพื่อยืนยันว่าข้อผิดพลาดเป็นไปตาม DIMM หรือยังคงอยู่กับช่องเสียบ DIMM หรือไม่ ด้วย BIOS 2.1.x หรือใหม่กว่าขั้นตอนแรกที่แนะนําคือการ รีสตาร์ท (โดยไม่ต้องย้าย DIMM ไปยังช่องเสียบอื่น) สิ่งนี้ช่วยให้การปรับปรุง BIOS ใหม่ทํางานซึ่งอาจแก้ไขข้อผิดพลาด DIMM (รักษาตัวเอง) โดยไม่ต้องกําหนดเวลาเปลี่ยน DIMM ใด ๆ
1. การปรับปรุงการฝึกความจําใหม่
การฝึกหน่วยความจําใหม่ซึ่งเกิดขึ้นระหว่างการบูต (ในช่วงต้นของขั้นตอนการกําหนดค่าหน่วยความจํา) จะปรับเวลา/ระยะขอบสัญญาณให้เหมาะสมสําหรับแต่ละ DIMM/สล็อตเพื่อการเข้าถึงที่ดีที่สุด ลักษณะการจับเวลา/ระยะขอบของสัญญาณหน่วยความจําของ DIMM อาจเปลี่ยนแปลงไปตามกาลเวลาด้วยเหตุผลหลายประการ:
- การเปลี่ยนแปลงในการกําหนดค่าหน่วยความจําเซิร์ฟเวอร์
- การเปลี่ยนแปลง BIOS (รหัสอ้างอิงหน่วยความจํา - MRC)
- อุณหภูมิในการทํางานที่แตกต่างกันของเซิร์ฟเวอร์หรือ DIMM
- อายุทั่วไปของ DIMM
ก่อนหน้านี้การอัปเดต BIOS หรือการเปลี่ยนแปลงการกําหนดค่าหน่วยความจําที่ตรวจพบจะส่งผลให้การฝึกหน่วยความจําใหม่เกิดขึ้นระหว่างการบูตครั้งต่อไป เริ่มต้นด้วย BIOS 2.1.x ข้อผิดพลาดหน่วยความจําที่แก้ไขได้และไม่สามารถแก้ไขได้เพิ่มเติม "ทริกเกอร์" ถูกเพิ่มเข้ามาสําหรับการฝึกอบรมตามกําหนดเวลา:
- คําเตือน - MEM0701 - "อัตราข้อผิดพลาดของหน่วยความจําที่แก้ไขได้เกินสําหรับ DIMM_XX"
- สําคัญ - MEM0702 - "อัตราความผิดพลาดของหน่วยความจําที่แก้ไขได้เกินสําหรับ DIMM_XX"
- สําคัญ - MEM0005 - "ถึงขีดจํากัดข้อผิดพลาดของหน่วยความจําที่แก้ไขได้อย่างต่อเนื่องสําหรับอุปกรณ์หน่วยความจําที่ตําแหน่ง XX"
ข้อผิดพลาดใด ๆ เหล่านี้ถูกบันทึกไว้ในบันทึก SEL/LifeCycle ส่งผลให้การฝึกอบรมหน่วยความจําถูกกําหนดเวลาสําหรับการรีบูตครั้งต่อไป (อุ่นหรือเย็น) BIOS บังคับให้รีบูตเย็นโดยอัตโนมัติโดยไม่คํานึงถึงสิ่งที่เริ่มต้น
- สําคัญ - MEM0001 - "ตรวจพบข้อผิดพลาดของหน่วยความจําหลายบิตบนอุปกรณ์หน่วยความจําที่ตําแหน่ง DIMM_XX"
ข้อผิดพลาดหลายบิตนี้อาจส่งผลให้เซิร์ฟเวอร์รีบูตเนื่องจากข้อผิดพลาดร้ายแรงหากระบบปฏิบัติการไม่สามารถจัดการกับข้อผิดพลาดนั้นได้ การฝึกหน่วยความจําใหม่จะเกิดขึ้นโดยอัตโนมัติระหว่างการบูตนั้น หากข้อผิดพลาดแบบหลายบิตเกิดขึ้นในตําแหน่งหน่วยความจําที่ไม่ร้ายแรงซึ่งระบบปฏิบัติการนั้นสามารถจัดการได้จะต้องกําหนดเวลาการรีบูต
ด้วยข้อผิดพลาดของหน่วยความจําที่แก้ไขได้หรือไม่สามารถแก้ไขได้ (มัลติบิต) เหล่านี้การฝึกอบรมหน่วยความจําที่เป็นผลลัพธ์เมื่อรีบูต / รีสตาร์ทอาจ "รักษาตัวเอง" DIMM ที่ล้มเหลวโดยการปรับเวลาสัญญาณ / ระยะขอบให้เหมาะสมสําหรับแต่ละ DIMM และสล็อต ไม่จําเป็นต้องเปลี่ยน DIMM สําหรับข้อผิดพลาดเหล่านี้เว้นแต่ว่าการฝึกหน่วยความจําใหม่ล้มเหลว (UEFI0106) ระหว่างการบูตหรือข้อผิดพลาดเดียวกันนี้ยังคงเกิดขึ้น
2. โพสต์ซ่อมแพคเกจ
(PPR) - การปรับปรุงหน่วยความจํา "รักษาตัวเอง" ครั้งที่สองส่งผลให้การซ่อมแซมตําแหน่งหน่วยความจําล้มเหลวบน DIMM โดยการปิดใช้งานตําแหน่งหรือที่อยู่ที่เลเยอร์ฮาร์ดแวร์ทําให้สามารถใช้แถวหน่วยความจําสํารองแทนได้ จํานวนแถวหน่วยความจําสํารองที่แน่นอนขึ้นอยู่กับอุปกรณ์ DRAM และขนาด DIMM
ก่อนหน้านี้ฟังก์ชันนี้ถูก จํากัด ไว้ที่กระบวนการผลิต เช่นเดียวกับการปรับปรุงหน่วยความจําที่กล่าวถึงก่อนหน้านี้มีข้อผิดพลาดของหน่วยความจําที่แก้ไขได้ซึ่งส่งผลให้ PPR ถูกกําหนดเวลาไว้ในช่องเสียบ DIMM เฉพาะสําหรับการรีบูตครั้งต่อไป (อุ่นหรือเย็น) BIOS บังคับให้รีบูตเย็นโดยอัตโนมัติโดยไม่คํานึงถึงสิ่งที่เริ่มต้น เนื่องจากการทํางานของ PPR ถูกกําหนดไว้บนสล็อต DIMM เฉพาะ อย่า เปลี่ยนตําแหน่งสล็อต DIMM จนกว่าจะมีการดําเนินการ PPR ตัวอย่างของข้อผิดพลาดคือ:
- คําเตือน - MEM0701- "อัตราข้อผิดพลาดของหน่วยความจําที่แก้ไขได้เกินสําหรับ DIMM_XX"
- สําคัญ - MEM0702 - "อัตราข้อผิดพลาดของหน่วยความจําที่แก้ไขได้เกินสําหรับ DIMM_XX"
- สําคัญ - MEM0005 - "ถึงขีดจํากัดข้อผิดพลาดของหน่วยความจําที่แก้ไขได้อย่างต่อเนื่องสําหรับอุปกรณ์หน่วยความจําที่ตําแหน่ง XX"
ข้อผิดพลาดเหล่านี้ถูกบันทึกไว้ในบันทึก SEL/LifeCycle ส่งผลให้ PPR ถูกกําหนดเวลาสําหรับการรีบูตครั้งต่อไป (อุ่นหรือเย็น) ในช่วงต้นของการกําหนดค่าหน่วยความจํา
หมายเหตุ: รหัสข้อความ MEM8000 (การบันทึกข้อผิดพลาดของหน่วยความจําที่แก้ไขได้ปิดใช้งานสําหรับอุปกรณ์หน่วยความจําที่ตําแหน่ง DIMM_XX.) โดยไม่มี MEM0005/MEM0701/MEM0702 ที่สอดคล้องกันในตําแหน่ง DIMM เดียวกันในขณะนี้จะไม่ส่งผลให้ PPR ถูกกําหนดเวลาสําหรับการรีบูตครั้งต่อไป
ดูการอัปเดตวันที่ 10 กรกฎาคม 2020 สําหรับข้อมูลใหม่เกี่ยวกับ MEM8000 และเอกสารทางเทคนิคเวอร์ชัน 1.1 ที่อัปเดตและใหม่กว่า
หลังจากรีบูตให้ตรวจสอบว่าการดําเนินการ PPR สําเร็จแล้ว ตัวอย่างของการดําเนินการ PPR ที่ประสบความสําเร็จนั้นคล้ายกับ:
- รหัสข้อความ MEM9060 - "การดําเนินการซ่อมแซม Post Package เสร็จสมบูรณ์บนอุปกรณ์ Dual In-line Memory Module (DIMM) ที่ล้มเหลวก่อนหน้านี้"
ไม่จําเป็นต้องเปลี่ยน DIMM สําหรับข้อผิดพลาดของหน่วยความจําที่แก้ไขได้เหล่านี้เว้นแต่การดําเนินการ PPR จะล้มเหลวหลังจากรีบูต ตัวอย่างของข้อความ PPR ที่ล้มเหลวคือ:
- สําคัญ - รหัสข้อความ UEFI0278 - "ไม่สามารถดําเนินการซ่อมแซม Post Package Repair (PPR) ให้เสร็จสมบูรณ์ได้เนื่องจากปัญหาในช่องเสียบหน่วยความจํา DIMM X"
เอกสารไวท์เปเปอร์ (เวอร์ชัน 1.0) ที่เผยแพร่ใหม่ซึ่งอธิบายคุณลักษณะความน่าเชื่อถือ ความพร้อมใช้งาน และความสามารถในการให้บริการ (RAS) ที่เกี่ยวข้องกับหน่วยความจําของ Dell EMC พร้อมใช้งานแล้ว ซึ่งอธิบายคุณลักษณะและความสามารถต่างๆ ของ RAS ที่มีอยู่ในเซิร์ฟเวอร์ PowerEdge - ข้อผิดพลาดของหน่วยความจํา และคุณลักษณะ RAS ของหน่วยความจําเซิร์ฟเวอร์ Dell EMC PowerEdge YX4X
สําหรับข้อมูลเพิ่มเติมเกี่ยวกับเหตุการณ์เกณฑ์ข้อผิดพลาดที่แก้ไขได้ให้อ้างอิง
เซิร์ฟเวอร์ 14G Intel และ 15G Intel / AMD PowerEdge: หน่วยความจํา DDR4: การจัดการเหตุการณ์เกณฑ์ข้อผิดพลาดที่แก้ไขได้
อัพเดทล่าสุด 24/4/2020
Dell EMC ยังคงปรับปรุงและขยายขีดความสามารถ "การรักษาตัวเอง" ของเราอย่างต่อเนื่อง ส่วนต่อไปนี้เอกสารการปรับปรุง / การปรับปรุงและสิ่งที่รุ่น BIOS การเปลี่ยนแปลงถูกนํามาใช้ใน
BIOS 2.1.x - การเผยแพร่บทความเริ่มต้นของความสามารถ "การรักษาตัวเอง" ที่เริ่มต้นด้วย BIOS 2.1.6 ขึ้นไปรวมถึงข้อความแสดงข้อผิดพลาดตัวอย่างและการดําเนินการที่แนะนํา
BIOS 2.4.x และการเปลี่ยนแปลงที่ใหม่กว่า (ธันวาคม 2019)
- MEM0702 (อัตราข้อผิดพลาดที่แก้ไขได้เกิน...) - ข้อความอัปเดตจากวิกฤตเป็นคําเตือน ด้วยการดําเนินการที่แนะนําอัปเดตเพื่อรีบูตเซิร์ฟเวอร์เพื่อให้ "การรักษาตัวเอง" เกิดขึ้น - ตัวอย่างเช่นการซ่อมแซมโพสต์แพ็คเกจ
- ธันวาคม 2019 หรือใหม่กว่า iDRAC ที่จะติดตั้งเพื่อรับข้อความที่อัปเดต
- การกระทําที่แนะนํา: รีบูตเซิร์ฟเวอร์เพื่อให้ PPR ทํางาน
- MEM9060 - อัปเดตคําอธิบายข้อความเพื่อระบุว่า "การรักษาตัวเอง" เสร็จสมบูรณ์แล้ว
BIOS 2.5.x และการเปลี่ยนแปลงที่ใหม่กว่า (กุมภาพันธ์ 2020)
- เพิ่มตัวเลือก BIOS "Correctable Error Logging" เพื่อให้ลูกค้าสามารถปิดใช้งานการบันทึก LifeCycle/SEL ทั้งหมดที่เกี่ยวข้องกับข้อผิดพลาดที่แก้ไขได้ คุณสมบัติ "การรักษาตัวเอง" ทั้งหมดยังคงทํางานอยู่ - ตัวอย่างเช่น PPR และการฝึกอบรมหน่วยความจํายังคงกําหนดเวลาและทํางานในระหว่างการรีบูตครั้งต่อไป (ในช่วงต้นของกระบวนการกําหนดค่าหน่วยความจํา)
- การเพิ่มข้อผิดพลาด MEM08xx สําหรับ RDIMM และ LRDIMM แทนที่ข้อความแสดงข้อผิดพลาดและการดําเนินการที่มีอยู่ ข้อความแสดงข้อผิดพลาดที่มีอยู่ยังคงใช้สําหรับแพลตฟอร์มที่ไม่สนับสนุนความสามารถในการ "รักษาตัวเอง"
- ต้อง กุมภาพันธ์ 2020 หรือใหม่กว่า iDRAC สําหรับข้อความใหม่ที่จะเข้าสู่ระบบ
หมายเหตุ: หากไม่มี iDRAC ที่อัปเดตข้อความ BIOS ใหม่จะ "ไม่รู้จัก" ในบันทึก SEL หรือ LifeCycle
- MEM0802 - แทนที่ MEM0702 - เกินอัตราข้อผิดพลาดที่แก้ไขได้
- การดําเนินการที่แนะนํา: รีบูตเซิร์ฟเวอร์เพื่อให้ PPR ทํางาน ยืนยันว่า PPR สําเร็จ (MEM0802)
- MEM0804 - แทนที่ MEM9060 แสดงว่า PPR สําเร็จ ตอนนี้มีตําแหน่งช่องเสียบ DIMM ที่รัน PPR
- การดําเนินการที่แนะนํา: ไม่มีใคร บ่งชี้ว่า "การรักษาตัวเอง" เกิดขึ้นไม่จําเป็นต้องเปลี่ยน DIMM
- MEM0805 - แทนที่ UEFI0278 แสดงว่า PPR ล้มเหลว
- การดําเนินการที่แนะนํา: เปลี่ยน DIMM ที่ล้มเหลว
อัพเดทล่าสุด 10/7/2020
BIOS 2.7.x และการเปลี่ยนแปลงที่ใหม่กว่า (กรกฎาคม 2020 บล็อก BIOS - กําหนดเป้าหมายกลางเดือนกรกฎาคมสําหรับการโพสต์เว็บ)
- MEM8000 (ปิดใช้งานการบันทึกข้อผิดพลาดที่แก้ไขได้) - เริ่มต้นด้วย BIOS ~2.0.x, Dell EMC Engineering ได้ทําการเปลี่ยนแปลง BIOS เพื่อเพิ่มอัตราการตรวจจับข้อผิดพลาดที่แก้ไขได้ซึ่งอาจส่งผลต่อประสิทธิภาพการทํางาน การเปลี่ยนแปลงนี้ส่งผลให้เหตุการณ์ MEM8000 เพิ่มขึ้นซึ่งไม่ได้พิสูจน์โดยผลลัพธ์จากการวิเคราะห์ความล้มเหลวของส่วนประกอบหน่วยความจํา เริ่มต้นด้วย BIOS 2.7.x มีการเปลี่ยนแปลงสองประการที่เกี่ยวข้องกับ MEM8000 อย่างแรกคือการส่งสัญญาณของเหตุการณ์ MEM8000 ได้รับการแก้ไข ประการที่สอง BIOS กําหนดเวลาการรักษาตัวเอง (PPR) สําหรับการรีบูตครั้งต่อไป ข้อความ iDRAC ยังไม่ได้รับการอัปเดตเพื่อแสดงการดําเนินการใหม่
- การดําเนินการที่แนะนํา: รีบูตเซิร์ฟเวอร์เพื่อให้การรักษาตัวเอง / PPR ทํางาน ยืนยันว่า PPR สําเร็จ (MEM0804)
- MEM0001 (ข้อผิดพลาดที่ไม่สามารถแก้ไขได้) - ผลลัพธ์ในการรักษาตัวเอง (PPR) จะถูกกําหนดเวลาสําหรับการรีบูตครั้งต่อไป ข้อความ iDRAC ยังไม่ได้รับการอัปเดตเพื่อแสดงการดําเนินการใหม่
- การดําเนินการที่แนะนํา: ไม่จําเป็นหาก MEM0001 เชื่อมโยงกับหน้าสําคัญที่ระบบปฏิบัติการไม่สามารถกู้คืนได้ - ยังคงเป็นข้อผิดพลาดร้ายแรงที่ส่งผลให้รีบูต หาก MEM0001 เชื่อมโยงกับหน้า noncritical ที่ระบบปฏิบัติการสามารถกู้คืนได้การรีบูตจะต้องกําหนดเวลาให้การรักษาตัวเอง (PPR) ทั้งหมดเกิดขึ้น ยืนยันว่า PPR สําเร็จ (MEM0804)
อัพเดทล่าสุด 13/10/2021
BIOS 2.8.2 และการเปลี่ยนแปลงที่ใหม่กว่า (บล็อก BIOS กันยายน 2020)
- MEM9072 (ข้อผิดพลาดที่ไม่สามารถแก้ไขได้ที่ระบุโดยกระบวนการขัดหน่วยความจําลาดตระเวน - หน้ายังไม่ถูกใช้หรือใช้งานอยู่) - ผลลัพธ์ในการรักษาตัวเอง (PPR) จะถูกกําหนดสําหรับการรีบูตครั้งต่อไป ข้อความ iDRAC ยังไม่ได้รับการอัปเดตเพื่อแสดงการดําเนินการใหม่
- การดําเนินการที่แนะนํา: กําหนดเวลารีบูตเร็ว ๆ นี้ การชะลอการรีบูตอาจส่งผลให้หน้าเว็บถูกใช้ส่งผลให้เกิดข้อผิดพลาด MEM0001 ที่อาจส่งผลให้มีการรีบูตเกิดขึ้น Memory self-healing (PPR) ทํางานระหว่างการรีบูตนั้น ยืนยันว่า PPR สําเร็จ (MEM0804)
หมายเหตุ: เอกสารไวท์เปเปอร์ด้านวิศวกรรมเวอร์ชันล่าสุด (เวอร์ชัน 1.3 - วันที่ออก 20 พฤศจิกายน 2020) สามารถดูได้ที่:
https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdfสําหรับเนื้อหา Intel Xeon และ AMD EPYC ให้อ้างอิงเอกสารไวท์เปเปอร์ด้านวิศวกรรมต้นฉบับ (เวอร์ชัน 1.0) ซึ่งพบได้ที่:
PowerEdge YX4X Server Memory RAS Whitepaper v1.0 (dell.com)
มีการปรับปรุงคุณสมบัติ RAS เพิ่มเติมที่ได้รับการประเมินเพื่อรวมไว้ในการอัปเดต BIOS ในอนาคต
หมายเหตุ: สําหรับคําอธิบายโดยละเอียดและการดําเนินการที่แนะนําสําหรับข้อความรหัสข้อผิดพลาดที่เฉพาะเจาะจง ให้อ้างอิงลิงก์ต่อไปนี้:
ค้นหา (dell.com) โปรดทราบว่าเนื่องจากรหัสข้อผิดพลาด (เช่น MEM0001) ใช้กับเซิร์ฟเวอร์และแพลตฟอร์มหลายรุ่นการดําเนินการที่แนะนําอาจไม่เป็นปัจจุบันสําหรับเวอร์ชัน BIOS ของคุณซึ่งแตกต่างจากรหัสข้อผิดพลาดใหม่ที่เพิ่มเข้ามา (เช่น MEM0802, MEM0804, MEM0805 และอื่น ๆ )
บทความนี้ได้รับการปรับปรุงเมื่อมีข้อมูล
ใหม่ดูเพิ่มเติมที่: คําแนะนําเกี่ยวกับการแก้ไขปัญหาหน่วยความจําโดยการทดสอบสลับ - การแก้ไขปัญหาข้อผิดพลาดของหน่วยความจําในระบบ PowerEdge โดยการทดสอบ
สลับดาวน์โหลดและไดรเวอร์: ไดร์เวอร์ & ดาวน์โหลดโปรแกรม | สหรัฐอเมริกา Dell