跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表
  • 使用“Company Administration”(公司管理),管理Dell EMC站点、产品和产品级联系人。

ความผิดพลาดและการเจาะสองครั้งในอาร์เรย์ RAID

摘要: อาร์เรย์ RAID ไม่มีภูมิคุ้มกันต่อข้อผิดพลาดของข้อมูลบทความนี้ให้คําแนะนําเพื่อป้องกันและบรรเทาปัญหาเหล่านี้

本文可能已自动翻译。如果您对其质量有任何反馈,请使用此页面底部的表单告知我们。

文章内容


症状

บทความนี้ให้ข้อมูลเกี่ยวกับข้อผิดพลาดของข้อมูลความผิดพลาดสองครั้งและการเจาะในอาร์เรย์ RAID นอกจากนี้ยังมีคําแนะนําในการป้องกัน / บรรเทาปัญหาเหล่านี้และวิธีการแก้ไขปัญหาหลังจากเกิดขึ้น

สารบัญ
  1. ข้อผิดพลาดของข้อมูลและความผิดพลาดสองครั้ง
  2. เจาะ: พวกเขาคืออะไรและเกิดขึ้นได้อย่างไร?
  3. การป้องกันปัญหาก่อนที่จะเกิดขึ้นและการแก้ปัญหาการเจาะหลังจากเกิดขึ้น

     

บทที่ 1 : ข้อผิดพลาดของข้อมูลและความผิดพลาดสองครั้ง

อาร์เรย์ RAID ไม่มีภูมิคุ้มกันต่อข้อผิดพลาดของข้อมูล  คอนโทรลเลอร์ RAID และเฟิร์มแวร์ของฮาร์ดไดรฟ์มีฟังก์ชันในการตรวจสอบและแก้ไขข้อผิดพลาดของข้อมูลหลายชนิดก่อนที่จะเขียนไปยังอาร์เรย์/ไดรฟ์  การใช้เฟิร์มแวร์ที่ล้าสมัยอาจส่งผลให้มีการเขียนข้อมูลที่ไม่ถูกต้องไปยังอาร์เรย์/ไดรฟ์ เนื่องจากไม่มีคุณสมบัติการจัดการข้อผิดพลาด/การแก้ไขข้อผิดพลาดที่มีอยู่ในเฟิร์มแวร์รุ่น


ล่าสุด ข้อผิดพลาดของข้อมูลอาจเกิดจากบล็อกที่ไม่ดีทางกายภาพ  ตัวอย่างเช่นสิ่งนี้สามารถเกิดขึ้นได้เมื่อหัวอ่าน / เขียนส่งผลกระทบต่อจานหมุน (ที่เรียกว่า "ความผิดพลาดของหัว")  บล็อกอาจกลายเป็นไม่ดีเมื่อเวลาผ่านไปเนื่องจากการเสื่อมสภาพของความสามารถของจานในการจัดเก็บบิตแม่เหล็กในสถานที่เฉพาะ  บล็อกที่ไม่ดีที่เกิดจากการย่อยสลายของจานมักจะสามารถอ่านได้สําเร็จ  บล็อกที่ไม่ดีดังกล่าวอาจตรวจพบเป็นระยะ ๆ หรือมีการวินิจฉัยเพิ่มเติมในไดรฟ์เท่านั้น  


บล็อกที่ไม่ดีหรือที่เรียกว่าที่อยู่บล็อกตรรกะ (LBA) ที่ไม่ดีอาจเกิดจากข้อผิดพลาดของข้อมูลทางตรรกะ  เหตุการณ์นี้เกิดขึ้นเมื่อข้อมูลถูกเขียนลงในไดรฟ์อย่างไม่ถูกต้องแม้ว่าจะมีการรายงานว่าเป็นการเขียนที่สําเร็จแล้วก็ตาม  นอกจากนี้ ข้อมูลที่ดีที่เก็บอยู่บนไดรฟ์สามารถเปลี่ยนแปลงได้โดยไม่ได้ตั้งใจ  ตัวอย่างหนึ่งคือ "บิตพลิก" ซึ่งสามารถเกิดขึ้นได้เมื่อหัวอ่าน / เขียนผ่านหรือเขียนไปยังตําแหน่งใกล้เคียงและทําให้ข้อมูลในรูปแบบของศูนย์และคนเพื่อเปลี่ยนเป็นค่าอื่น  เงื่อนไขดังกล่าวทําให้ "ความสอดคล้อง" ของข้อมูลเสียหาย  ค่าของข้อมูลในบล็อกที่ระบุจะแตกต่างจากข้อมูลเดิมและอาจไม่ตรงกับ checksum ของข้อมูลอีกต่อไป  LBA ทางกายภาพเป็นสิ่งที่ดีและสามารถเขียนเพื่อประสบความสําเร็จ แต่ขณะนี้มีข้อมูลที่ไม่ถูกต้องและอาจถูกตีความว่าเป็นบล็อกที่ไม่ดี


LBAs ที่ไม่ดีมักถูกรายงานเป็นรหัสความรู้สึก 3/11/0 Sense Key 3 เป็นข้อผิดพลาดปานกลาง  รหัสความรู้สึกเพิ่มเติมและตัวบ่งคุณลักษณะความรู้สึกเพิ่มเติมของ 11/00 หมายถึงข้อผิดพลาดในการอ่านที่ไม่ได้กู้คืน  ไม่มีความพยายามในการแก้ไขบล็อกและไม่มีการตัดสินใจว่าบล็อกที่ไม่ดีเป็นผลมาจากข้อบกพร่องทางกายภาพบนจานไดรฟ์หรือข้อผิดพลาดของข้อมูลเนื่องจากสาเหตุอื่น ๆ  การมีอยู่ของ Sense Code 3/11/00 ไม่ได้หมายความว่าไดรฟ์จริงล้มเหลวหรือควรเปลี่ยน


ไดรฟ์ คอนโทรลเลอร์ RAID ที่ใช้ฮาร์ดแวร์ของ Dell มีคุณสมบัติต่างๆ เช่น Patrol Read and Check Consistency เพื่อแก้ไขสถานการณ์ข้อผิดพลาดของข้อมูลจํานวนมาก  Patrol Read ทํางานตามค่าเริ่มต้นเป็นงานพื้นหลังอัตโนมัติที่ตรวจสอบบล็อกทั้งหมดบนฮาร์ดไดรฟ์เพื่อให้แน่ใจว่าข้อมูลสามารถอ่านได้อย่างถูกต้อง  การอ่านลาดตระเวนจะพยายามแก้ไขบล็อกที่ไม่ดีหรือแมปบล็อกที่แก้ไขไม่ได้ไปยังบล็อกที่สงวนไว้  Check Consistency เป็นฟังก์ชันที่เปิดใช้งานด้วยตนเอง (สามารถจัดกําหนดการได้) ที่เปรียบเทียบไดรฟ์ทั้งหมดในอาร์เรย์ซึ่งกันและกันเพื่อให้แน่ใจว่าข้อมูลและความซ้ําซ้อนตรงกันอย่างถูกต้อง  ตัวอย่างเช่น จะมีการเปรียบเทียบไดรฟ์สามตัวในอาร์เรย์ RAID 5 เพื่อให้แน่ใจว่าข้อมูลและพาริตีกําลังใช้ค่าที่ถูกต้อง  หากตรวจพบข้อผิดพลาดเดียวข้อมูลที่เหลือและ / หรือพาริตี้จะถูกใช้ในการเขียนใหม่และแก้ไขค่าที่ไม่ดี  ในทํานองเดียวกันในอาร์เรย์ RAID 1 ข้อมูลในไดรฟ์หนึ่งจะถูกเปรียบเทียบกับไดรฟ์อื่นเพื่อให้แน่ใจว่าข้อมูลถูกมิเรอร์อย่างถูกต้อง


ข้อผิดพลาดเดียวในอาร์เรย์ RAID หากไม่ได้แก้ไขอาจทําให้เกิดข้อผิดพลาดร้ายแรงมากขึ้นในอาร์เรย์โดยเฉพาะอย่างยิ่งเมื่อเกิดข้อผิดพลาดที่สอง  ข้อผิดพลาดเดียวอย่างน้อยหนึ่งข้อจะไม่ทําให้ข้อมูลสูญหายตราบใดที่อาร์เรย์ยังคงอยู่ในสถานะที่เหมาะสม  ยังมีข้อมูลที่เพียงพอบวกกับความซ้ําซ้อนในการทํางานตามปกติในขณะที่อาร์เรย์เหมาะสมที่สุด


เนื่องจากความสามารถของตัวควบคุมในการแก้ไขข้อผิดพลาดในระหว่างการทํางานปกติจึงไม่ใช่เรื่องง่ายที่จะตรวจจับเมื่อมีปัญหาพื้นฐานในข้อมูลอยู่  ไม่ค่อยมีข้อผิดพลาดหรือการแจ้งเตือนใดๆ ในบันทึกของคอนโทรลเลอร์ บันทึกฮาร์ดแวร์ หรือบันทึกเหตุการณ์ของระบบปฏิบัติการ  ด้วยเหตุนี้อาร์เรย์อาจใช้งานได้ตามปกติเป็นเวลานานแม้จะมีข้อผิดพลาดความสม่ําเสมอและ / หรือข้อผิดพลาด



SLN111497_en_US__11
เดียว รูปที่ 1: ความผิดพลาดเดียวหลายครั้งในอาร์เรย์ RAID 5 - อาร์เรย์ที่ดีที่สุด


ดังแสดงในรูปที่ 1 อาร์เรย์มีข้อผิดพลาดหลายอย่าง  อย่างไรก็ตามเนื่องจากมีข้อผิดพลาดเพียงครั้งเดียวในแถบใด ๆ คอนโทรลเลอร์จึงสามารถเข้าถึงข้อมูลทั้งหมดได้เนื่องจากความซ้ําซ้อนของ RAID 5  หากเกิดข้อผิดพลาดในส่วนพาริตี้ข้อมูลทั้งหมดจะคงอยู่และข้อผิดพลาดไม่มีผลกระทบต่อการอ่าน  หากเกิดข้อผิดพลาดในส่วนข้อมูลการเปรียบเทียบ XOR จะต้องเกิดขึ้นระหว่างข้อมูลที่ดีและชิ้นส่วนพาริตี้ที่ดีเพื่อคํานวณส่วนที่ขาดหายไป / ไม่ดีใหม่  ไม่ว่าในกรณีใดเนื่องจากมีข้อผิดพลาดเพียงครั้งเดียวในแถบใด ๆ จึงมีความซ้ําซ้อนเพียงพอที่จะเข้าถึงข้อมูลทั้งหมดได้

สําเร็จ เมื่ออย่างน้อยหนึ่งไดรฟ์ในอาร์เรย์ RAID มีข้อผิดพลาดของข้อมูล และไดรฟ์อื่นในอาร์เรย์ไม่ใช่สมาชิกที่ใช้งานอยู่อีกต่อไปหากอาร์เรย์เนื่องจากความล้มเหลวของไดรฟ์การกําหนดค่าต่างประเทศการลบไดรฟ์หรือเหตุผลอื่นใดซึ่งจะสร้างเงื่อนไขที่เรียกว่า "Double Fault"  สภาพความผิดพลาดสองครั้งส่งผลให้ข้อมูลใด ๆ สูญหายทันทีในแถบ



SLN111497_en_US__22
ที่ได้รับผลกระทบ รูปที่ 2: ดับเบิลความผิดพลาดกับไดรฟ์ที่ล้มเหลว (ข้อมูลใน Stripes 1 และ 2 หายไป) - อาร์เรย์ที่เสื่อมสภาพ


เป็นไปได้ว่าเงื่อนไขความผิดพลาดสองครั้งสามารถเกิดขึ้นได้กับอาร์เรย์ที่เหลืออยู่ในสถานะที่เหมาะสม  สิ่งนี้จะเกิดขึ้นกับ LBAs ที่ไม่ดีเหมือนกันในฮาร์ดไดรฟ์หลายตัว  เงื่อนไขดังกล่าวจะหายากมากเนื่องจากจํานวน LBAs ในปัจจุบันฮาร์ดไดรฟ์ขนาดใหญ่  มันไม่น่าเป็นไปได้มากสําหรับ LBA เดียวกันในฮาร์ดไดรฟ์หลายตัวที่จะ "ไม่ดี" ในเวลาเดียวกัน

การดําเนินการตรวจสอบความสอดคล้องอย่างสม่ําเสมอจะแก้ไขสําหรับข้อบกพร่องเดียวไม่ว่าจะเป็นบล็อกที่ไม่ดีทางกายภาพหรือข้อผิดพลาดทางตรรกะของข้อมูล ตรวจสอบความสอดคล้องกันจะลดความเสี่ยงของเงื่อนไขความผิดพลาดสองครั้งในกรณีที่มีข้อผิดพลาดเพิ่มเติม  เมื่อมีข้อผิดพลาดไม่เกินหนึ่งครั้งในแถบที่กําหนดการตรวจสอบความสอดคล้องสามารถกําจัดข้อผิดพลาดได้

เสมอ กลับไปด้านบน
 
 

บทที่ 2: เจาะ: พวกเขาคืออะไรและเกิดขึ้นได้อย่างไร?


การเจาะเป็นคุณสมบัติของคอนโทรลเลอร์ PERC ของ Dell ที่ออกแบบมาเพื่อให้คอนโทรลเลอร์สามารถกู้คืนความซ้ําซ้อนของอาร์เรย์ได้แม้ว่าจะสูญเสียข้อมูลที่เกิดจากสภาพความผิดพลาดสองครั้ง  อีกชื่อหนึ่งสําหรับการเจาะคือ "สร้างใหม่ด้วยข้อผิดพลาด"  คอนโทรลเลอร์ RAID จะตรวจพบความผิดพลาดสองครั้งและเนื่องจากมีความซ้ําซ้อนไม่เพียงพอในการกู้คืนข้อมูลในแถบที่ได้รับผลกระทบตัวควบคุมจึงสร้างการเจาะในแถบนั้นและอนุญาตให้สร้างใหม่ต่อไป

 
  • เงื่อนไขใดๆ ที่ทําให้ไม่สามารถเข้าถึงข้อมูลในแถบเดียวกันบนไดรฟ์มากกว่าหนึ่งไดรฟ์เป็นความผิดพลาดสองครั้ง
  • ความผิดพลาดสองครั้งทําให้ข้อมูลทั้งหมดภายในแถบที่ได้รับผลกระทบสูญหาย
  • การเจาะทั้งหมดเป็นความผิดพลาดสองครั้ง แต่ความผิดพลาดสองครั้งทั้งหมดไม่ใช่การเจาะ


SLN111497_en_US__33
รูปที่ 3: ลายทางเจาะ (ข้อมูลในลายเส้น 1 และ 2 หายไปเนื่องจากสภาพความผิดพลาดสองครั้ง) - อาร์เรย์ที่ดีที่สุด


โดยไม่มีคุณสมบัติการเจาะการสร้างอาร์เรย์ใหม่จะล้มเหลวและปล่อยให้อาร์เรย์อยู่ในสถานะที่เสื่อมโทรม  ในบางกรณี ความล้มเหลวอาจทําให้ไดรฟ์เพิ่มเติมล้มเหลว และทําให้อาร์เรย์อยู่ในสถานะออฟไลน์ที่ไม่ทํางาน  การเจาะอาร์เรย์ไม่มีผลกระทบต่อความสามารถในการบูตหรือเข้าถึงข้อมูลใด ๆ ในอาร์เรย์  ความเสียหายหรือข้อมูลที่สูญหายเนื่องจากสภาพความผิดพลาดสองครั้งได้เกิดขึ้นแล้ว 



การเจาะสามารถเกิดขึ้นได้ในหนึ่งในสองสถานการณ์:
 
  • มีความผิดพลาดสองครั้งอยู่แล้ว (ข้อมูลสูญหายไปแล้ว)
    • ข้อผิดพลาดของข้อมูลบนไดรฟ์ออนไลน์ได้รับการเผยแพร่ (คัดลอก) ไปยังไดรฟ์การสร้างใหม่
 
  • ไม่มีความผิดพลาดสองครั้งอยู่ (ข้อมูลจะสูญหายเมื่อเกิดข้อผิดพลาดที่สอง)
    • ในขณะที่อยู่ในสถานะที่เสื่อมโทรมหากมีบล็อกที่ไม่ดีเกิดขึ้นในไดรฟ์ออนไลน์ LBA นั้นจะถูกเจาะ


ข้อดีของการเจาะอาร์เรย์นี้คือการรักษาระบบให้พร้อมใช้งานในการผลิตและความซ้ําซ้อนของอาร์เรย์จะถูกกู้คืน  ข้อมูลในแถบที่ได้รับผลกระทบหายไปไม่ว่าการเจาะจะเกิดขึ้นหรือไม่  ข้อเสียเปรียบหลักของวิธีการ LSI คือในขณะที่อาร์เรย์มีการเจาะในนั้นข้อผิดพลาดที่ไม่สามารถแก้ไขได้จะยังคงพบเมื่อใดก็ตามที่เข้าถึงข้อมูลที่ได้รับผลกระทบ (ถ้ามี) 


การเจาะสามารถเกิดขึ้นได้ในสามสถานที่  ขั้นแรกการเจาะสามารถเกิดขึ้นได้ในพื้นที่ว่างที่ไม่มีข้อมูล  แถบนั้นจะไม่สามารถเข้าถึงได้ แต่เนื่องจากไม่มีข้อมูลในตําแหน่งนั้นจึงไม่มีผลกระทบอย่างมีนัยสําคัญ  ความพยายามใด ๆ ในการเขียนไปยังแถบที่เจาะโดยระบบปฏิบัติการจะล้มเหลวและข้อมูลจะถูกเขียนไปยังตําแหน่งอื่น 


ประการที่สองการเจาะอาจเกิดขึ้นในแถบที่มีข้อมูลที่ไม่สําคัญเช่น README แฟ้ม TXT  หากไม่มีการเข้าถึงข้อมูลที่ได้รับผลกระทบ จะไม่มีการสร้างข้อผิดพลาดระหว่าง I/O ปกติ  ความพยายามในการสํารองข้อมูลระบบไฟล์จะไม่สามารถสํารองข้อมูลไฟล์ใด ๆ ที่ได้รับผลกระทบจากการเจาะ  การดําเนินการตรวจสอบความสอดคล้องกันหรือการดําเนินการอ่านลาดตระเวนจะสร้างรหัสความรู้สึก:  3/11/00 สําหรับ LBA และ/หรือลาย


เส้นที่เกี่ยวข้อง ประการที่สามการเจาะอาจเกิดขึ้นในพื้นที่ข้อมูลที่เข้าถึงได้  ตัวอย่างเช่นข้อมูลที่สูญหายอาจทําให้เกิดข้อผิดพลาดที่หลากหลาย  ข้อผิดพลาดอาจเป็นข้อผิดพลาดเล็กน้อยที่ไม่ส่งผลเสียต่อสภาพแวดล้อมการผลิต  ข้อผิดพลาดอาจรุนแรงขึ้นและสามารถป้องกันไม่ให้ระบบบูตไปยังระบบปฏิบัติการหรือทําให้แอปพลิเคชันล้มเหลว


 อาร์เรย์ที่ถูกเจาะจะต้องถูกลบและสร้างใหม่เพื่อกําจัดการเจาะ  กระบวนการนี้ทําให้ข้อมูลทั้งหมดถูกลบ จากนั้นข้อมูลจะต้องสร้างใหม่หรือกู้คืนจากการสํารองข้อมูลหลังจากถูกเจาะจะถูกตัดออก  ความละเอียดสําหรับการเจาะสามารถกําหนดเวลาสําหรับเวลาที่เป็นประโยชน์มากขึ้นกับความต้องการของธุรกิจ


หากข้อมูลภายในแถบที่เจาะถูกเข้าถึงข้อผิดพลาดจะยังคงมีการรายงานกับ badLBAs ที่ได้รับผลกระทบโดยไม่มีการแก้ไขที่เป็นไปได้ ในที่สุด (ซึ่งอาจเป็นนาทีวันสัปดาห์เดือน ฯลฯ ) ตารางการจัดการบล็อกที่ไม่ดี (BBM) จะเติมเต็มทําให้ไดรฟ์อย่างน้อยหนึ่งไดรฟ์ถูกตั้งค่าสถานะเป็นความล้มเหลวในการทํานาย โดยทั่วไปแล้วไดรฟ์ 0 จะเป็นไดรฟ์ที่ถูกตั้งค่าสถานะเป็นความล้มเหลวในการคาดเดาเนื่องจากข้อผิดพลาดบนไดรฟ์ 1 และไดรฟ์ 2 กําลังแพร่กระจายไปยังไดรฟ์ ไดรฟ์ 0 อาจทํางานได้ตามปกติและการเปลี่ยนไดรฟ์ 0 จะทําให้การเปลี่ยนนั้นถูกตั้งค่าสถานะความล้มเหลวในการทํานายในที่สุดเช่นกัน


การตรวจสอบความสอดคล้องที่ดําเนินการหลังจากการเจาะเกิดขึ้นจะไม่แก้ไขปัญหา  นี่คือเหตุผลว่าทําไมจึงเป็นสิ่งสําคัญมากที่จะต้องดําเนินการตรวจสอบอย่างสม่ําเสมอ มันเป็นสิ่งสําคัญอย่างยิ่งก่อนที่จะเปลี่ยนไดรฟ์เมื่อเป็นไปได้ อาร์เรย์ต้องอยู่ในสถานะที่เหมาะสมเพื่อดําเนินการตรวจสอบความสอดคล้องกัน


อาร์เรย์ RAID ที่มีข้อผิดพลาดข้อมูลเดียวร่วมกับเหตุการณ์ข้อผิดพลาดเพิ่มเติม เช่น ความล้มเหลวของฮาร์ดไดรฟ์ทําให้เกิดการเจาะเมื่อไดรฟ์ที่ล้มเหลวหรือไดรฟ์ทดแทนถูกสร้างขึ้นใหม่ในอาร์เรย์ ตัวอย่างเช่น อาร์เรย์ RAID 5 ที่ดีที่สุดประกอบด้วยสมาชิกสามคน ได้แก่ ไดรฟ์ 0 ไดรฟ์ 1 และไดรฟ์ 2 หากไดรฟ์ 0 ล้มเหลว (รูปที่ 2) และถูกแทนที่ ข้อมูลและพาริตี้ที่เหลืออยู่บนไดรฟ์ 1 และ 2 จะถูกใช้เพื่อสร้างข้อมูลที่ขาดหายไปกลับไปยังไดรฟ์แทนที่ 0 อย่างไรก็ตาม หากมีข้อผิดพลาดของข้อมูลอยู่บนไดรฟ์ 1 เมื่อการดําเนินการสร้างใหม่ถึงข้อผิดพลาดนั้น จะมีข้อมูลไม่เพียงพอภายในแถบเพื่อสร้างข้อมูลที่ขาดหายไปในแถบนั้น ไดรฟ์ 0 ไม่มีข้อมูลไดรฟ์ 1 มีข้อมูลที่ไม่ดีและไดรฟ์ 2 มีข้อมูลที่ดีในขณะที่กําลังสร้างใหม่ มีข้อผิดพลาดหลายอย่างภายในแถบนั้น ไดรฟ์ 0 และไดรฟ์ 1 ไม่มีข้อมูลที่ถูกต้อง ดังนั้นข้อมูลใดๆ ในแถบนั้นจึงไม่สามารถกู้คืนได้และสูญหายไป  ผลลัพธ์ดังแสดงในรูปที่ 3 คือการเจาะ (เป็นลายเส้น 1 และ 2) ถูกสร้างขึ้นระหว่างการสร้างใหม่ ข้อผิดพลาดจะถูกเผยแพร่ไปยังไดรฟ์ 0 


การเจาะอาร์เรย์จะคืนค่าความซ้ําซ้อนและส่งกลับอาร์เรย์ให้อยู่ในสถานะที่เหมาะสม  ซึ่งจะช่วยให้อาร์เรย์ได้รับการปกป้องจากการสูญหายของข้อมูลเพิ่มเติมในกรณีที่มีข้อผิดพลาดเพิ่มเติมหรือความล้มเหลวของไดรฟ์
 
กลับไปที่ด้านบน
 

บทที่ 3: การป้องกันปัญหาก่อนที่จะเกิดขึ้น & การแก้ปัญหาการเจาะหลังจากเกิดขึ้น


มันสามารถดึงดูดให้ทํางานภายใต้หลักฐาน"ถ้ามันไม่ได้ยากจน, ไม่แก้ไข." แม้ว่าสิ่งนี้อาจเป็นจริงในหลาย ๆ ด้านเพื่อปกป้องและจัดการระบบย่อยการจัดเก็บที่ดีที่สุดขอแนะนําให้ทําการบํารุงรักษาตามปกติและเป็นประจํา การบํารุงรักษาเชิงรุกสามารถแก้ไขข้อผิดพลาดที่มีอยู่และป้องกันไม่ให้เกิดข้อผิดพลาดบางอย่าง ไม่สามารถป้องกันข้อผิดพลาดทั้งหมดที่เกิดขึ้น แต่ข้อผิดพลาดร้ายแรงที่สุดสามารถบรรเทาได้อย่างมากด้วยการบํารุงรักษาเชิงรุก สําหรับระบบย่อยของที่เก็บข้อมูลและ RAID ขั้นตอนเหล่านี้:

 
  • อัปเดตไดรเวอร์และเฟิร์มแวร์ บนคอนโทรลเลอร์ฮาร์ดไดรฟ์แบ็คเพลนและอุปกรณ์อื่น ๆ
  • ปฏิบัติงานตรวจสอบความสอดคล้องกันอย่างสม่ําเสมอเป็นประจํา
  • ตรวจสอบบันทึก สําหรับการระบุปัญหา

นี่ไม่จําเป็นต้องเป็นการตรวจสอบทางเทคนิคระดับสูง แต่อาจเป็นมุมมองที่คร่าวๆของบันทึกที่กําลังมองหาข้อบ่งชี้ที่ชัดเจนอย่างยิ่งเกี่ยวกับปัญหาที่อาจเกิดขึ้น
ติดต่อฝ่ายสนับสนุนด้านเทคนิคของ Dell ด้วยคําถามหรือข้อกังวลใด ๆ


หนึ่งในสิ่งที่สําคัญที่สุดที่ควรทําคือตรวจสอบให้แน่ใจว่าเฟิร์มแวร์ได้รับการอัปเดตอยู่เสมอ เฟิร์มแวร์คือที่ที่ตรรกะทั้งหมดสําหรับการทํางานของอุปกรณ์อยู่ มันมีฟังก์ชั่นและคุณสมบัติของอุปกรณ์พร้อมกับการจัดการข้อผิดพลาดที่หลากหลายและฟังก์ชั่นการแก้ไขข้อผิดพลาด การรักษาเฟิร์มแวร์ให้ทันสมัยสามารถให้ประสิทธิภาพที่ดีขึ้นและข้อผิดพลาดน้อยลง นอกจากนี้ยังสามารถเพิ่มคุณสมบัติและการปรับปรุงใหม่ผ่านการอัปเดต


เฟิร์มแวร์ เฟิร์มแวร์สามารถอยู่ในสถานที่หลายแห่ง คอนโทรลเลอร์ RAID ประกอบด้วยเฟิร์มแวร์และฮาร์ดไดรฟ์แต่ละตัวที่ติดตั้งในระบบหรืออาร์เรย์ Backplanes และกล่องหุ้มภายนอกยังมีเฟิร์มแวร์ที่อาจส่งผลกระทบต่อการทํางานของไดรฟ์และอาร์เรย์ที่มีอยู่ภายใน


คําแนะนําการบํารุงรักษาเชิงรุกอีกประการหนึ่งคือการดําเนินการ "ตรวจสอบความสอดคล้อง"  ความสอดคล้องของการตรวจสอบเป็นการดําเนินการด้วยตนเองเนื่องจากใช้แบนด์วิดท์โดยรวมที่มีอยู่บางส่วนของตัวควบคุม RAID อย่างไรก็ตาม ความสอดคล้องของเช็คสามารถจัดกําหนดการได้ในช่วงเวลาที่มีผลกระทบน้อยที่สุดต่อประสิทธิภาพการทํางาน


ตรวจสอบความสอดคล้องกันจะตรวจสอบบล็อกที่ไม่ดีบนไดรฟ์ แต่ที่สําคัญกว่านั้นคือการเปรียบเทียบข้อมูลในอาร์เรย์เพื่อให้แน่ใจว่าทุกชิ้นตรงกันอย่างถูกต้อง เมื่อพบปัญหาจะเป็นตัวกําหนดว่าข้อมูลควรมีลักษณะอย่างไรและแก้ไขโดยการตรวจสอบข้อมูลบนไดรฟ์อื่นในอาร์เรย์ การแก้ไขข้อผิดพลาดของข้อมูลเมื่อมีขนาดเล็กเป็นวิธีที่ดีที่สุดในการลดความเสี่ยงของการเจาะที่เกิดจากข้อผิดพลาดของข้อมูลที่มีอยู่ร่วมกับข้อผิดพลาดหรือความล้มเหลวที่สอง การมีอยู่ของความผิดพลาดสองครั้งและการเจาะอาจทําให้สูญเสียผลผลิตในช่วงเวลาที่จําเป็นในการกู้คืนอาร์เรย์และข้อมูลไปยังสถานะการทํางานหรือแม้กระทั่งการสูญเสียข้อมูลทั้งหมด


อย่างสมบูรณ์ เมื่อมีข้อบกพร่องสองครั้งหรือเงื่อนไขการเจาะอยู่มักจะมีการสูญเสียข้อมูลบางอย่าง หากตําแหน่งของข้อผิดพลาดเหล่านี้อยู่ในพื้นที่ว่างหรือพื้นที่ข้อมูลที่ไม่สําคัญผลกระทบทันทีต่อข้อมูลในสภาพแวดล้อมการผลิตจะค่อนข้างเล็ก อย่างไรก็ตามการมีข้อผิดพลาดเหล่านี้อาจหมายความว่าอาจมีปัญหาร้ายแรงมากขึ้น ข้อผิดพลาดของฮาร์ดแวร์และเฟิร์มแวร์ที่ล้าสมัยอาจต้องได้รับความสนใจทันที


หากมีข้อบกพร่องหรือเงื่อนไขการเจาะที่รู้จักหรือสงสัยว่าให้ทําตามขั้นตอนเหล่านี้เพื่อลดความเสี่ยงของปัญหาที่รุนแรงมากขึ้น:

 
  • การดําเนินการตรวจสอบความสอดคล้องกัน (อาร์เรย์ต้องเหมาะสมที่สุด)
  • ตรวจสอบว่ามีปัญหาฮาร์ดแวร์อยู่หรือไม่
  • ตรวจสอบล็อกตัวควบคุม
  • ทําการวินิจฉัยฮาร์ดแวร์
  • ติดต่อฝ่ายสนับสนุนด้านเทคนิคของ Dell ตามต้องการ

หากทําตามขั้นตอนเหล่านี้แล้วมีข้อกังวลเพิ่มเติม การเจาะอาจทําให้ฮาร์ดไดรฟ์เข้าสู่สถานะความล้มเหลวในการทํานายเมื่อเวลาผ่านไป ข้อผิดพลาดของข้อมูลที่ถูกเผยแพร่ไปยังไดรฟ์จะถูกรายงานว่าเป็นข้อผิดพลาดของสื่อบนไดรฟ์ แม้ว่าจะไม่มีปัญหาฮาร์ดแวร์ก็ตาม ทุกครั้งที่เข้าถึง LBA จะมีการรายงานข้อผิดพลาด เมื่อบันทึกข้อผิดพลาดเต็มไดรฟ์จะรายงานตัวเองว่าเป็นความล้มเหลว


ในการคาดเดา สามารถรายงาน LBA ที่เจาะได้เพียงตัวเดียวบนไดรฟ์ได้หลายครั้ง ทั้งนี้ขึ้นอยู่กับจํานวนการเจาะ เป็นไปได้ที่ไดรฟ์หลายตัวในอาร์เรย์จะถูกรายงานว่าเป็นความล้มเหลวในการทํานาย การเปลี่ยนไดรฟ์ความล้มเหลวในการคาดคะเนจะทําให้การเจาะที่มีอยู่ถูกแพร่กระจายไปยังไดรฟ์ทดแทนอีกครั้งซึ่งจะทําให้ไดรฟ์ทดแทนถูกตั้งค่าสถานะความล้มเหลวในการทํานาย ในกรณีเช่นนี้การดําเนินการแก้ไขเพียงอย่างเดียวคือการแก้ไขเงื่อนไข


การเจาะ เมื่อดูรูปที่ 3 เราจะเห็นว่ามีการเจาะบนลายเส้นที่ 1 และ 2 การเปลี่ยนฮาร์ดไดรฟ์จะไม่แก้ไขปัญหานี้ เนื่องจากมีความซ้ําซ้อนของข้อมูลไม่เพียงพอที่จะสร้างข้อมูลเดิมใหม่ ข้อมูลใดๆ ที่มีอยู่ในแถบที่เจาะจะสูญหายไป (เว้นแต่จะถูกเก็บไว้ในการสํารองข้อมูลก่อนหน้า) โปรดจําไว้ว่าการเจาะไม่ทําให้ข้อมูลสูญหายสภาพความผิดพลาดสองครั้งส่งผลให้ข้อมูลสูญหาย การเจาะเป็นวิธีการคืนค่าความซ้ําซ้อนไปยังอาร์เรย์ที่มีความผิดพลาดสองครั้ง
 

 

หมายเหตุ: นี่คือกระบวนการที่ใช้ในการแก้ไขการเจาะส่วนใหญ่ อาจไม่จําเป็นต้องทําตามขั้นตอนเหล่านี้ทั้งหมดเพื่อแก้ไข หากทําตามขั้นตอนเหล่านี้ไม่สามารถแก้ไขปัญหาได้ โปรดติดต่อฝ่ายสนับสนุนด้านเทคนิคของ Dell เพื่อขอความช่วยเหลือเพิ่มเติม

 

 

คำเตือน: การทําตามขั้นตอนเหล่านี้จะส่งผลให้ข้อมูลทั้งหมดในอาร์เรย์สูญหาย โปรดตรวจสอบให้แน่ใจว่าคุณพร้อมที่จะคืนค่าจากการสํารองข้อมูลหรือวิธีการอื่นๆ ก่อนที่จะทําตามขั้นตอนเหล่านี้ ใช้ความระมัดระวังเพื่อให้การทําตามขั้นตอนเหล่านี้ไม่ส่งผลกระทบต่ออาร์เรย์อื่นๆ
  1. ละทิ้งแคชที่เก็บรักษาไว้ (ถ้ามีอยู่)
  2. ล้างข้อมูลการตั้งค่าคอนฟิกต่างประเทศ (ถ้ามี)
  3. ลบแถวลําดับ
  4. เลื่อนตําแหน่งของไดรฟ์ทีละไดรฟ์ (โดยใช้รูปที่ 1 ย้ายดิสก์ 0 ไปยังช่องที่ 1 ดิสก์ 1 ไปยังช่อง 2 และดิสก์ 2 ไปยังช่อง 0)
  5. สร้างอาร์เรย์ใหม่ตามต้องการ
  6. ดําเนินการเตรียมใช้งานอาร์เรย์ทั้งหมด (ไม่ใช่การเตรียมใช้งานอย่างรวดเร็ว)
  7. การดําเนินการตรวจสอบความสอดคล้องกันของอาร์เรย์

หากความสอดคล้องของการตรวจสอบเสร็จสมบูรณ์โดยไม่มีข้อผิดพลาดคุณสามารถสันนิษฐานได้อย่างปลอดภัยว่าอาร์เรย์มีสุขภาพดีและการลบการเจาะออก ตอนนี้ข้อมูลสามารถกู้คืนไปยังอาร์เรย์ที่ดีต่อสุขภาพได้แล้ว


ในกรณีที่รุนแรงมากขึ้นปัญหาอาจไม่สามารถแก้ไขได้และข้อผิดพลาดอาจยังคงมีอยู่แม้จะทําตามขั้นตอนเหล่านี้ หากทําตามขั้นตอนเหล่านี้ไม่สามารถแก้ไขปัญหาได้ โปรดติดต่อฝ่ายสนับสนุนด้านเทคนิคของ Dell เพื่อขอความช่วยเหลือเพิ่มเติม


อาจจําเป็นต้องวิเคราะห์การเจาะโดยละเอียดเพื่อพิจารณาว่าไดรฟ์ใดที่เหมือนกัน ตัวอย่างเช่น ในรูปที่ 3 บันทึกของคอนโทรลเลอร์จะแสดงการเจาะระหว่างดิสก์ 0 และ 1 และการเจาะระหว่างดิสก์ 0 และ 2 ดิสก์ 0 เป็นไดรฟ์ทั่วไป ทําตามขั้นตอนเดียวกันข้างต้น แต่ให้เอาไดรฟ์ทั่วไปออกอย่างสมบูรณ์ก่อน ดังนั้นการใช้ตัวอย่างในรูปที่ 1 ให้เอา Disk 0 ออก แล้วทําตามขั้นตอนที่อธิบายไว้ สร้างอาร์เรย์โดยใช้ดิสก์ที่เหลือ (1 และ 2) ที่เหลือ เมื่อเสร็จสิ้นและหลังจากการตรวจสอบสอดคล้องกันแล้วจะกําหนดว่าอาร์เรย์มีสุขภาพดีแล้วเพิ่มดิสก์ 0 กลับเข้าไปและทําตามขั้นตอนอีกครั้งด้วยไดรฟ์ทั้งหมดหรือใช้คุณสมบัติ RLM (การย้ายระดับ RAID) และ / หรือ OCE (การขยายความจุออนไลน์) เพื่อเพิ่มไดรฟ์ที่เหลือกลับเข้าไปในอาร์เรย์


ไดรฟ์ใดๆ ที่ตั้งค่าสถานะความล้มเหลวในการคาดคะเนควรถูกลบออกและไม่รวมอยู่ในกระบวนการกู้คืน อีกครั้งโดยใช้รูปที่ 3 เป็นตัวอย่างหากดิสก์ 0 เป็นความล้มเหลวในการคาดเดาให้เอาไดรฟ์นี้ออก จากนั้นทําตามขั้นตอนตามที่ระบุไว้ข้างต้น เนื่องจากเหลือไดรฟ์เพียง 2 ไดรฟ์ อาร์เรย์ RAID ที่สร้างขึ้นคือ RAID 1 แทนที่จะเป็น RAID 5 หลังจากได้รับดิสก์ 0 ทดแทน (เนื่องจากความล้มเหลวในการคาดเดา) ให้ทําตามขั้นตอนอีกครั้ง รวมถึงทั้ง 3 ไดรฟ์ หรือเพิ่ม Disk 0 ลงในอาร์เรย์ที่มีอยู่โดยใช้ RLM และเปลี่ยนจาก RAID 1 ที่มี 2 ไดรฟ์เป็น RAID 5 ที่มี 3 ไดรฟ์


กระบวนการนี้อาจเป็นเรื่องที่น่ากังวลโดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงศักยภาพในการสูญหายของข้อมูล คํากล่าวที่ว่า "การป้องกันหนึ่งออนซ์มีค่าต่อการรักษาหนึ่งปอนด์" เป็นความจริงอย่างแน่นอนที่นี่ ประสบการณ์แสดงให้เห็นว่าความผิดพลาดสองครั้งและเงื่อนไขการเจาะเกือบทั้งหมดสามารถหลีกเลี่ยงได้โดยการบํารุงรักษาเชิงรุกบนฮาร์ดแวร์และอาร์เรย์ RAID
 

 

หมายเหตุ: การตรวจสอบระบบอย่างมีประสิทธิภาพช่วยให้สามารถตรวจพบและแก้ไขปัญหาได้ทันทะลวงซึ่งจะช่วยลดความเสี่ยงของปัญหาที่ร้ายแรงกว่า


 

บทความที่เกี่ยวข้อง
PERC - วิธีแก้ไขการเจาะ RAID

 

กลับไปด้านบน

 

原因

-

解决方案

-

文章属性


受影响的产品

Servers

上次发布日期

25 3月 2022

版本

6

文章类型

Solution