Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

ความผิดพลาดและการเจาะสองครั้งในอาร์เรย์ RAID

Summary: อาร์เรย์ RAID ไม่มีภูมิคุ้มกันต่อข้อผิดพลาดของข้อมูลบทความนี้ให้คําแนะนําเพื่อป้องกันและบรรเทาปัญหาเหล่านี้

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

บทความนี้ให้ข้อมูลเกี่ยวกับข้อผิดพลาดของข้อมูลความผิดพลาดสองครั้งและการเจาะในอาร์เรย์ RAID นอกจากนี้ยังมีคําแนะนําในการป้องกัน / บรรเทาปัญหาเหล่านี้และวิธีการแก้ไขปัญหาหลังจากเกิดขึ้น

สารบัญ
  1. ข้อผิดพลาดของข้อมูลและความผิดพลาดสองครั้ง
  2. เจาะ: พวกเขาคืออะไรและเกิดขึ้นได้อย่างไร?
  3. การป้องกันปัญหาก่อนที่จะเกิดขึ้นและการแก้ปัญหาการเจาะหลังจากเกิดขึ้น

     

บทที่ 1 : ข้อผิดพลาดของข้อมูลและความผิดพลาดสองครั้ง

อาร์เรย์ RAID ไม่มีภูมิคุ้มกันต่อข้อผิดพลาดของข้อมูล  คอนโทรลเลอร์ RAID และเฟิร์มแวร์ของฮาร์ดไดรฟ์มีฟังก์ชันในการตรวจสอบและแก้ไขข้อผิดพลาดของข้อมูลหลายชนิดก่อนที่จะเขียนไปยังอาร์เรย์/ไดรฟ์  การใช้เฟิร์มแวร์ที่ล้าสมัยอาจส่งผลให้มีการเขียนข้อมูลที่ไม่ถูกต้องไปยังอาร์เรย์/ไดรฟ์ เนื่องจากไม่มีคุณสมบัติการจัดการข้อผิดพลาด/การแก้ไขข้อผิดพลาดที่มีอยู่ในเฟิร์มแวร์รุ่น


ล่าสุด ข้อผิดพลาดของข้อมูลอาจเกิดจากบล็อกที่ไม่ดีทางกายภาพ  ตัวอย่างเช่นสิ่งนี้สามารถเกิดขึ้นได้เมื่อหัวอ่าน / เขียนส่งผลกระทบต่อจานหมุน (ที่เรียกว่า "ความผิดพลาดของหัว")  บล็อกอาจกลายเป็นไม่ดีเมื่อเวลาผ่านไปเนื่องจากการเสื่อมสภาพของความสามารถของจานในการจัดเก็บบิตแม่เหล็กในสถานที่เฉพาะ  บล็อกที่ไม่ดีที่เกิดจากการย่อยสลายของจานมักจะสามารถอ่านได้สําเร็จ  บล็อกที่ไม่ดีดังกล่าวอาจตรวจพบเป็นระยะ ๆ หรือมีการวินิจฉัยเพิ่มเติมในไดรฟ์เท่านั้น  


บล็อกที่ไม่ดีหรือที่เรียกว่าที่อยู่บล็อกตรรกะ (LBA) ที่ไม่ดีอาจเกิดจากข้อผิดพลาดของข้อมูลทางตรรกะ  เหตุการณ์นี้เกิดขึ้นเมื่อข้อมูลถูกเขียนลงในไดรฟ์อย่างไม่ถูกต้องแม้ว่าจะมีการรายงานว่าเป็นการเขียนที่สําเร็จแล้วก็ตาม  นอกจากนี้ ข้อมูลที่ดีที่เก็บอยู่บนไดรฟ์สามารถเปลี่ยนแปลงได้โดยไม่ได้ตั้งใจ  ตัวอย่างหนึ่งคือ "บิตพลิก" ซึ่งสามารถเกิดขึ้นได้เมื่อหัวอ่าน / เขียนผ่านหรือเขียนไปยังตําแหน่งใกล้เคียงและทําให้ข้อมูลในรูปแบบของศูนย์และคนเพื่อเปลี่ยนเป็นค่าอื่น  เงื่อนไขดังกล่าวทําให้ "ความสอดคล้อง" ของข้อมูลเสียหาย  ค่าของข้อมูลในบล็อกที่ระบุจะแตกต่างจากข้อมูลเดิมและอาจไม่ตรงกับ checksum ของข้อมูลอีกต่อไป  LBA ทางกายภาพเป็นสิ่งที่ดีและสามารถเขียนเพื่อประสบความสําเร็จ แต่ขณะนี้มีข้อมูลที่ไม่ถูกต้องและอาจถูกตีความว่าเป็นบล็อกที่ไม่ดี


LBAs ที่ไม่ดีมักถูกรายงานเป็นรหัสความรู้สึก 3/11/0 Sense Key 3 เป็นข้อผิดพลาดปานกลาง  รหัสความรู้สึกเพิ่มเติมและตัวบ่งคุณลักษณะความรู้สึกเพิ่มเติมของ 11/00 หมายถึงข้อผิดพลาดในการอ่านที่ไม่ได้กู้คืน  ไม่มีความพยายามในการแก้ไขบล็อกและไม่มีการตัดสินใจว่าบล็อกที่ไม่ดีเป็นผลมาจากข้อบกพร่องทางกายภาพบนจานไดรฟ์หรือข้อผิดพลาดของข้อมูลเนื่องจากสาเหตุอื่น ๆ  การมีอยู่ของ Sense Code 3/11/00 ไม่ได้หมายความว่าไดรฟ์จริงล้มเหลวหรือควรเปลี่ยน


ไดรฟ์ คอนโทรลเลอร์ RAID ที่ใช้ฮาร์ดแวร์ของ Dell มีคุณสมบัติต่างๆ เช่น Patrol Read and Check Consistency เพื่อแก้ไขสถานการณ์ข้อผิดพลาดของข้อมูลจํานวนมาก  Patrol Read ทํางานตามค่าเริ่มต้นเป็นงานพื้นหลังอัตโนมัติที่ตรวจสอบบล็อกทั้งหมดบนฮาร์ดไดรฟ์เพื่อให้แน่ใจว่าข้อมูลสามารถอ่านได้อย่างถูกต้อง  การอ่านลาดตระเวนจะพยายามแก้ไขบล็อกที่ไม่ดีหรือแมปบล็อกที่แก้ไขไม่ได้ไปยังบล็อกที่สงวนไว้  Check Consistency เป็นฟังก์ชันที่เปิดใช้งานด้วยตนเอง (สามารถจัดกําหนดการได้) ที่เปรียบเทียบไดรฟ์ทั้งหมดในอาร์เรย์ซึ่งกันและกันเพื่อให้แน่ใจว่าข้อมูลและความซ้ําซ้อนตรงกันอย่างถูกต้อง  ตัวอย่างเช่น จะมีการเปรียบเทียบไดรฟ์สามตัวในอาร์เรย์ RAID 5 เพื่อให้แน่ใจว่าข้อมูลและพาริตีกําลังใช้ค่าที่ถูกต้อง  หากตรวจพบข้อผิดพลาดเดียวข้อมูลที่เหลือและ / หรือพาริตี้จะถูกใช้ในการเขียนใหม่และแก้ไขค่าที่ไม่ดี  ในทํานองเดียวกันในอาร์เรย์ RAID 1 ข้อมูลในไดรฟ์หนึ่งจะถูกเปรียบเทียบกับไดรฟ์อื่นเพื่อให้แน่ใจว่าข้อมูลถูกมิเรอร์อย่างถูกต้อง


ข้อผิดพลาดเดียวในอาร์เรย์ RAID หากไม่ได้แก้ไขอาจทําให้เกิดข้อผิดพลาดร้ายแรงมากขึ้นในอาร์เรย์โดยเฉพาะอย่างยิ่งเมื่อเกิดข้อผิดพลาดที่สอง  ข้อผิดพลาดเดียวอย่างน้อยหนึ่งข้อจะไม่ทําให้ข้อมูลสูญหายตราบใดที่อาร์เรย์ยังคงอยู่ในสถานะที่เหมาะสม  ยังมีข้อมูลที่เพียงพอบวกกับความซ้ําซ้อนในการทํางานตามปกติในขณะที่อาร์เรย์เหมาะสมที่สุด


เนื่องจากความสามารถของตัวควบคุมในการแก้ไขข้อผิดพลาดในระหว่างการทํางานปกติจึงไม่ใช่เรื่องง่ายที่จะตรวจจับเมื่อมีปัญหาพื้นฐานในข้อมูลอยู่  ไม่ค่อยมีข้อผิดพลาดหรือการแจ้งเตือนใดๆ ในบันทึกของคอนโทรลเลอร์ บันทึกฮาร์ดแวร์ หรือบันทึกเหตุการณ์ของระบบปฏิบัติการ  ด้วยเหตุนี้อาร์เรย์อาจใช้งานได้ตามปกติเป็นเวลานานแม้จะมีข้อผิดพลาดความสม่ําเสมอและ / หรือข้อผิดพลาด



SLN111497_en_US__11
เดียว รูปที่ 1: ความผิดพลาดเดียวหลายครั้งในอาร์เรย์ RAID 5 - อาร์เรย์ที่ดีที่สุด


ดังแสดงในรูปที่ 1 อาร์เรย์มีข้อผิดพลาดหลายอย่าง  อย่างไรก็ตามเนื่องจากมีข้อผิดพลาดเพียงครั้งเดียวในแถบใด ๆ คอนโทรลเลอร์จึงสามารถเข้าถึงข้อมูลทั้งหมดได้เนื่องจากความซ้ําซ้อนของ RAID 5  หากเกิดข้อผิดพลาดในส่วนพาริตี้ข้อมูลทั้งหมดจะคงอยู่และข้อผิดพลาดไม่มีผลกระทบต่อการอ่าน  หากเกิดข้อผิดพลาดในส่วนข้อมูลการเปรียบเทียบ XOR จะต้องเกิดขึ้นระหว่างข้อมูลที่ดีและชิ้นส่วนพาริตี้ที่ดีเพื่อคํานวณส่วนที่ขาดหายไป / ไม่ดีใหม่  ไม่ว่าในกรณีใดเนื่องจากมีข้อผิดพลาดเพียงครั้งเดียวในแถบใด ๆ จึงมีความซ้ําซ้อนเพียงพอที่จะเข้าถึงข้อมูลทั้งหมดได้

สําเร็จ เมื่ออย่างน้อยหนึ่งไดรฟ์ในอาร์เรย์ RAID มีข้อผิดพลาดของข้อมูล และไดรฟ์อื่นในอาร์เรย์ไม่ใช่สมาชิกที่ใช้งานอยู่อีกต่อไปหากอาร์เรย์เนื่องจากความล้มเหลวของไดรฟ์การกําหนดค่าต่างประเทศการลบไดรฟ์หรือเหตุผลอื่นใดซึ่งจะสร้างเงื่อนไขที่เรียกว่า "Double Fault"  สภาพความผิดพลาดสองครั้งส่งผลให้ข้อมูลใด ๆ สูญหายทันทีในแถบ



SLN111497_en_US__22
ที่ได้รับผลกระทบ รูปที่ 2: ดับเบิลความผิดพลาดกับไดรฟ์ที่ล้มเหลว (ข้อมูลใน Stripes 1 และ 2 หายไป) - อาร์เรย์ที่เสื่อมสภาพ


เป็นไปได้ว่าเงื่อนไขความผิดพลาดสองครั้งสามารถเกิดขึ้นได้กับอาร์เรย์ที่เหลืออยู่ในสถานะที่เหมาะสม  สิ่งนี้จะเกิดขึ้นกับ LBAs ที่ไม่ดีเหมือนกันในฮาร์ดไดรฟ์หลายตัว  เงื่อนไขดังกล่าวจะหายากมากเนื่องจากจํานวน LBAs ในปัจจุบันฮาร์ดไดรฟ์ขนาดใหญ่  มันไม่น่าเป็นไปได้มากสําหรับ LBA เดียวกันในฮาร์ดไดรฟ์หลายตัวที่จะ "ไม่ดี" ในเวลาเดียวกัน

การดําเนินการตรวจสอบความสอดคล้องอย่างสม่ําเสมอจะแก้ไขสําหรับข้อบกพร่องเดียวไม่ว่าจะเป็นบล็อกที่ไม่ดีทางกายภาพหรือข้อผิดพลาดทางตรรกะของข้อมูล ตรวจสอบความสอดคล้องกันจะลดความเสี่ยงของเงื่อนไขความผิดพลาดสองครั้งในกรณีที่มีข้อผิดพลาดเพิ่มเติม  เมื่อมีข้อผิดพลาดไม่เกินหนึ่งครั้งในแถบที่กําหนดการตรวจสอบความสอดคล้องสามารถกําจัดข้อผิดพลาดได้

เสมอ กลับไปด้านบน
 
 

บทที่ 2: เจาะ: พวกเขาคืออะไรและเกิดขึ้นได้อย่างไร?


การเจาะเป็นคุณสมบัติของคอนโทรลเลอร์ PERC ของ Dell ที่ออกแบบมาเพื่อให้คอนโทรลเลอร์สามารถกู้คืนความซ้ําซ้อนของอาร์เรย์ได้แม้ว่าจะสูญเสียข้อมูลที่เกิดจากสภาพความผิดพลาดสองครั้ง  อีกชื่อหนึ่งสําหรับการเจาะคือ "สร้างใหม่ด้วยข้อผิดพลาด"  คอนโทรลเลอร์ RAID จะตรวจพบความผิดพลาดสองครั้งและเนื่องจากมีความซ้ําซ้อนไม่เพียงพอในการกู้คืนข้อมูลในแถบที่ได้รับผลกระทบตัวควบคุมจึงสร้างการเจาะในแถบนั้นและอนุญาตให้สร้างใหม่ต่อไป

 
  • เงื่อนไขใดๆ ที่ทําให้ไม่สามารถเข้าถึงข้อมูลในแถบเดียวกันบนไดรฟ์มากกว่าหนึ่งไดรฟ์เป็นความผิดพลาดสองครั้ง
  • ความผิดพลาดสองครั้งทําให้ข้อมูลทั้งหมดภายในแถบที่ได้รับผลกระทบสูญหาย
  • การเจาะทั้งหมดเป็นความผิดพลาดสองครั้ง แต่ความผิดพลาดสองครั้งทั้งหมดไม่ใช่การเจาะ


SLN111497_en_US__33
รูปที่ 3: ลายทางเจาะ (ข้อมูลในลายเส้น 1 และ 2 หายไปเนื่องจากสภาพความผิดพลาดสองครั้ง) - อาร์เรย์ที่ดีที่สุด


โดยไม่มีคุณสมบัติการเจาะการสร้างอาร์เรย์ใหม่จะล้มเหลวและปล่อยให้อาร์เรย์อยู่ในสถานะที่เสื่อมโทรม  ในบางกรณี ความล้มเหลวอาจทําให้ไดรฟ์เพิ่มเติมล้มเหลว และทําให้อาร์เรย์อยู่ในสถานะออฟไลน์ที่ไม่ทํางาน  การเจาะอาร์เรย์ไม่มีผลกระทบต่อความสามารถในการบูตหรือเข้าถึงข้อมูลใด ๆ ในอาร์เรย์  ความเสียหายหรือข้อมูลที่สูญหายเนื่องจากสภาพความผิดพลาดสองครั้งได้เกิดขึ้นแล้ว 



การเจาะสามารถเกิดขึ้นได้ในหนึ่งในสองสถานการณ์:
 
  • มีความผิดพลาดสองครั้งอยู่แล้ว (ข้อมูลสูญหายไปแล้ว)
    • ข้อผิดพลาดของข้อมูลบนไดรฟ์ออนไลน์ได้รับการเผยแพร่ (คัดลอก) ไปยังไดรฟ์การสร้างใหม่
 
  • ไม่มีความผิดพลาดสองครั้งอยู่ (ข้อมูลจะสูญหายเมื่อเกิดข้อผิดพลาดที่สอง)
    • ในขณะที่อยู่ในสถานะที่เสื่อมโทรมหากมีบล็อกที่ไม่ดีเกิดขึ้นในไดรฟ์ออนไลน์ LBA นั้นจะถูกเจาะ


ข้อดีของการเจาะอาร์เรย์นี้คือการรักษาระบบให้พร้อมใช้งานในการผลิตและความซ้ําซ้อนของอาร์เรย์จะถูกกู้คืน  ข้อมูลในแถบที่ได้รับผลกระทบหายไปไม่ว่าการเจาะจะเกิดขึ้นหรือไม่  ข้อเสียเปรียบหลักของวิธีการ LSI คือในขณะที่อาร์เรย์มีการเจาะในนั้นข้อผิดพลาดที่ไม่สามารถแก้ไขได้จะยังคงพบเมื่อใดก็ตามที่เข้าถึงข้อมูลที่ได้รับผลกระทบ (ถ้ามี) 


การเจาะสามารถเกิดขึ้นได้ในสามสถานที่  ขั้นแรกการเจาะสามารถเกิดขึ้นได้ในพื้นที่ว่างที่ไม่มีข้อมูล  แถบนั้นจะไม่สามารถเข้าถึงได้ แต่เนื่องจากไม่มีข้อมูลในตําแหน่งนั้นจึงไม่มีผลกระทบอย่างมีนัยสําคัญ  ความพยายามใด ๆ ในการเขียนไปยังแถบที่เจาะโดยระบบปฏิบัติการจะล้มเหลวและข้อมูลจะถูกเขียนไปยังตําแหน่งอื่น 


ประการที่สองการเจาะอาจเกิดขึ้นในแถบที่มีข้อมูลที่ไม่สําคัญเช่น README แฟ้ม TXT  หากไม่มีการเข้าถึงข้อมูลที่ได้รับผลกระทบ จะไม่มีการสร้างข้อผิดพลาดระหว่าง I/O ปกติ  ความพยายามในการสํารองข้อมูลระบบไฟล์จะไม่สามารถสํารองข้อมูลไฟล์ใด ๆ ที่ได้รับผลกระทบจากการเจาะ  การดําเนินการตรวจสอบความสอดคล้องกันหรือการดําเนินการอ่านลาดตระเวนจะสร้างรหัสความรู้สึก:  3/11/00 สําหรับ LBA และ/หรือลาย


เส้นที่เกี่ยวข้อง ประการที่สามการเจาะอาจเกิดขึ้นในพื้นที่ข้อมูลที่เข้าถึงได้  ตัวอย่างเช่นข้อมูลที่สูญหายอาจทําให้เกิดข้อผิดพลาดที่หลากหลาย  ข้อผิดพลาดอาจเป็นข้อผิดพลาดเล็กน้อยที่ไม่ส่งผลเสียต่อสภาพแวดล้อมการผลิต  ข้อผิดพลาดอาจรุนแรงขึ้นและสามารถป้องกันไม่ให้ระบบบูตไปยังระบบปฏิบัติการหรือทําให้แอปพลิเคชันล้มเหลว


 อาร์เรย์ที่ถูกเจาะจะต้องถูกลบและสร้างใหม่เพื่อกําจัดการเจาะ  กระบวนการนี้ทําให้ข้อมูลทั้งหมดถูกลบ จากนั้นข้อมูลจะต้องสร้างใหม่หรือกู้คืนจากการสํารองข้อมูลหลังจากถูกเจาะจะถูกตัดออก  ความละเอียดสําหรับการเจาะสามารถกําหนดเวลาสําหรับเวลาที่เป็นประโยชน์มากขึ้นกับความต้องการของธุรกิจ


หากข้อมูลภายในแถบที่เจาะถูกเข้าถึงข้อผิดพลาดจะยังคงมีการรายงานกับ badLBAs ที่ได้รับผลกระทบโดยไม่มีการแก้ไขที่เป็นไปได้ ในที่สุด (ซึ่งอาจเป็นนาทีวันสัปดาห์เดือน ฯลฯ ) ตารางการจัดการบล็อกที่ไม่ดี (BBM) จะเติมเต็มทําให้ไดรฟ์อย่างน้อยหนึ่งไดรฟ์ถูกตั้งค่าสถานะเป็นความล้มเหลวในการทํานาย โดยทั่วไปแล้วไดรฟ์ 0 จะเป็นไดรฟ์ที่ถูกตั้งค่าสถานะเป็นความล้มเหลวในการคาดเดาเนื่องจากข้อผิดพลาดบนไดรฟ์ 1 และไดรฟ์ 2 กําลังแพร่กระจายไปยังไดรฟ์ ไดรฟ์ 0 อาจทํางานได้ตามปกติและการเปลี่ยนไดรฟ์ 0 จะทําให้การเปลี่ยนนั้นถูกตั้งค่าสถานะความล้มเหลวในการทํานายในที่สุดเช่นกัน


การตรวจสอบความสอดคล้องที่ดําเนินการหลังจากการเจาะเกิดขึ้นจะไม่แก้ไขปัญหา  นี่คือเหตุผลว่าทําไมจึงเป็นสิ่งสําคัญมากที่จะต้องดําเนินการตรวจสอบอย่างสม่ําเสมอ มันเป็นสิ่งสําคัญอย่างยิ่งก่อนที่จะเปลี่ยนไดรฟ์เมื่อเป็นไปได้ อาร์เรย์ต้องอยู่ในสถานะที่เหมาะสมเพื่อดําเนินการตรวจสอบความสอดคล้องกัน


อาร์เรย์ RAID ที่มีข้อผิดพลาดข้อมูลเดียวร่วมกับเหตุการณ์ข้อผิดพลาดเพิ่มเติม เช่น ความล้มเหลวของฮาร์ดไดรฟ์ทําให้เกิดการเจาะเมื่อไดรฟ์ที่ล้มเหลวหรือไดรฟ์ทดแทนถูกสร้างขึ้นใหม่ในอาร์เรย์ ตัวอย่างเช่น อาร์เรย์ RAID 5 ที่ดีที่สุดประกอบด้วยสมาชิกสามคน ได้แก่ ไดรฟ์ 0 ไดรฟ์ 1 และไดรฟ์ 2 หากไดรฟ์ 0 ล้มเหลว (รูปที่ 2) และถูกแทนที่ ข้อมูลและพาริตี้ที่เหลืออยู่บนไดรฟ์ 1 และ 2 จะถูกใช้เพื่อสร้างข้อมูลที่ขาดหายไปกลับไปยังไดรฟ์แทนที่ 0 อย่างไรก็ตาม หากมีข้อผิดพลาดของข้อมูลอยู่บนไดรฟ์ 1 เมื่อการดําเนินการสร้างใหม่ถึงข้อผิดพลาดนั้น จะมีข้อมูลไม่เพียงพอภายในแถบเพื่อสร้างข้อมูลที่ขาดหายไปในแถบนั้น ไดรฟ์ 0 ไม่มีข้อมูลไดรฟ์ 1 มีข้อมูลที่ไม่ดีและไดรฟ์ 2 มีข้อมูลที่ดีในขณะที่กําลังสร้างใหม่ มีข้อผิดพลาดหลายอย่างภายในแถบนั้น ไดรฟ์ 0 และไดรฟ์ 1 ไม่มีข้อมูลที่ถูกต้อง ดังนั้นข้อมูลใดๆ ในแถบนั้นจึงไม่สามารถกู้คืนได้และสูญหายไป  ผลลัพธ์ดังแสดงในรูปที่ 3 คือการเจาะ (เป็นลายเส้น 1 และ 2) ถูกสร้างขึ้นระหว่างการสร้างใหม่ ข้อผิดพลาดจะถูกเผยแพร่ไปยังไดรฟ์ 0 


การเจาะอาร์เรย์จะคืนค่าความซ้ําซ้อนและส่งกลับอาร์เรย์ให้อยู่ในสถานะที่เหมาะสม  ซึ่งจะช่วยให้อาร์เรย์ได้รับการปกป้องจากการสูญหายของข้อมูลเพิ่มเติมในกรณีที่มีข้อผิดพลาดเพิ่มเติมหรือความล้มเหลวของไดรฟ์
 
กลับไปที่ด้านบน
 

บทที่ 3: การป้องกันปัญหาก่อนที่จะเกิดขึ้น & การแก้ปัญหาการเจาะหลังจากเกิดขึ้น


มันสามารถดึงดูดให้ทํางานภายใต้หลักฐาน"ถ้ามันไม่ได้ยากจน, ไม่แก้ไข." แม้ว่าสิ่งนี้อาจเป็นจริงในหลาย ๆ ด้านเพื่อปกป้องและจัดการระบบย่อยการจัดเก็บที่ดีที่สุดขอแนะนําให้ทําการบํารุงรักษาตามปกติและเป็นประจํา การบํารุงรักษาเชิงรุกสามารถแก้ไขข้อผิดพลาดที่มีอยู่และป้องกันไม่ให้เกิดข้อผิดพลาดบางอย่าง ไม่สามารถป้องกันข้อผิดพลาดทั้งหมดที่เกิดขึ้น แต่ข้อผิดพลาดร้ายแรงที่สุดสามารถบรรเทาได้อย่างมากด้วยการบํารุงรักษาเชิงรุก สําหรับระบบย่อยของที่เก็บข้อมูลและ RAID ขั้นตอนเหล่านี้:

 
  • อัปเดตไดรเวอร์และเฟิร์มแวร์ บนคอนโทรลเลอร์ฮาร์ดไดรฟ์แบ็คเพลนและอุปกรณ์อื่น ๆ
  • ปฏิบัติงานตรวจสอบความสอดคล้องกันอย่างสม่ําเสมอเป็นประจํา
  • ตรวจสอบบันทึก สําหรับการระบุปัญหา

นี่ไม่จําเป็นต้องเป็นการตรวจสอบทางเทคนิคระดับสูง แต่อาจเป็นมุมมองที่คร่าวๆของบันทึกที่กําลังมองหาข้อบ่งชี้ที่ชัดเจนอย่างยิ่งเกี่ยวกับปัญหาที่อาจเกิดขึ้น
ติดต่อฝ่ายสนับสนุนด้านเทคนิคของ Dell ด้วยคําถามหรือข้อกังวลใด ๆ


หนึ่งในสิ่งที่สําคัญที่สุดที่ควรทําคือตรวจสอบให้แน่ใจว่าเฟิร์มแวร์ได้รับการอัปเดตอยู่เสมอ เฟิร์มแวร์คือที่ที่ตรรกะทั้งหมดสําหรับการทํางานของอุปกรณ์อยู่ มันมีฟังก์ชั่นและคุณสมบัติของอุปกรณ์พร้อมกับการจัดการข้อผิดพลาดที่หลากหลายและฟังก์ชั่นการแก้ไขข้อผิดพลาด การรักษาเฟิร์มแวร์ให้ทันสมัยสามารถให้ประสิทธิภาพที่ดีขึ้นและข้อผิดพลาดน้อยลง นอกจากนี้ยังสามารถเพิ่มคุณสมบัติและการปรับปรุงใหม่ผ่านการอัปเดต


เฟิร์มแวร์ เฟิร์มแวร์สามารถอยู่ในสถานที่หลายแห่ง คอนโทรลเลอร์ RAID ประกอบด้วยเฟิร์มแวร์และฮาร์ดไดรฟ์แต่ละตัวที่ติดตั้งในระบบหรืออาร์เรย์ Backplanes และกล่องหุ้มภายนอกยังมีเฟิร์มแวร์ที่อาจส่งผลกระทบต่อการทํางานของไดรฟ์และอาร์เรย์ที่มีอยู่ภายใน


คําแนะนําการบํารุงรักษาเชิงรุกอีกประการหนึ่งคือการดําเนินการ "ตรวจสอบความสอดคล้อง"  ความสอดคล้องของการตรวจสอบเป็นการดําเนินการด้วยตนเองเนื่องจากใช้แบนด์วิดท์โดยรวมที่มีอยู่บางส่วนของตัวควบคุม RAID อย่างไรก็ตาม ความสอดคล้องของเช็คสามารถจัดกําหนดการได้ในช่วงเวลาที่มีผลกระทบน้อยที่สุดต่อประสิทธิภาพการทํางาน


ตรวจสอบความสอดคล้องกันจะตรวจสอบบล็อกที่ไม่ดีบนไดรฟ์ แต่ที่สําคัญกว่านั้นคือการเปรียบเทียบข้อมูลในอาร์เรย์เพื่อให้แน่ใจว่าทุกชิ้นตรงกันอย่างถูกต้อง เมื่อพบปัญหาจะเป็นตัวกําหนดว่าข้อมูลควรมีลักษณะอย่างไรและแก้ไขโดยการตรวจสอบข้อมูลบนไดรฟ์อื่นในอาร์เรย์ การแก้ไขข้อผิดพลาดของข้อมูลเมื่อมีขนาดเล็กเป็นวิธีที่ดีที่สุดในการลดความเสี่ยงของการเจาะที่เกิดจากข้อผิดพลาดของข้อมูลที่มีอยู่ร่วมกับข้อผิดพลาดหรือความล้มเหลวที่สอง การมีอยู่ของความผิดพลาดสองครั้งและการเจาะอาจทําให้สูญเสียผลผลิตในช่วงเวลาที่จําเป็นในการกู้คืนอาร์เรย์และข้อมูลไปยังสถานะการทํางานหรือแม้กระทั่งการสูญเสียข้อมูลทั้งหมด


อย่างสมบูรณ์ เมื่อมีข้อบกพร่องสองครั้งหรือเงื่อนไขการเจาะอยู่มักจะมีการสูญเสียข้อมูลบางอย่าง หากตําแหน่งของข้อผิดพลาดเหล่านี้อยู่ในพื้นที่ว่างหรือพื้นที่ข้อมูลที่ไม่สําคัญผลกระทบทันทีต่อข้อมูลในสภาพแวดล้อมการผลิตจะค่อนข้างเล็ก อย่างไรก็ตามการมีข้อผิดพลาดเหล่านี้อาจหมายความว่าอาจมีปัญหาร้ายแรงมากขึ้น ข้อผิดพลาดของฮาร์ดแวร์และเฟิร์มแวร์ที่ล้าสมัยอาจต้องได้รับความสนใจทันที


หากมีข้อบกพร่องหรือเงื่อนไขการเจาะที่รู้จักหรือสงสัยว่าให้ทําตามขั้นตอนเหล่านี้เพื่อลดความเสี่ยงของปัญหาที่รุนแรงมากขึ้น:

 
  • การดําเนินการตรวจสอบความสอดคล้องกัน (อาร์เรย์ต้องเหมาะสมที่สุด)
  • ตรวจสอบว่ามีปัญหาฮาร์ดแวร์อยู่หรือไม่
  • ตรวจสอบล็อกตัวควบคุม
  • ทําการวินิจฉัยฮาร์ดแวร์
  • ติดต่อฝ่ายสนับสนุนด้านเทคนิคของ Dell ตามต้องการ

หากทําตามขั้นตอนเหล่านี้แล้วมีข้อกังวลเพิ่มเติม การเจาะอาจทําให้ฮาร์ดไดรฟ์เข้าสู่สถานะความล้มเหลวในการทํานายเมื่อเวลาผ่านไป ข้อผิดพลาดของข้อมูลที่ถูกเผยแพร่ไปยังไดรฟ์จะถูกรายงานว่าเป็นข้อผิดพลาดของสื่อบนไดรฟ์ แม้ว่าจะไม่มีปัญหาฮาร์ดแวร์ก็ตาม ทุกครั้งที่เข้าถึง LBA จะมีการรายงานข้อผิดพลาด เมื่อบันทึกข้อผิดพลาดเต็มไดรฟ์จะรายงานตัวเองว่าเป็นความล้มเหลว


ในการคาดเดา สามารถรายงาน LBA ที่เจาะได้เพียงตัวเดียวบนไดรฟ์ได้หลายครั้ง ทั้งนี้ขึ้นอยู่กับจํานวนการเจาะ เป็นไปได้ที่ไดรฟ์หลายตัวในอาร์เรย์จะถูกรายงานว่าเป็นความล้มเหลวในการทํานาย การเปลี่ยนไดรฟ์ความล้มเหลวในการคาดคะเนจะทําให้การเจาะที่มีอยู่ถูกแพร่กระจายไปยังไดรฟ์ทดแทนอีกครั้งซึ่งจะทําให้ไดรฟ์ทดแทนถูกตั้งค่าสถานะความล้มเหลวในการทํานาย ในกรณีเช่นนี้การดําเนินการแก้ไขเพียงอย่างเดียวคือการแก้ไขเงื่อนไข


การเจาะ เมื่อดูรูปที่ 3 เราจะเห็นว่ามีการเจาะบนลายเส้นที่ 1 และ 2 การเปลี่ยนฮาร์ดไดรฟ์จะไม่แก้ไขปัญหานี้ เนื่องจากมีความซ้ําซ้อนของข้อมูลไม่เพียงพอที่จะสร้างข้อมูลเดิมใหม่ ข้อมูลใดๆ ที่มีอยู่ในแถบที่เจาะจะสูญหายไป (เว้นแต่จะถูกเก็บไว้ในการสํารองข้อมูลก่อนหน้า) โปรดจําไว้ว่าการเจาะไม่ทําให้ข้อมูลสูญหายสภาพความผิดพลาดสองครั้งส่งผลให้ข้อมูลสูญหาย การเจาะเป็นวิธีการคืนค่าความซ้ําซ้อนไปยังอาร์เรย์ที่มีความผิดพลาดสองครั้ง
 

 

หมายเหตุ: นี่คือกระบวนการที่ใช้ในการแก้ไขการเจาะส่วนใหญ่ อาจไม่จําเป็นต้องทําตามขั้นตอนเหล่านี้ทั้งหมดเพื่อแก้ไข หากทําตามขั้นตอนเหล่านี้ไม่สามารถแก้ไขปัญหาได้ โปรดติดต่อฝ่ายสนับสนุนด้านเทคนิคของ Dell เพื่อขอความช่วยเหลือเพิ่มเติม

 

 

คำเตือน: การทําตามขั้นตอนเหล่านี้จะส่งผลให้ข้อมูลทั้งหมดในอาร์เรย์สูญหาย โปรดตรวจสอบให้แน่ใจว่าคุณพร้อมที่จะคืนค่าจากการสํารองข้อมูลหรือวิธีการอื่นๆ ก่อนที่จะทําตามขั้นตอนเหล่านี้ ใช้ความระมัดระวังเพื่อให้การทําตามขั้นตอนเหล่านี้ไม่ส่งผลกระทบต่ออาร์เรย์อื่นๆ
  1. ละทิ้งแคชที่เก็บรักษาไว้ (ถ้ามีอยู่)
  2. ล้างข้อมูลการตั้งค่าคอนฟิกต่างประเทศ (ถ้ามี)
  3. ลบแถวลําดับ
  4. เลื่อนตําแหน่งของไดรฟ์ทีละไดรฟ์ (โดยใช้รูปที่ 1 ย้ายดิสก์ 0 ไปยังช่องที่ 1 ดิสก์ 1 ไปยังช่อง 2 และดิสก์ 2 ไปยังช่อง 0)
  5. สร้างอาร์เรย์ใหม่ตามต้องการ
  6. ดําเนินการเตรียมใช้งานอาร์เรย์ทั้งหมด (ไม่ใช่การเตรียมใช้งานอย่างรวดเร็ว)
  7. การดําเนินการตรวจสอบความสอดคล้องกันของอาร์เรย์

หากความสอดคล้องของการตรวจสอบเสร็จสมบูรณ์โดยไม่มีข้อผิดพลาดคุณสามารถสันนิษฐานได้อย่างปลอดภัยว่าอาร์เรย์มีสุขภาพดีและการลบการเจาะออก ตอนนี้ข้อมูลสามารถกู้คืนไปยังอาร์เรย์ที่ดีต่อสุขภาพได้แล้ว


ในกรณีที่รุนแรงมากขึ้นปัญหาอาจไม่สามารถแก้ไขได้และข้อผิดพลาดอาจยังคงมีอยู่แม้จะทําตามขั้นตอนเหล่านี้ หากทําตามขั้นตอนเหล่านี้ไม่สามารถแก้ไขปัญหาได้ โปรดติดต่อฝ่ายสนับสนุนด้านเทคนิคของ Dell เพื่อขอความช่วยเหลือเพิ่มเติม


อาจจําเป็นต้องวิเคราะห์การเจาะโดยละเอียดเพื่อพิจารณาว่าไดรฟ์ใดที่เหมือนกัน ตัวอย่างเช่น ในรูปที่ 3 บันทึกของคอนโทรลเลอร์จะแสดงการเจาะระหว่างดิสก์ 0 และ 1 และการเจาะระหว่างดิสก์ 0 และ 2 ดิสก์ 0 เป็นไดรฟ์ทั่วไป ทําตามขั้นตอนเดียวกันข้างต้น แต่ให้เอาไดรฟ์ทั่วไปออกอย่างสมบูรณ์ก่อน ดังนั้นการใช้ตัวอย่างในรูปที่ 1 ให้เอา Disk 0 ออก แล้วทําตามขั้นตอนที่อธิบายไว้ สร้างอาร์เรย์โดยใช้ดิสก์ที่เหลือ (1 และ 2) ที่เหลือ เมื่อเสร็จสิ้นและหลังจากการตรวจสอบสอดคล้องกันแล้วจะกําหนดว่าอาร์เรย์มีสุขภาพดีแล้วเพิ่มดิสก์ 0 กลับเข้าไปและทําตามขั้นตอนอีกครั้งด้วยไดรฟ์ทั้งหมดหรือใช้คุณสมบัติ RLM (การย้ายระดับ RAID) และ / หรือ OCE (การขยายความจุออนไลน์) เพื่อเพิ่มไดรฟ์ที่เหลือกลับเข้าไปในอาร์เรย์


ไดรฟ์ใดๆ ที่ตั้งค่าสถานะความล้มเหลวในการคาดคะเนควรถูกลบออกและไม่รวมอยู่ในกระบวนการกู้คืน อีกครั้งโดยใช้รูปที่ 3 เป็นตัวอย่างหากดิสก์ 0 เป็นความล้มเหลวในการคาดเดาให้เอาไดรฟ์นี้ออก จากนั้นทําตามขั้นตอนตามที่ระบุไว้ข้างต้น เนื่องจากเหลือไดรฟ์เพียง 2 ไดรฟ์ อาร์เรย์ RAID ที่สร้างขึ้นคือ RAID 1 แทนที่จะเป็น RAID 5 หลังจากได้รับดิสก์ 0 ทดแทน (เนื่องจากความล้มเหลวในการคาดเดา) ให้ทําตามขั้นตอนอีกครั้ง รวมถึงทั้ง 3 ไดรฟ์ หรือเพิ่ม Disk 0 ลงในอาร์เรย์ที่มีอยู่โดยใช้ RLM และเปลี่ยนจาก RAID 1 ที่มี 2 ไดรฟ์เป็น RAID 5 ที่มี 3 ไดรฟ์


กระบวนการนี้อาจเป็นเรื่องที่น่ากังวลโดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงศักยภาพในการสูญหายของข้อมูล คํากล่าวที่ว่า "การป้องกันหนึ่งออนซ์มีค่าต่อการรักษาหนึ่งปอนด์" เป็นความจริงอย่างแน่นอนที่นี่ ประสบการณ์แสดงให้เห็นว่าความผิดพลาดสองครั้งและเงื่อนไขการเจาะเกือบทั้งหมดสามารถหลีกเลี่ยงได้โดยการบํารุงรักษาเชิงรุกบนฮาร์ดแวร์และอาร์เรย์ RAID
 

 

หมายเหตุ: การตรวจสอบระบบอย่างมีประสิทธิภาพช่วยให้สามารถตรวจพบและแก้ไขปัญหาได้ทันทะลวงซึ่งจะช่วยลดความเสี่ยงของปัญหาที่ร้ายแรงกว่า


 

บทความที่เกี่ยวข้อง
PERC - วิธีแก้ไขการเจาะ RAID

 

กลับไปด้านบน

 

Cause

-

Resolution

-

Article Properties


Affected Product

Servers

Last Published Date

25 Mar 2022

Version

6

Article Type

Solution