PowerEdge: Proč pevné disky selhávají
Resumen: Tento článek podrobně vysvětluje různé důvody, proč mohou selhat pevné disky.
Instrucciones
Obsah
- Poškození firmwaru a zóny firmwaru
- Elektronická porucha
- Mechanická porucha
- Logická závada
- Chyby médií
- Prostředí SCSI/SAS
- Upozornění ohledně selhání disku PowerEdge
Poškození firmwaru a zóny firmwaru
Pokud se firmware pevného disku poškodí nebo přestane být čitelný, počítač často není schopen s pevným diskem správně komunikovat.
Elektronická porucha
Elektronická porucha obvykle souvisí s problémy na řídicí desce pevného disku. U serveru může dojít k výkyvům napájení nebo přepětí, které vyřadí řadič na pevném disku a znemožní přístup k systému BIOS.
Mechanická porucha
Mechanická porucha může často (zejména pokud není včas řešena) vést k částečné, a někdy i úplné ztrátě dat. Mechanické poruchy se vyskytují v různých podobách, jako je selhání čtecí/zapisovací hlavy a problémy s motorkem. Jednou z nejčastějších mechanických poruch je poškození hlavy. K nárazu hlavy s různou závažností dochází, když se čtecí/zapisovací hlavy pevného disku dostanou do kontaktu, ať už na okamžik nebo nepřetržitě, s plotnami pevného disku.
Pád hlavy může být způsoben řadou důvodů, včetně fyzického šoku (například pádu disku na zem), pohybu počítače, statické elektřiny, přepětí a mechanického selhání čtecí/zapisovací hlavy.
Logická závada
Logické chyby jsou často nejjednodušším a nejobtížnějším problémem, se kterým se lze vypořádat. Logické chyby se mohou pohybovat od jednoduchých věcí, jako je neplatná položka v alokační tabulce souborů, až po skutečně strašlivé problémy, jako je poškození a ztráta souborového systému na silně fragmentované jednotce.
Logické chyby se liší od výše uvedených elektrických a mechanických problémů, protože na disku obvykle není nic "fyzicky" špatného, kromě informací na něm.
Chyby médií
Vadné sektory jsou oblasti pevného disku, které se stanou nečitelnými. U všech pevných disků se nakonec vytvoří vadné sektory. Pevný disk označí sektory, které se pokazily, a ty se dále nepoužívají. Pokud jsou však data uložena v sektorech, které se stanou vadnými sektory, nemůžete ke svým datům nebo souborům správně přistupovat. Náročné provozní podmínky (například vysoké teploty, vibrace atd.) mohou způsobit, že se na pevných discích rychle vytvoří mnoho vadných sektorů. Každý typ pevného disku je náchylný k „přirozenému“ vzniku vadných sektorů, ale není tomu tak vždy.
Prostředí SCSI/SAS
Pevné disky SCSI jsou často považovány za vysoce výkonné disky. Otáčejí se rychleji než jejich protějšky IDE/SATA, takže rychlost přenosu dat je často vyšší. Z tohoto důvodu se jednotky SCSI často nacházejí na serverech, které musí poskytovat velké množství propustnosti dat. Tento výkon je však často vykoupen vysokou daní, protože mechanické poruchy jsou u těchto disků pravděpodobnější.
Nejčastější příčinou selhání více disků v tomto prostředí je špatná kvalita signálu na sběrnici SCSI. Špatná kvalita signálu může mít za následek režii protokolu SCSI při pokusu o zotavení z těchto problémů (vypršení časového limitu a resetování sběrnice). Jak je systém stále vytíženější a poptávka po datech roste, nápravná opatření protokolu SCSI se zvyšují a sběrnice SCSI se blíží nasycení. Tato režie nakonec omezuje šířku pásma běžné komunikace zařízení. Pokud pole není vymazáno, jedno nebo více zařízení SCSI nemusí být schopno včas reagovat na řadič RAID, což může vést k tomu, že řadič RAID označí pevný disk jako offline. Tyto typy problémů se signálem mohou způsobovat nesprávná instalace řadiče RAID do slotu PCI, špatné kabelové připojení, špatné usazení disků vůči propojovacímu rozhraní SCSI, nesprávná instalace nebo usazení dceřiných karet propojovacího rozhraní a nesprávné ukončení sběrnice SCSI.
Možné jsou také kombinace těchto typů selhání.
Všichni technici a zákazníci by si měli přečíst a pochopit vzorové postupy údržby, aby maximalizovali dobu provozu a pomohli zabránit ztrátě dat v důsledku selhání pevného disku.
Upozornění ohledně selhání disku PowerEdge
Při řešení selhání disků na serverech PowerEdge je nezbytné provést následující opatření:
- Zálohovaná data: Před zásahem na disky vždy zálohujte důležitá data. Tím je zajištěna bezpečnost dat v případě dalších problémů.
- Sledování výstrah: Věnujte pozornost prediktivním výstrahám na selhání disku (chybový kód:
PDR6) a další chybové kódy související s diskem (např.PDR1001aPDR3). Tyto výstrahy upozorňují na potenciální problémy, které vyžadují okamžitou pozornost. - Aktualizace firmwaru: Před výměnou hardwaru se ujistěte, že je firmware řadiče RAID a disků aktuální. To může pomoci zabránit falešným výstrahám a zlepšit celkovou stabilitu systému.
- S disky zacházejte opatrně: Při demontáži, montáži nebo opětovném připojení pevného disku nepoužívejte nadměrnou sílu. To může ohnout backplane a potenciálně způsobit selhání nebo ztrátu konektivity sousedních disků.
- Zkontrolujte připojení: Pokud je jednotka hlášena jako vadná, znovu ji usaďte, abyste vyloučili problémy s připojením. Ověřte, zda jsou všechna připojení zabezpečená.
- Kontrola systémových protokolů: Pravidelně kontrolujte, zda protokoly řadičů iDRAC a systémové protokoly neobsahují související výstrahy nebo teplotní události, které by mohly naznačovat základní problémy.
- Kontaktovat podporu: Pokud více jednotek hlásí chyby nebo pokud potíže přetrvávají i po provedení výše uvedených akcí, požádejte o další pomoc podporu Dell.