PowerEdge: Hvorfor fejler harddiske
Summary: Denne artikel forklarer de forskellige årsager til, at harddiske kan mislykkes i detaljer.
Instructions
Indholdsfortegnelse
- Firmwarebeskadigelse og beskadigelse af firmwarezonen
- Elektronisk fejl
- Mekanisk fejl
- Logisk fejl
- Mediefejl
- SCSI/SAS-miljø
- Forholdsregler for PowerEdge-diskfejl
Firmwarebeskadigelse og beskadigelse af firmwarezonen
Når firmwaren på en harddisk bliver beskadiget eller ulæselig, kan computeren ofte ikke interagere korrekt med harddisken.
Elektronisk fejl
Elektronisk fejl vedrører normalt problemer på harddiskens controllerkort. Serveren kan blive ramt af en strømspids eller elektrisk overspænding, der slår controllerkortet på harddisken ud, så det ikke kan registreres af BIOS.
Mekanisk fejl
Mekanisk svigt kan ofte (især hvis der ikke reageres på tidligt) føre til et delvist og undertiden totalt tab af data. Mekanisk svigt kommer i forskellige afskygninger såsom læse- / skrivehovedfejl og motoriske problemer. En af de mest almindelige mekaniske fejl er et hovedulykke. Forskellige i sværhedsgrad opstår der et hovednedbrud, når harddiskens læse-/skrivehoveder midlertidigt eller kontinuerligt kommer i kontakt med harddiskens plader.
En række årsager kan forårsage et hovedstyrt, herunder fysisk stød (såsom at tabe disken på gulvet), bevægelse af computeren, statisk elektricitet, strømstød og mekanisk læse-/skrivehovedfejl.
Logisk fejl
Logiske fejl er ofte de nemmeste og sværeste problemer at håndtere. Logiske fejl kan variere fra enkle ting som en ugyldig post i en filallokeringstabel til virkelig forfærdelige problemer som korruption og tab af filsystemet på et alvorligt fragmenteret drev.
Logiske fejl er forskellige fra de elektriske og mekaniske problemer ovenfor, da der normalt ikke er noget 'fysisk' galt med disken, men informationen bits på den.
Mediefejl
Dårlige sektorer er områder på harddisken, der bliver ulæselige. Alle harddiske udvikler dårlige sektorer til sidst. Harddisken markerer de sektorer, der går dårligt, og disse bruges ikke længere. Men hvis du har data, der ligger i sektorer, der bliver dårlige sektorer, kan du ikke få adgang til dine data eller filer korrekt. Barske driftsforhold (f.eks. høje temperaturer, vibrationer osv.) kan medføre, at harddiske hurtigt udvikler mange dårlige sektorer. Hver type harddisk er tilbøjelig til at udvikle dårlige sektorer 'naturligt', men det er ikke altid tilfældet.
SCSI/SAS-miljø
SCSI-harddiske betragtes ofte som højtydende drev. De drejer hurtigere end deres IDE / SATA-kolleger, og derfor er dataoverførselshastigheder ofte hurtigere. Derfor findes SCSI-drev ofte på servere, der skal levere en masse dataoverførselshastigheder. Denne ydeevne har dog ofte en pris, da mekaniske fejl er mere sandsynlige på disse drev.
Den mest almindelige årsag til flere diskfejl i dette miljø er dårlig signalkvalitet på tværs af SCSI-bussen. Dårlig signalkvalitet kan resultere i SCSI-protokolomkostninger, når den forsøger at gendanne fra disse problemer (timeouts og busnulstillinger). Efterhånden som systemet bliver travlere, og efterspørgslen efter data stiger, øges SCSI-protokollens korrigerende handlinger, og SCSI-bussen kommer tættere på mætning. Disse omkostninger begrænser i sidste ende de normale enhedskommunikationsbåndbredder. Hvis den ikke ryddes, kan en eller flere SCSI-enheder muligvis ikke reagere rettidigt på RAID-controlleren, hvilket resulterer i, at RAID-controlleren markerer harddisken som offline. Forkert installation af RAID-controlleren i et PCI-slot, dårlige kabelforbindelser, dårlig placering af diskene mod SCSI-backplane, forkert installation eller placering af backplane-datterkort og forkert SCSI-busafslutning kan forårsage disse typer signalproblemer.
Kombinationer af disse fejltyper er også mulige.
Alle teknikere og kunder bør læse og forstå bedste praksis for vedligeholdelse for at maksimere oppetiden og hjælpe med at forhindre tab af data som følge af harddiskfejl.
Forholdsregler for PowerEdge-diskfejl
Når du håndterer diskfejl på PowerEdge-servere, er det vigtigt at tage følgende forholdsregler:
- Sikkerhedskopierede data: Foretag altid en sikkerhedskopiering af kritiske data, før du reagerer på diskene. Dette sikrer datasikkerhed, hvis der er yderligere problemer.
- Overvåg advarsler: Vær opmærksom på varslende advarsler om drevfejl (fejlkode)
PDR6) og andre diskrelaterede fejlkoder (som f.eks.PDR1001ogPDR3). Disse advarsler angiver potentielle problemer, der kræver øjeblikkelig opmærksomhed. - Firmwareopdateringer: Før du udskifter hardware, skal du sørge for, at firmwaren til RAID-controlleren og -drevene er opdateret. Dette kan hjælpe med at forhindre falske advarsler og forbedre systemets generelle stabilitet.
- Håndter drev forsigtigt: Når du fjerner, monterer eller genindsætter harddiske, skal du undgå at bruge overdreven kraft. Dette kan bøje backplane og potentielt få nabodrev til at mislykkes eller miste forbindelsen.
- Kontrollér forbindelser: Hvis et drev rapporteres som mislykket, skal du sætte drevet på plads igen for at udelukke forbindelsesproblemer. Kontroller, at alle forbindelser er sikre.
- Gennemgang af systemlogfiler: Kontroller regelmæssigt iDRAC-logfiler og systemlogfiler for relaterede advarsler eller termiske hændelser, der kan indikere underliggende problemer.
- Kontakt support: Hvis flere drev rapporterer fejl, eller hvis problemerne fortsætter efter at have udført ovenstående handlinger, skal du kontakte Dell Support for at få yderligere hjælp.