PowerScale, Isilon, OneFS: Så här stänger du av ett kluster på rätt sätt
Sommaire: Bästa praxis för att stänga av PowerScale-klustret på rätt sätt och innehåller information om riskerna med felaktig klusteravstängning. Stegvisa procedurer för att stänga av klustret på rätt sätt. Vissa steg bör köras 4–8 veckor före den planerade uppgraderingen. ...
Instructions
Introduktion
Den här artikeln innehåller anvisningar om hur du stänger av Dell Isilon-klustret på rätt sätt och innehåller information om riskerna med felaktig klusteravstängning.
Noder som är felaktigt avstängda i klustret bör inte vara utan systemström under längre tid än NVRAM-batteriets livslängd.
Detta är ungefär tre till fem dagar, beroende på typ av nod.
Om data fortfarande lagras i en nodjournal medan noden är utan ström längre än NVRAM-batteriets livslängd, går data förlorade.
Om detta händer på flera noder leder det till att klustret måste återskapas.
Kontakta teknisk support för Dell Isilon om du har frågor om procedurerna eller informationen i den här artikeln.
Procedur
Avstängningsproceduren för klustret kräver rotinloggningsuppgifter och seriell konsolåtkomst till noder i klustret. Förfarandet är indelat i följande faser.
- Fas 1: Utför förebyggande underhåll
- Fas 2: Stäng av varje nod i klustret
- Fas 3: Kontrollera att noderna har stängts av
- Fas 4: Koppla bort strömkällan
- Fas 5: Slå på alla noder i klustret
- Fas 6: Köra en hälsokontroll på klustret
Läs hela proceduren innan du påbörjar avstängningsprocessen. Detta säkerställer att du förstår kontexten och ordningen för att slutföra varje steg.
Fas 1: Utför förebyggande underhåll.
Dessa steg utförs cirka 4–8 veckor före den planerade avstängningen. Syftet med denna fas är att identifiera okända eller latenta problem med hårdvara eller fast mjukvara som kan hindra avstängningsproceduren.
Om omständigheterna kräver en omedelbar avstängning av hela klustret kan du stänga av alla noder samtidigt med hjälp av OneFS-kommandoradsgränssnittet eller OneFS-webbadministrationsgränssnittet.
Dell rekommenderar starkt att du följer alla steg i fas 3 för att bevara dataintegriteten om det finns en nödavstängningsprocedur.
- Ladda upp loggar för historisk referens om det behövs.
# isi diagnostics gather start --gather-mode full
- Utför eller begär en Isilon-hälsokontroll.
- Detta utvärderar klustrets hälsotillstånd för att säkerställa att det har en bra driftstatus som kan stödjas.
- Det kan utföras av kunden med hjälp av PowerScale: Så här kör du IOCA Cluster Analysis Tool
- Det kan utföras av Remote Reactive-teamet (kundsupport). Det här är tillgängligt för alla kunder med ett aktivt underhållsavtal för kluster på kodversioner som stöds. Om du uppfyller dessa krav öppnar du en tjänstebegäran (SR) på Dells supportwebbplats på webben och begär en "Isilon Health Check". Du tillhandahåller fullständiga loggar för hälsokontrollen genom att köra det här kommandot
# isi diagnostics gather start --gather-mode full
*Hälsokontrollen är inte avsedd att åtgärda klusterproblem eller utvärdera klustrets konfiguration, prestanda eller arbetsflöde.
- Utför en "kall omstart" av varje nod genom att utföra följande steg. En underhållsperiod bör schemaläggas för den här aktiviteten.
Obs! Den här processen gör att du kan identifiera eventuella minnesfel eller enhetsfellägen som bara upptäcks när noden slås på igen.
- Stäng av varje nod i klustret en i taget. Så här stänger du av varje nod:
- Öppna en SSH-anslutning till valfri nod. Stäng av varje nod genom att köra följande kommando:
isi config shutdown <node_lnn>
- Kontrollera att alla noder har stängts av genom att kontrollera att den gröna strömindikatorn på baksidan av noden inte längre lyser.
- Tryck på strömknappen för att slå på noden igen.
- Kontrollera att noden har återanslutit till klustret och är problemfri genom att köra
isi status -qoch letar efter OK i kolumnen Hälso-DASR i utdata. - Om en nod stöter på problem som anges i kolumnen Hälso-DASR eller inte kan återansluta till klustret löser du dessa problem innan du stänger av nästa nod.
Ett exempel på ett problem väljs. Nod 1 har återanslutit klustret, men kolumnen Hälso-DASR anger att den behöver åtgärdas.
mycluster-1# isi status -q Cluster Name: mycluster Cluster Health: [ ATTN] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Dubbelkolla hälsotillståndet för hela klustret när du har startat om varje nod. Öppna en SSH-anslutning till valfri nod och kör kommandot nedan:
isi status -q
isi config reboot <node_lnn>
Dell rekommenderar dock starkt att du använder metoden med kall omstart för att mer effektivt identifiera latenta hårdvaruproblem.
Fas 2: Stäng av varje nod i klustret.
De här stegen ska utföras samma dag som du stänger av Isilon-klustret. Under en avstängning i hela klustret kan vissa faktorer påverka eller fördröja avstängningsprocessen. Till exempel kan utestående dataskrivningar till en nod påverka avstängningen. Syftet med steg 1–2 är att säkerställa att alla klienter är frånkopplade från klustret och att data sparas korrekt från nodjournaler i filsystemet innan du kör avstängningskommandot. Om du har iSCSI-klienter ska du se till att du stänger av klienterna innan iSCSI-tjänsten avaktiveras.
Steg 3 beskriver hur du stänger av varje nod i klustret sekventiellt med hjälp av en seriekonsol. Den här metoden rekommenderas eftersom den gör att du kan kontrollera att varje nod är korrekt avstängd innan du går vidare till nästa nod och göra justeringar eller åtgärda problem efter behov för att säkerställa en korrekt klusteravstängning. Den här metoden kan dock vara tidskrävande eftersom den kräver att en seriekonsol ansluts till varje nod för att köra avstängningskommandot. I avsnittet Stäng av alla noder i klustret samtidigt beskrivs hur du använder OneFS-kommandoradsgränssnittet eller OneFS-webbadministrationsgränssnittet för att stänga av klustret. Den här metoden är mindre tidskrävande än steg 3, men gör det svårare att identifiera noder som stöter på problem under avstängningsprocessen.
- Isilon rekommenderar att du isolerar klustret från klienter för att säkerställa att skrivintensiva klienter inte hindrar avstängningsproceduren. Du kan göra detta genom att inaktivera de klientriktade tjänster som körs i klustret. Utför följande procedur för att inaktivera klientriktade tjänster:
- Identifiera de klientriktade tjänster eller protokoll som körs i klustret genom att köra följande kommandon för varje klientriktad tjänst:
isi services apache2 isi services isi_hdfs_d isi services isi_iscsi_d isi services ndmpd isi services nfs isi services smb isi services vsftpd
- B. B. Dokumentera de tjänster som är "aktiverade" i klustret baserat på utdata för varje kommando. Valt i exemplet nedan är SMB-tjänsten aktiverad medan NFS-tjänsten är inaktiverad:
mycluster-4# isi services smb Service 'smb' is enabled. mycluster-4# isi services nfs Service 'nfs' is disabled. mycluster-4#
- Inaktivera klientriktade tjänster. Efter det här steget förlorar alla klienter omedelbart anslutningen till klustret. Om du vill inaktivera en tjänst kör du följande kommando som är relaterat till den tjänst som du har aktiverat.
isi services apache2 disable isi services isi_hdfs_d disable isi services isi_iscsi_d disable isi services ndmpd disable isi services nfs disable isi services smb disable isi services vsftpd disable
Om du har iSCSI-klienter bör du se till att iSCSI-klienterna har avmonterat sina LUN innan du utför steg 2. Kör isi iscsi list för att bekräfta att alla iSCSI-klienter är frånkopplade från klustret.
Obs! Om du inaktiverar iSCSI-tjänsten måste du kontrollera att du har stängt av iSCSI-klienterna innan du kör
isi_iscsi_d disable befallning. Störning av en monterad iSCSI LUN kan resultera i skada på klienten, vilket vanligtvis kräver återställning från en säkerhetskopiering.
- Flytta dataskrivningar som lagras i nodjournaler till filsystemet genom att köra
isi_for_array isi_flushbefallning. Utdata som liknar följande visas på varje nod:
Observera: att när isi_flush körs stoppas den INTE förrän tömningen är klar på en nod, eller om noden stängs av eller får panik. Du kan inte ctrl+c ur spolningen om det skulle uppstå problem.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... mycluster-1: Cache flushing complete.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining mycluster-2: Flushing cache... fsync: giving up on dirty
Kör isi_for_array isi_flush kommando igen. Om det inte går att tömma någon nod kontaktar du teknisk support för Dell Isilon. Alla noder måste tömmas innan du går vidare till nästa steg.
- Stäng av varje nod i klustret sekventiellt och övervaka utdata. Den här metoden rekommenderas eftersom den gör att du kan identifiera och lösa eventuella problem innan du stänger av nästa nod i klustret. Stäng av varje nod genom att utföra följande steg:
Viktigt! Kör INTE
isi_for_array shutdown -p för att stänga av klustret.
- Anslut en seriekonsol till varje nod.
- Kör följande kommando:
isi config shutdown
Powering the system off using ACPI
- C. Titta på konsolen och leta efter maskinvarurelaterade felhändelser. Lyckade besparingar i nodjournalen väljs i följande utdatavarianter:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving. An example of a node journal save failure is highlighted in the output below: 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Om du får ett felmeddelande om att nodjournalen inte sparades kan du spara journalen manuellt genom att utföra stegen i fas 3.
Stäng av alla noder i klustret samtidigt.
Om det uppstår en nödsituation kan du stänga av alla noder i klustret samtidigt. Den här metoden rekommenderas dock inte eftersom den inte gör att du kan övervaka status och utdata för varje nod om ett problem uppstår. Om du väljer att följa dessa steg rekommenderar Dell starkt att du följer alla steg i fas 3 för att kontrollera att alla noder har stängts av korrekt efter att du har utfört procedurerna nedan.
Varning! Om du tar bort en strömkälla från en nod som inte har tömt data från journalen till filsystemet ökar risken för dataförlust avsevärt. Kontakta teknisk support för Dell Isilon om du behöver hjälp med avstängningsproceduren.
# isi config shutdown all
isi_for_array shutdown -p för att stänga av klustret från OneFS-webbadministrationsgränssnittet i OneFS 8.0 och senare.
Fas 3: Kontrollera att noderna har stängts av.
Kontrollera att noderna har stängts av ordentligt genom att titta på strömindikatorn lysdiod (LED) på baksidan av noden. Alla lysdioder för strömindikatorer ska vara mörka eller släckta. Detta indikerar att noden har stängts av.
Om strömindikatorlampan på baksidan av noden fortfarande lyser har noden inte stängts av. Om noden inte har stängts av, eller om du får konsolutdata som anger att nodjournalen inte sparades korrekt (från fas 2, steg 3C), måste du spara journalen manuellt för att säkerställa att data checkas in på disken innan du stänger av noden.
- Om du vill spara journalen manuellt och stänga av noden utför du följande steg:
- Om noden svarar på kommandoradsgränssnittet startar du om noden genom att köra följande kommando:
# isi config reboot
- Om noden inte svarar på kommandoradsgränssnittet startar du om noden manuellt genom att trycka och hålla ned strömknappen på baksidan av noden. Detta gör att noden stängs av. Vänta 30 sekunder och tryck sedan på strömknappen en gång för att starta nodsäkerhetskopieringen igen. Gå till nästa steg.
- När du har startat om noden loggar du in igen och använder följande steg för att spara journalen:
- Försök att stänga av noden igen genom att köra följande kommando:
# isi config shutdown
- Om utdata fortfarande anger att journalen inte har sparats sparar du journalen manuellt genom att köra följande kommando:
# isi_save_journal
- Om journalen fortfarande inte sparas demonterar du filsystemet /ifs och tvingar sedan journalen att spara genom att köra följande kommandon:
# isi_kill_busy && umount /ifs
- Kontrollera att journalen har sparats genom att köra kommandot isi_checkjournal.
# isi_checkjournal
- Gå inte till nästa steg förrän utdata visar att journalen har sparats.
Kontakta Dells tekniska support om det behövs.
Fas 4: Koppla bort strömkällan.
Först när klustret har stängts av och noderna har stängts av kan strömkällan kopplas bort från klustret.
NVRAM-batterier
När en klient skriver en fil till en nod lagras skrivningarna först i NVRAM (Nonvolatile RAM) som finns på nodens journalkort. En tid senare genomför OneFS dessa skrivningar på disken. För att skydda data som lagras i NVRAM vid ett oplanerat strömavbrott är varje nod utrustad med NVRAM-batterier (två för redundans). En nod som är avstängd men förblir ansluten till en strömkälla fortsätter att uppdatera sina NVRAM-batterier. När strömkällan kopplas bort från noden börjar NVRAM-batterierna att laddas ur. Batteritiden i den aktuella generationen noder (X200, S200, X400 och NL400) är cirka fem dagar. I den föregående generationen noder är NVRAM-batteriets livslängd ungefär tre dagar.
Dell Technologies rekommenderar att noder stängs av på rätt sätt för att undvika att vara beroende av NVRAM-batterier under en längre tid under ett strömavbrott.
Om NVRAM-batterierna på en nod laddas ur helt startar noden till skrivskyddat läge och förblir i skrivskyddat läge i cirka 30 minuter tills NVRAM-batterierna är helt laddade. När batterierna laddas återgår noden automatiskt till normalt läs-/skrivläge.
Fas 5: Slå på alla noder i klustret.
De här stegen ska utföras när du är redo att starta om Isilon-klustret.
- Återställ strömkällan till varje nod.
- Tryck på strömknappen på frontpanelen eller på baksidan av varje nod för att starta dem.
- När alla noder har slagits på kör du
isi status -qför att granska hälsotillståndet för klustret. Kontrollera att alla noder är OK i kolumnen Hälso-DASR och inte är i skrivskyddat läge (R) innan du fortsätter. För ett felfritt kluster bör utdata som liknar följande visas:
Cluster Name: mycluster Cluster Health: [ OK ] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Se listan över aktiverade tjänster som skapades i fas 2, steg 1b och aktivera de tjänster som har inaktiverats genom att köra ett eller flera av följande kommandon:
isi services apache2 enable isi services isi_hdfs_d enable isi services isi_iscsi_d enable isi services ndmpd enable isi services nfs enable isi services smb enable isi services vsftpd enable
- Kontrollera att klienterna kan ansluta till klustret och utföra sina vanliga arbetsflöden. Klustret bör fungera normalt.
- Upload en fullständig logg samlas:
# isi_gather_info --esrs
- Utför eller begär en Isilon-hälsokontroll av fjärrsupportteamet (kundsupport).
Steg för att köra hälsokontroller.
PowerScale: Så här kör du IOCA Cluster Analysis Tool.
- Begär en hälsokontroll med hjälp av Remote Reactive-supportteamet
Det här är tillgängligt för alla kunder med ett aktivt underhållsavtal för kluster på kodversioner som stöds.
Om du uppfyller dessa krav öppnar du en tjänstebegäran (SR) på Dells supportwebbplats på webben och begär en "Isilon Health Check".
*Hälsokontrollen är inte avsedd att åtgärda klusterproblem eller utvärdera klustrets konfiguration, prestanda eller arbetsflöde.