PowerScale, Isilon, OneFS: Een cluster correct uitschakelen
Resumen: Best practices voor het correct afsluiten van uw PowerScale cluster en bevat informatie over de risico's van een onjuiste afsluiting van het cluster. Stap-voor-stap procedures om het cluster op de juiste manier af te sluiten. Sommige stappen moeten 4-8 weken voor de geplande upgrade worden uitgevoerd. ...
Instrucciones
Inleiding
Dit artikel bevat de procedure voor het correct afsluiten van uw Dell Isilon cluster en bevat informatie over de risico's verbonden aan een onjuiste afsluiting van het cluster.
Knooppunten die ten onrechte in het cluster zijn afgesloten, mogen niet langer dan de levensduur van de NVRAM-batterij zonder systeemvoeding zitten.
Dit is ongeveer drie tot vijf dagen, afhankelijk van het type knooppunt.
Als er nog steeds data worden opgeslagen in een knooppuntlogboek terwijl het knooppunt langer dan de levensduur van de NVRAM-batterij zonder stroom zit, gaan er gegevens verloren.
Als dit op meerdere knooppunten gebeurt, moet het cluster opnieuw worden opgebouwd.
Neem contact op met de technische support van Dell Isilon voor hulp als u vragen hebt over de procedures of informatie in dit artikel.
Procedure
De procedure voor het afsluiten van het cluster vereist rootreferenties en seriële consoletoegang tot knooppunten in het cluster. De procedure is onderverdeeld in de volgende fasen.
- Fase 1: Preventief onderhoud uitvoeren
- Fase 2: Sluit elk knooppunt in het cluster af
- Fase 3: Controleer of de knooppunten zijn afgesloten
- Fase 4: Koppel de voedingsbron los
- Fase 5: Schakel elk knooppunt in het cluster in
- Fase 6: Voer een healthcheck uit op het cluster
Lees de hele procedure voordat u het afsluitproces begint. Dit zorgt ervoor dat u de context en volgorde begrijpt voor het voltooien van elke stap.
Fase 1: Voer preventief onderhoud uit.
Deze stappen worden ongeveer 4-8 weken voor de geplande uitschakeling uitgevoerd. Het doel van deze fase is om onbekende of latente hardware- of firmwareproblemen te identificeren die de afsluitprocedure kunnen belemmeren.
afsluit.Als de omstandigheden een onmiddellijke clusterbrede uitschakeling vereisen, kunt u alle knooppunten tegelijkertijd afsluiten met behulp van de OneFS-opdrachtregelinterface of de OneFS-webbeheerinterface.
Dell raadt ten zeerste aan om alle stappen in fase 3 te volgen om de integriteit van data te behouden als er een nooduitschakelprocedure is.
- Upload indien nodig logboeken voor historische referentie.
# isi diagnostics gather start --gather-mode full
- Voer een Isilon healthcheck uit of vraag erom een Isilon healthcheck aan.
- Hiermee wordt de status van het cluster geëvalueerd om ervoor te zorgen dat het een goede, ondersteunbare, operationele status heeft.
- Het kan door de klant worden uitgevoerd met behulp van PowerScale: De IOCA Cluster Analysis Tool uitvoeren
- Het kan worden uitgevoerd door het Remote Reactive (Customer Support) team. Dit is beschikbaar voor alle klanten met een actieve onderhoudsovereenkomst voor clusters op ondersteunde codeversies. Als u aan deze vereisten voldoet, opent u een serviceaanvraag (SR) op de Dell Online Support website met het verzoek om een "Isilon Health Check". En verstrek volledige logboeken voor de Health Check door deze opdracht uit te voeren
# isi diagnostics gather start --gather-mode full
*De healthcheck is niet bedoeld om clusterproblemen op te lossen of de configuratie, prestaties of workflow van het cluster te beoordelen.
- Voer een "koude herstart" van elk knooppunt uit door de volgende stappen uit te voeren. Er moet een onderhoudsvenster voor deze activiteit worden gepland.
Opmerking: Met dit proces kunt u geheugenfouten of defecte schijfmodi identificeren die alleen worden gedetecteerd wanneer het knooppunt weer wordt ingeschakeld.
- Sluit elk knooppunt in uw cluster één voor één af. U kunt elk knooppunt als volgt afsluiten:
- Open een SSH-verbinding met een willekeurig knooppunt. Sluit elk knooppunt af door de volgende opdracht uit te voeren
isi config shutdown <node_lnn>
- Controleer of elke node is uitgeschakeld door te bevestigen dat de groene voedingsindicator-LED aan de achterkant van de node niet langer brandt.
- Druk op de aan/uit-knop om de node weer in te schakelen.
- Controleer of het knooppunt weer is aangesloten op het cluster en in orde is door het uitvoeren van het
isi status -qen zoek naar OK in de kolom Health DASR van de uitvoer. - Als een knooppunt problemen ondervindt die worden aangegeven in de kolom Health DASR, of niet opnieuw verbinding kan maken met het cluster, lost u deze problemen op voordat u het volgende knooppunt afsluit.
Er is een voorbeeld van een probleem geselecteerd. Knooppunt 1 is opnieuw aangesloten bij het cluster, maar de kolom Health DASR geeft aan dat het aandacht nodig heeft.
mycluster-1# isi status -q Cluster Name: mycluster Cluster Health: [ ATTN] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Controleer nogmaals de status van uw gehele cluster nadat u elk knooppunt opnieuw hebt opgestart. Open een SSH-verbinding met een knooppunt en voer de onderstaande opdracht uit:
isi status -q
isi config reboot <node_lnn>
Dell raadt echter ten sterkste aan om de cold-reboot-benadering te gebruiken om latente hardwareproblemen effectiever te identificeren.
Fase 2: Sluit elk knooppunt in het cluster af.
Deze stappen moeten worden uitgevoerd op de dag dat u uw Isilon cluster afsluit. Tijdens een clusterbrede uitschakeling kunnen sommige factoren het uitschakelproces beïnvloeden of vertragen. Uitstaande data die naar een knooppunt worden geschreven, kunnen bijvoorbeeld van invloed zijn op het afsluiten. Het doel van stap 1-2 is om ervoor te zorgen dat alle clients zijn losgekoppeld van het cluster en dat data correct worden opgeslagen uit knooppuntlogboeken naar het bestandssysteem voordat de afsluitopdracht wordt uitgevoerd. Als u iSCSI-clients hebt, zorg er dan voor dat u clients afsluit voordat de iSCSI-service wordt uitgeschakeld.
In stap 3 wordt beschreven hoe u elk knooppunt in uw cluster opeenvolgend afsluit met behulp van een seriële console. Deze methode wordt aanbevolen omdat u hiermee kunt controleren of elk knooppunt correct is afgesloten voordat u doorgaat naar het volgende knooppunt, en indien nodig aanpassingen kunt maken of problemen kunt oplossen om ervoor te zorgen dat het cluster correct wordt afgesloten. Deze methode kan echter tijdrovend zijn, omdat er een seriële console op elk knooppunt moet worden aangesloten om de afsluitopdracht uit te voeren. In het gedeelte Alle knooppunten in uw cluster tegelijkertijd afsluiten wordt beschreven hoe u de OneFS-opdrachtregelinterface of de OneFS-webbeheerinterface kunt gebruiken om uw cluster af te sluiten. Deze methode is minder tijdrovend dan stap 3, maar maakt het uitdagender om knooppunten te identificeren die problemen ondervinden tijdens het afsluitproces.
- Isilon raadt aan om het cluster te isoleren van clients om ervoor te zorgen dat clients met veel schrijven de afsluitprocedure niet belemmeren. U kunt dit doen door de clientgerichte services uit te schakelen die op uw cluster worden uitgevoerd. Voer de volgende procedure uit om clientgerichte services uit te schakelen:
- Identificeer de clientgerichte services of protocollen die op uw cluster worden uitgevoerd door de volgende opdrachten uit te voeren voor elke clientgerichte service:
isi services apache2 isi services isi_hdfs_d isi services isi_iscsi_d isi services ndmpd isi services nfs isi services smb isi services vsftpd
- B. Documenteer de services die zijn "ingeschakeld" op uw cluster op basis van de uitvoer voor elke opdracht. Geselecteerd in het onderstaande voorbeeld is de SMB-service ingeschakeld terwijl de NFS-service is uitgeschakeld:
mycluster-4# isi services smb Service 'smb' is enabled. mycluster-4# isi services nfs Service 'nfs' is disabled. mycluster-4#
- Schakel clientgerichte services uit. Na deze stap verliezen alle clients onmiddellijk de verbinding met het cluster. Als u een service wilt uitschakelen, voert u de volgende opdracht uit die betrekking heeft op de service die u hebt ingeschakeld.
isi services apache2 disable isi services isi_hdfs_d disable isi services isi_iscsi_d disable isi services ndmpd disable isi services nfs disable isi services smb disable isi services vsftpd disable
Als u iSCSI-clients hebt, zorg er dan voor dat iSCSI-clients hun LUN's hebben ontkoppeld voordat u stap 2 uitvoert. Start de isi iscsi list om te bevestigen dat alle iSCSI-clients zijn losgekoppeld van het cluster.
Opmerking: Als u de iSCSI-service uitschakelt, moet u ervoor zorgen dat u de iSCSI-clients hebt afgesloten voordat u de
isi_iscsi_d disable bevelen. Verstoring van een gekoppelde iSCSI LUN kan leiden tot schade aan de client, waarvoor normaal gesproken herstel vanaf een back-up nodig is.
- Verplaats dataschrijfbewerkingen die zijn opgeslagen in knooppuntlogboeken naar het bestandssysteem door het uitvoeren van het
isi_for_array isi_flushbevelen. Op elk knooppunt wordt uitvoer weergegeven die vergelijkbaar is met het volgende:
Opmerking: bij het uitvoeren van isi_flush stopt het NIET totdat het spoelen op een knooppunt is voltooid, of het knooppunt is uitgeschakeld of in paniek is geraakt. U kunt ctrl+c niet uit de spoeling halen als er problemen zijn.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... mycluster-1: Cache flushing complete.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining mycluster-2: Flushing cache... fsync: giving up on dirty
Start de isi_for_array isi_flush commando opnieuw. Als een knooppunt niet wordt doorspoeld, neemt u contact op met de technische support van Dell Isilon. Alle knooppunten moeten worden leeggemaakt voordat u doorgaat naar de volgende stap.
- Sluit elk knooppunt in het cluster opeenvolgend af en controleer de uitvoer. Deze aanpak wordt aanbevolen omdat u hiermee eventuele problemen kunt identificeren en oplossen voordat u het volgende knooppunt in het cluster afsluit. Sluit elk knooppunt af door de volgende stappen uit te voeren:
Let op: Voer de opdracht NIET uit
isi_for_array shutdown -p opdracht om uw cluster af te sluiten.
- Sluit een seriële console aan op elk knooppunt.
- Voer de volgende opdracht uit:
isi config shutdown
Powering the system off using ACPI
- C. Houd de console in de gaten en zoek naar hardwaregerelateerde storingen. Succesvol opgeslagen knooppuntjournaallogboek wordt geselecteerd in de volgende uitvoervariaties:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving. An example of a node journal save failure is highlighted in the output below: 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Als u een foutmelding ontvangt die het knooppuntlogboek niet heeft opgeslagen, kunt u het logboek handmatig opslaan door de stappen in fase 3 uit te voeren.
Sluit alle knooppunten in het cluster tegelijkertijd af.
Als er een noodgeval is, kunt u alle knooppunten in het cluster tegelijkertijd afsluiten. Deze methode wordt echter niet aanbevolen, omdat u hiermee niet de status en uitvoer van elk knooppunt kunt controleren in het geval van een probleem. Als u ervoor kiest deze stappen te volgen, raadt Dell u ten zeerste aan alle stappen in fase 3 te volgen om te controleren of alle knooppunten correct zijn afgesloten na het uitvoeren van de onderstaande procedures.
Waarschuwing: Als u een voedingsbron verwijdert uit een knooppunt dat geen gegevens uit het logboek naar het bestandssysteem heeft gespoeld, neemt het risico op gegevensverlies aanzienlijk toe. Neem contact op met de technische support van Dell Isilon als u hulp nodig hebt bij de uitschakelprocedure.
# isi config shutdown all
isi_for_array shutdown -p opdracht om uw cluster af te sluiten vanuit de OneFS-webbeheerinterface in OneFS 8.0 en hoger.
Fase 3: Controleer of de knooppunten zijn afgesloten.
Controleer of de knooppunten correct zijn afgesloten door te kijken naar de voedingsindicator light-emitting diode (LED) aan de achterkant van de knooppunt. Alle LED's van de voedingsindicator moeten donker of UIT zijn. Dit geeft aan dat het knooppunt is afgesloten.
Als het voedingsindicatielampje aan de achterkant van de node nog brandt, is de node niet afgesloten. Als het knooppunt niet is afgesloten of als u console-uitvoer ontvangt die aangeeft dat het knooppuntlogboek niet correct is opgeslagen (uit fase 2, stap 3C), moet u het logboek handmatig opslaan om ervoor te zorgen dat die data op schijf worden vastgelegd voordat u het knooppunt afsluit.
- Voer de volgende stappen uit om het journaal handmatig op te slaan en het knooppunt af te sluiten:
- Als het knooppunt reageert op de opdrachtregelinterface, start u het knooppunt opnieuw op door de volgende opdracht uit te voeren:
# isi config reboot
- Als het knooppunt niet reageert op de opdrachtregelinterface, start u het knooppunt handmatig opnieuw op door de aan/uit-knop aan de achterkant van het knooppunt ingedrukt te houden. Dit zorgt ervoor dat de node wordt uitgeschakeld. Wacht 30 seconden en druk vervolgens eenmaal op de aan/uit-knop om de knooppuntback-up opnieuw op te starten. Ga naar de volgende stap.
- Nadat u het knooppunt opnieuw hebt opgestart, meldt u zich opnieuw aan en gebruikt u de volgende stappen om het logboek op te slaan:
- Probeer het knooppunt weer correct af te sluiten door de volgende opdracht uit te voeren:
# isi config shutdown
- Als de uitvoer nog steeds aangeeft dat het journaal niet is opgeslagen, slaat u het journaal handmatig op door de volgende opdracht uit te voeren:
# isi_save_journal
- Als het logboek nog steeds niet wordt opgeslagen, ontkoppelt u het bestandssysteem /ifs en slaat u het logboek geforceerd op door de volgende opdrachten uit te voeren:
# isi_kill_busy && umount /ifs
- Controleer of het journaal is opgeslagen door de opdracht isi_checkjournal uit te voeren.
# isi_checkjournal
- Ga pas naar de volgende stap als de uitvoer aangeeft dat het journaal met succes is opgeslagen.
Neem indien nodig contact op met de technische support van Dell .
Fase 4: Koppel de voedingsbron los.
Nadat uw cluster is afgesloten en de knooppunten zijn uitgeschakeld, pas daarna kan de voedingsbron worden losgekoppeld van het cluster.
NVRAM-batterijen
Wanneer een client een bestand naar een knooppunt schrijft, worden de schrijfbewerkingen eerst opgeslagen in niet-vluchtig RAM (NVRAM) dat wordt gehost op de journaalkaart van het knooppunt. Enige tijd later committeert OneFS deze schrijfbewerkingen naar schijf. Om de in NVRAM opgeslagen data te beschermen in geval van een ongeplande stroomstoring, is elk knooppunt uitgerust met NVRAM-batterijen (twee voor redundantie). Een knooppunt dat is uitgeschakeld maar verbonden blijft met een voedingsbron, blijft de NVRAM-batterijen vernieuwen. Wanneer de voedingsbron wordt losgekoppeld van het knooppunt, beginnen de NVRAM-batterijen leeg te raken. De gebruiksduur van de batterij in de huidige generatie knooppunten (X200, S200, X400 en NL400) is ongeveer vijf dagen. Bij de vorige generatie knooppunten is de gebruiksduur van de NVRAM-batterij ongeveer drie dagen.
Dell Technologies raadt aan om knooppunten op de juiste manier af te sluiten om te voorkomen dat u tijdens een stroomstoring gedurende een aanzienlijke tijd afhankelijk bent van NVRAM-batterijen.
Als de NVRAM-batterijen op een knooppunt volledig leeg zijn, start het knooppunt op naar de alleen-lezen -modus en blijft het ongeveer 30 minuten in de alleen-lezen -modus totdat de NVRAM-batterijen volledig zijn opgeladen. Wanneer de batterijen zijn opgeladen, keert de node automatisch terug naar de normale lees-/schrijfmodus.
Fase 5: Schakel elk knooppunt in het cluster in.
Deze stappen moeten worden uitgevoerd wanneer u klaar bent om uw Isilon cluster opnieuw op te starten.
- Herstel de voedingsbron naar elk knooppunt.
- Druk op de aan/uit-knop op het voorpaneel of de achterkant van elke node om ze op te starten.
- Nadat alle knooppunten zijn ingeschakeld, voert u de
isi status -qopdracht om de status van uw cluster te controleren. Controleer of alle knooppunten in orde zijn in de kolom Health DASR en zich niet in een alleen-lezen (R)-modus bevinden voordat u verdergaat. Voor een gezond cluster zou een uitvoer moeten worden weergegeven die vergelijkbaar is met het volgende:
Cluster Name: mycluster Cluster Health: [ OK ] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Zie de lijst met ingeschakelde services die is gemaakt in fase 2, stap 1b en schakel de services in die zijn uitgeschakeld door een of meer van de volgende opdrachten uit te voeren:
isi services apache2 enable isi services isi_hdfs_d enable isi services isi_iscsi_d enable isi services ndmpd enable isi services nfs enable isi services smb enable isi services vsftpd enable
- Controleer of uw clients verbinding kunnen maken met het cluster en hun gebruikelijke workflows kunnen uitvoeren. Uw cluster zou normaal moeten functioneren.
- Upload a full log gather:
# isi_gather_info --esrs
- Voer een Isilon healthcheck uit of vraag die aan door het Remote Reactive (Customer Support) team.
Stappen voor het uitvoeren van healthchecks.
PowerScale: De IOCA Cluster Analysis Tool uitvoeren.
- Een healthcheck aanvragen via Remote Reactive Support Team
Dit is beschikbaar voor alle klanten met een actieve onderhoudsovereenkomst voor clusters op ondersteunde codeversies.
Als u aan deze vereisten voldoet, opent u een serviceaanvraag (SR) op de Dell Online Support website met het verzoek om een "Isilon Health Check".
*De healthcheck is niet bedoeld om clusterproblemen op te lossen of de configuratie, prestaties of workflow van het cluster te beoordelen.