Kytkimen fabric-moduulin vianmääritys
Summary: Kytkimen fabric-moduulin vianmääritys
Symptoms
- Johdanto
- Viimeisen sammutuksen syyn selvittäminen
- Ongelmien vianmääritys
- TAC-tapauksen avaamisen yhteydessä kerättävät tiedot
Johdanto
Tämä asiakirja koskee ensisijaisesti E-sarjan järjestelmien Switch Fabric Module (SFM) -moduulin vianmääritystä, mutta sitä voidaan soveltaa myös C-sarjan SFM-moottoreihin.E-sarjassa SFM on erillinen komponentti, jota kutsutaan kentällä vaihdettavaksi yksiköksi (FRU). C-sarjassa kytkinkangas on integroitu RPM: ään. FTOS-komennot SFM:n hallintaan, mukaan lukien kaikki tässä asiakirjassa kuvatut komennot, ellei toisin mainita, ovat kuitenkin hyödyllisiä C-sarjassa.
Harvoissa tapauksissa SFM ei käynnisty käynnistyksen tai päivityksen jälkeen tai se voi sammua odottamatta käytön aikana. Tässä asiakirjassa käsitellään näitä tapauksia.
Viimeisen sammutuksen syyn selvittäminen
Näytä jäljitys -komennon tulosteessa näkyvä järjestelmän jäljitystoiminto ilmoittaa, kun SFM on sammutettu tai sammutettu. Voit etsiä lokiviestejä, joiden otsikko on"Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7 [2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event. [2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card [2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT [2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7... [2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id [2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm [2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9 [2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event. [2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action
Yleensä järjestelmän jäljitys näyttää kolme syytä SFM:n nollaukseen:
- etävirta pois päältä – Ilmoitetaan useimmiten, koska SFM sammutetaan ja käynnistetään, kun järjestelmä käynnistyy uudelleen, sekä ennen uudelleenkäynnistystä että uudelleen järjestelmän alustuksen yhteydessä. Etäkäynnistyksen syy ilmoitetaan myös, kun sfm-paikan numeron nollauskomento annetaan, koska tämä komento itse asiassa käynnistää SFM:n uudelleen.
Huomautus: Tämä komento on käytettävissä vain FTOS 6.5.4.0:ssa ja uudemmissa sekä E-sarjassa. - kortti poistettu – Jos irrotat SFM:n ja asetat sen sitten takaisin paikalleen, Näytä jäljitys -tuloste ilmoittaa kortin poistamisen viimeisenä sammutusjakson syynä. Tätä tilaa ei ilmoiteta, kun ohjelmisto havaitsee, että tiettyjä tietoja ei voida lukea sisäisen väylän kautta, ja tulkitsee tämän tilan SFM:n poistamiseksi.
- Väärä nollaus
Ongelmien vianmääritys
FTOS Chassis Manager (CHMGR) -prosessi valvoo SFM:n kuntoa ja tilaa. Kun prosessi havaitsee SFM:ssä ongelman, RPM0 ilmoittaa pienestä hälytyksestä ja nollaa kortin yrittäessään palauttaa SFM:n. TSM-prosessi ilmoittaa, että SFM on löydetty ja pieni hälytystila on poistettu.Kun kierrosluku ilmoittaa, että "Valmiustila SFM ei toimi", kytkin on käynnissä ilman varalla olevaa SFM:ää. Yksi syy voi olla se, että tietyssä paikassa oleva SFM ei ole vielä online-tilassa nollauksen jälkeen. Kun tämä SFM tulee verkkoon, pieni hälytys on poistettu, alustapäällikkö havaitsee uuden SFM:n ja kotelosta ja SFM:ien lukumäärästä riippuen näyttöön tulee viesti "Found X SFMs".
Jos haluat tehdä SFM-ongelman vianmäärityksen, aloita tallentamalla seuraava tulos:
show trace show logging Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2 Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs show sfm all
Jos SFM läpäisee vähäisen hälytystilan, järjestelmä ei ehkä saa riittävästi virtaa. Tässä tilanteessa järjestelmä laskee ensin kestävän metsänhoidon. Jokaisella SFM:llä on jännitekynnys, ja tämän arvon perusteella vastaava SFM laskee ensin. Tämä SFM-räpytysprosessi tapahtuu, kunnes järjestelmän jännite on vakiintunut. Voit selvittää, onko virtaa riittävästi, tarkistamalla fyysisesti, onko Valere-virtasuuntaajissa tiilivika. Katso myös erillinen asiakirja Virransäästöolosuhteiden vianmääritys.
Seuraavissa osissa selitetään, miten SFM:n tiettyjen virheiden vianmääritys tehdään.
Yleiset käyttöoikeusvirheet
SFM: n yleisiä pääsyvirheitä on kahdenlaisia:
"m" - MDIO error "I" - I2C access error
Nämä käyttövirheet viittaavat yleensä laitteisto-ongelmaan.
Voit selvittää, onko SFM:ssäsi yleinen käyttöoikeusvirhe, etsimällä asiaankuuluva järjestelmälokiviesti, kuten "SFM 3 löysi yleisen käyttöoikeusvirheen".
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage SFM Simba PSI access error
SFM: n "Simba PSI" -virhe viittaa yleensä laitteisto-ongelmaan. (Simba viittaa SFM: n laitteistosiruun.)
-
show trace Output [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to SW_FAB_UP_8 !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. !—During a failure, check the Status LED. [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already in SFM_ERROR state [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not accessible via scratch pad (SFM_FAITH_CR = 0) [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status
-
show sfm all Force10#sh sfm all Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 card problem (SFM Simba PSI access error) 1 active 2 active 3 active 4 active 5 active 6 active 7 active 8 active
"SFM epäonnistui SW FAB -porttiputkidiageissa"
Yleensä tämä tila viittaa laitteisto-ongelmaan. Ota yhteyttä Force10 Networks TACiin saadaksesi vianmääritysapua ennen RMA:n pyytämistä.
Force10#show chassis brief Chassis Type : E300 Chassis Mode : TeraScale Chassis Epoch : 10.4 micro-seconds -- Line cards -- Slot Status NxtBoot ReqTyp CurTyp Version Ports --------------------------------------------------------------------------- 0 online online EX1YE3 EX1YE3 5.3.1.2b 1 1 online online EX1YE3 EX1YE3 5.3.1.2b 1 2 online online EX1YE3 EX1YE3 5.3.1.2b 1 3 online online EX1YE3 EX1YE3 5.3.1.2b 1 4 online online E12PE3 E12PE3 5.3.1.2b 12 5 not present -- Route Processor Modules -- Slot Status NxtBoot Version --------------------------------------------------------------------------- 0 active online 5.3.1.2b 1 not present Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 SW FAB diags failed (Multiple SFMs failed SW FAB portpipe diags) 1 active [output omitted]
Suuri hälytys ilmoitetaan useissa olosuhteissa. Yksi tällainen tilanne on ympäristöä valvovien laitteistojen ja ohjelmistojen havaitseman SFM:n turvallisen käyttölämpötilan ylittyminen. Näytäympäristö -komento saattaa virhesanomien lisäksi tallentaa korkean lämpötilan tilan:
Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C) Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C) Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)
Kun tämä tilanne ilmenee, joko SFM on aidosti liian kuuma tai anturissa on toimintahäiriö. Jos suoraan vierekkäiset SFM: t ovat normaalilämpöisiä, epäile viallista anturia. Jos suoraan vierekkäiset SFM: t eivät ole normaalilämpöisiä, epäile aitoa ylikuumenemista.
Kun järjestelmä havaitsee aidon ylikuumenemisen, SFM sammuu, kunnes se jäähtyy ja kunnes ohjelmisto määrittää, että sen uudelleenkäynnistys on turvallista. Uudelleenkäynnistyksen yhteydessä laitteisto ilmoittaa SFM:n nollauksen syyksi "ylikuumenemisen". Jos ohjelmisto havaitsee ylikuumenemistapahtuman ja sammuttaa SFM:n manuaalisesti, järjestelmä ilmoittaa SFM-nollauksen syyksi "etävirrankatkaisun".
Voit tarkastella ohjelmoitujen hälytyskynnysten tasoja suorittamalla Näytä hälytyskynnys -komennon:.
E600-TAC-3#show alarms threshold -- Temperature Limits (deg C) -- ----------------------------------------------------------- Minor Minor Off Major Major Off Shutdown Linecard 75 70 80 77 85 RPM 65 60 75 70 80 SFM 65 60 75 70 80
Voit tehdä tämän tilan vianmäärityksen seuraavasti:
- Varmista, että etupaneeli peittää kaikki paikat, joissa ei ole viivakorttia. Ilman tällaisia levyjä korkean lämpötilan tila voi tapahtua viiden minuutin kuluessa. Vara-aihioita on saatavilla Force10 Networksista.
- Varmista, että koteloa ei ole asetettu lattialle.
- Varmista, että kotelon lähellä on riittävästi jäähdytyslaattoja.
- Jos epäilet viallista anturia, nollaa SFM etänä nollaamalla sfm-paikan numero . Jos lämpötila on todella korkea, SFM ei todennäköisesti käynnisty ja se tulisi poistaa vain muutama tuuma, jotta kortti ei enää yhdisty taustalevyyn ja sallii silti oikean ilmavirran muulle alustalle.
HUOMAUTUS: Tämä komento on käytettävissä vain FTOS 6.5.4.0:ssa ja uudemmissa sekä E-sarjassa.
HUOMAUTUS: Ole varovainen poistaessasi SFM: ää; Jos se on 85 astetta, se voi olla kuuma kosketukseen.
Aktiivisen SFM:n nollaaminen nollaus sfm -komennolla voi aiheuttaa liikennehäiriöitä, ja seuraava viesti:
Force10#reset sfm 0 SFM 0 is active. Resetting it might temporarily impact traffic. Proceed with reset? Confirm [yes/no]:
SFM on kytketty pois päältä alijännitetilan
vuoksiJos virta katkeaa, SFM sammuu yleensä ensin. Lisätietoja on erillisessä asiakirjassa Virransäästön vianmääritys.
Force10>show sfm 3 Switch Fabric State: up -- SFM card 3 -- Status : power off - SFM powered off due to under-voltage Card Type : SFM - Switch Fabric Module Up Time : 0 sec Temperature : 33C Power Status : PEM0: up PEM1: up Serial Number : 0012632 Part Number : 7520003706 Rev A Vendor Id : 01 Date Code : 01442003
TAC-tapauksen avaamisen yhteydessä kerättävät tiedot
Force10 Networksin teknisen avun keskukselle (TAC) toimitettujen tietojen taso määrittää vianmäärityksen yksityiskohdat, joita TAC voi tarjota. Koska tietoja on rajoitetusti, TAC suosittelee yleensä virheilmoituksessa ilmoitetun SFM:n asettamista uudelleen ja sen tarkkaa seurantaa. Jos SFM epäonnistuu jälleen, ota yhteyttä TACiin ja pyydä lisää vianmääritysapua. Käytä isupport-sivulla olevaa Luo palvelupyyntö -lomaketta ja liitä mukaan seuraavat tiedot, jos ne ovat saatavilla:
- Konsoli tallentaa näkymän virheilmoituksille
- Konsolitallenteet, joissa näkyvät kunkin vaiheen vianmääritystoimet ja käynnistysjärjestys
- Tallennetut viestit syslog-palvelimeen, jos sellaista käytetään.
- Näytä jäljitys -komennon tulos
- Show tech-support - komennon tulos