Усунення несправностей модуля Switch Fabric
Summary: Усунення несправностей модуля Switch Fabric
Symptoms
- Введення
- Визначення останньої причини вимкнення живлення
- Усунення симптомів
- Інформація, яку слід збирати, якщо ви відкриваєте справу TAC
Введення
Цей документ в першу чергу призначений для усунення несправностей модуля Switch Fabric Module (SFM) у системі E-Series, але він також може бути застосований до соняшникової макухи серії C.У серії E соняшникова макуха є дискретним компонентом, який називається польовим замінним блоком (FRU). У C-серії тканина перемикача інтегрована в RPM. Тим не менш, команди FTOS для управління соняшниковою макухою, включаючи всі описані в цьому документі, за винятком випадків, де зазначено, корисні на C-серії.
У рідкісних випадках сонячну макуху не вдається ініціалізувати під час завантаження або після оновлення, або вона може несподівано вимкнутися під час роботи. У цьому документі йдеться про ці випадки.
Визначення останньої причини вимкнення живлення
Функція трасування системи, як показано у виході команди show trace , повідомляє, коли SFM було вимкнено або переключено живлення. Ви можете шукати повідомлення журналу під назвою"Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7 [2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event. [2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card [2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT [2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7... [2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id [2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm [2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9 [2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event. [2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action
Як правило, системне трасування відображає три причини скидання SFM:
- remote-power-off – повідомляється найчастіше, оскільки SFM вимикається та вмикається під час перезавантаження системи, як перед перезавантаженням, так і знову під час ініціалізації системи. Причина «віддаленого вимкнення» також повідомляється, коли видається команда скидання номера слота sfm , оскільки ця команда фактично запускає живлення FM.
Примітка: Ця команда доступна лише у FTOS 6.5.4.0 та пізніших версіях, а також на E-Series. - card-remove - Якщо ви видалите, а потім знову вставите FM, вихід відображення трасування повідомить про видалення карти як про останню причину циклу живлення. Цей статус не повідомляється, коли програмне забезпечення виявляє неможливість зчитування певної інформації через внутрішню шину та інтерпретує цей стан як видалення соняшникової макухи.
- помилкове скидання
Усунення симптомів
Процес FTOS Chassis Manager (CHMGR) контролює справність і стан соняшникової макухи. Коли процес виявляє проблему з соняшниковою макухою, RPM0 повідомляє про незначний сигнал тривоги та скидає карти в спробі відновити соняшникову маку. Процес TSM повідомляє, що соняшникова макуха знайдено, і незначний стан тривоги знято.Коли RPM повідомляє «No working standby SFM», перемикач працює без резервного SFM. Однією з причин може бути те, що сонячна макуха в певному слоті ще не підключена до мережі після скидання. Як тільки цей соняшникова макуха з'являється в мережі, незначна сигналізація знімається, диспетчер шасі виявляє нову соняшникову макуху і, залежно від шасі та кількості соняшникової макухи, відображається повідомлення «Знайдено X соняшникової макухи».
Загалом, щоб усунути проблему з Держфінгом, почніть із захоплення таких вихідних даних:
show trace show logging Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2 Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs show sfm all
Якщо соняшникова макуха спрацьовує або циклічно переходить через незначний стан сигналізації, можливо, система не отримує достатньої потужності. За цієї умови система виводить з ладу Держфінмоніторинг в першу чергу. Для кожної соняшникової макухи налаштовується поріг напруги, і, виходячи з цього значення, відповідна соняшникова макуха буде знижуватися першою. Цей процес ляскання соняшникової макухи відбувається до тих пір, поки напруга в системі не стабілізується. Щоб визначити, чи достатня потужність, фізично перевірте, чи не зазнають якісь силові випрямлячі Valere з ладу. Дивіться також окремий документ «Усунення несправностей в умовах низького енергоспоживання».
У наступних розділах пояснюється, як виправити конкретні помилки в Держфінмоніторингу.
Загальні помилки
доступуІснує два типи помилок загального доступу до соняшникової макухи:
"m" - MDIO error "I" - I2C access error
Ці помилки доступу зазвичай вказують на проблему з обладнанням.
Щоб визначити, чи виникає у вашому SFM загальну помилку доступу, знайдіть відповідне повідомлення системного журналу, наприклад «Знайдено загальну помилку доступу».
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage SFM Simba PSI access error
Помилка "Simba PSI" на SFM зазвичай вказує на апаратну проблему. (Simba відноситься до апаратного чіпа на соняшниковій маку.)
-
show trace Output [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to SW_FAB_UP_8 !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. !—During a failure, check the Status LED. [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already in SFM_ERROR state [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not accessible via scratch pad (SFM_FAITH_CR = 0) [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status
-
show sfm all Force10#sh sfm all Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 card problem (SFM Simba PSI access error) 1 active 2 active 3 active 4 active 5 active 6 active 7 active 8 active
"У SFM вийшов з ладу SW FAB ілюмінатор діагностики"
Як правило, цей стан вказує на проблему з обладнанням. Зверніться до Force10 Networks TAC за допомогою в усуненні несправностей, перш ніж надсилати запит на RMA.
Force10#show chassis brief Chassis Type : E300 Chassis Mode : TeraScale Chassis Epoch : 10.4 micro-seconds -- Line cards -- Slot Status NxtBoot ReqTyp CurTyp Version Ports --------------------------------------------------------------------------- 0 online online EX1YE3 EX1YE3 5.3.1.2b 1 1 online online EX1YE3 EX1YE3 5.3.1.2b 1 2 online online EX1YE3 EX1YE3 5.3.1.2b 1 3 online online EX1YE3 EX1YE3 5.3.1.2b 1 4 online online E12PE3 E12PE3 5.3.1.2b 12 5 not present -- Route Processor Modules -- Slot Status NxtBoot Version --------------------------------------------------------------------------- 0 active online 5.3.1.2b 1 not present Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 SW FAB diags failed (Multiple SFMs failed SW FAB portpipe diags) 1 active [output omitted]
Повідомляється про серйозну тривогу за кількох умов. Однією з таких умов є перевищення безпечної робочої температури SFM, що визначається апаратними та програмними засобами моніторингу навколишнього середовища. Команда showenvironment може фіксувати стан високої температури на додаток до повідомлень про помилку:
Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C) Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C) Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)
Коли виникає цей стан, або соняшникова макуха дійсно занадто гаряча, або датчик вийшов з ладу. Якщо безпосередньо поруч з Держфінгом нормальна температура, підозрюйте несправність датчика. Якщо безпосередньо сусідні соняшникова макуха не мають нормальної температури, підозрюйте справжній стан перегріву.
Коли система виявляє справжній стан перегріву, вона вимикає соняшникову макуху, доки вона не охолоне і доки програмне забезпечення не визначить, що повторне живлення безпечне. Після повторного живлення причина скидання соняшникової макухи буде повідомлена як «перегрів» обладнанням. Якщо програмне забезпечення виявить перевищення температури та вручну вимкне соняшникову маку, система повідомить про причину скидання соняшникової макухи для «віддаленого вимкнення».
Щоб переглянути рівні порогів запрограмованих тривог, виконайте команду показати порогові значення тривоги :.
E600-TAC-3#show alarms threshold -- Temperature Limits (deg C) -- ----------------------------------------------------------- Minor Minor Off Major Major Off Shutdown Linecard 75 70 80 77 85 RPM 65 60 75 70 80 SFM 65 60 75 70 80
Виконайте такі дії, щоб усунути цю умову:
- Переконайтеся, що лицьова панель закриває всі слоти без лінійної картки. Без таких пластин стан високої температури може наступити протягом п'яти хвилин. Запасні заготовки можна придбати в Force10 Networks.
- Слідкуйте за тим, щоб шасі не стояло на підлозі.
- Переконайтеся, що плитка достатнього охолодження розташована поблизу корпусу.
- Якщо є підозра на несправність датчика, дистанційно скиньте налаштування SFM за допомогою команди скидання номера слотаsfm. Якщо температура дійсно висока, то соняшникова макуха, ймовірно, не включиться, і її слід видалити всього на кілька дюймів, щоб карта більше не підключалася до задньої плати і все ще забезпечувала належний потік повітря для решти корпусу.
ПРИМІТКИ: Ця команда доступна лише у FTOS 6.5.4.0 та пізніших версіях, а також на E-Series.
ПРИМІТКИ: Проявляти обережність при видаленні соняшникової макухи; Якщо вона становить 85 градусів, він може бути гарячим на дотик.
Скидання активного соняшникової макухи за допомогою команди скидання соняшникової макухи може призвести до порушення дорожнього руху, і це повідомлення:
Force10#reset sfm 0 SFM 0 is active. Resetting it might temporarily impact traffic. Proceed with reset? Confirm [yes/no]:
Живлення соняшникової макухи вимкнено через недостатню
напругуУ разі просідання потужності соняшникова макуха зазвичай вимикається першою. Більш детальну інформацію дивіться в окремому документі «Усунення несправностей в умовах низького енергоспоживання».
Force10>show sfm 3 Switch Fabric State: up -- SFM card 3 -- Status : power off - SFM powered off due to under-voltage Card Type : SFM - Switch Fabric Module Up Time : 0 sec Temperature : 33C Power Status : PEM0: up PEM1: up Serial Number : 0012632 Part Number : 7520003706 Rev A Vendor Id : 01 Date Code : 01442003
Інформація, яку слід збирати, якщо ви відкриваєте справу TAC
Рівень інформації, що надається Центру технічної допомоги (TAC) Force10 Networks, визначає деталі усунення несправностей, які TAC може надати. З огляду на обмежену інформацію, TAC зазвичай рекомендує перевстановити соняшникову маку, про яку повідомляється в повідомленні про помилку, і уважно стежити за нею. Якщо соняшникова макуха знову вийде з ладу, зверніться до TAC, щоб запросити подальшу допомогу в усуненні несправностей. Будь ласка, скористайтеся формою «Створити запит на обслуговування» на сторінці isupport та надайте наступну інформацію, якщо така є:
- Консольні знімки показують повідомлення про помилки
- Знімки консолі показують виконані кроки з усунення несправностей і послідовність завантаження під час кожного кроку
- Збережені повідомлення на сервері системного журналу, якщо такий використовується.
- Вивід з команди show trace
- Вихідні дані з команди show tech-support