PowerScale OneFS: Odstraňování problémů s výkonem
Summary: Odstraňte problémy s nízkým výkonem systému PowerScale OneFS pomocí našeho komplexního průvodce konfigurací sítě, zpracováním, zatížením a monitorováním pomocí softwaru InsightIQ pro zvýšení efektivity clusteru. ...
Symptoms
Klientské počítače jsou pomalé. Určité úlohy, zejména ty, které běží v clusteru, selžou nebo trvají déle, než se čekalo.
Cause
Problémy s výkonem jsou obvykle způsobeny síťovým provozem, problémy s konfigurací sítě, zatížením zpracování klienta nebo clusteru nebo jejich kombinací. Tento článek popisuje několik efektivních způsobů odstraňování problémů s výkonem.
Resolution
Odstraňování problémů se softwarem InsightIQ
Obsah:
- Použití softwaru Isilon InsightIQ
- Odstraňování problémů bez softwaru InsightIQ
- Propustnost sítě
- Distribuce připojení klientů
- SmartConnect
- Propustnost clusteru
- Zpracování clusteru
- Operace ve frontě
- Procesor
Použití softwaru Isilon InsightIQ
Použití softwaru Isilon InsightIQ je nejlepší způsob, jak monitorovat výkon a odstraňovat problémy s ním spojené.
Virtuální zařízení Isilon InsightIQ umožňuje monitorovat a analyzovat aktivity clusteru Isilon prostřednictvím flexibilních, přizpůsobitelných zobrazení grafů ve webové aplikaci InsightIQ. Tyto grafy obsahují podrobné informace o hardwaru, softwaru a operacích systému souborů a protokolů. Software InsightIQ transformuje data do vizuálních informací, které zdůrazňují veškeré problémy s výkonem, což umožňuje rychlou diagnostiku problematických míst nebo optimalizaci pracovních postupů.
Podrobnosti o používání softwaru InsightIQ naleznete v uživatelské příručce k softwaru InsightIQ.
Odstraňování problémů bez softwaru InsightIQ
Pokud software InsightIQ nepoužíváte, můžete spustit různé příkazy a prozkoumat problémy s výkonem. Nejdříve odstraňte problémy s výkonem kontrolou propustnosti sítě a clusteru, poté kontrolou zpracování clusteru a nakonec kontrolou frekvence procesoru jednotlivých uzlů.
Propustnost sítě
Použijte nástroj pro síťové testování, například Iperf , abyste zjistili možnosti propustnosti počítačů clusteru a klienta v síti.
Pomocí Iperfspusťte v clusteru a klientovi následující příkazy. Tyto příkazy definují velikost okna, která je dostatečně velká, aby bylo možné zjistit, zda je síťové připojení potenciální příčinou problémů s latencí.
- Clusteru:
iperf -s -w 262144
- Klient:
iperf -c <cluster IP> -w 262144
Distribuce připojení klientů
Zkontrolujte, kolik klientů NFS a SMB je připojeno ke clusteru, a ujistěte se, že neupřednostňují jeden uzel.
- Navažte připojení SSH s libovolným uzlem v clusteru a přihlaste se pomocí účtu "root".
- Spuštěním následujícího příkazu zkontrolujte klienty NFS:
isi statistics query - nodes=all --stats=node.clientstats.connected.nfs,node.clientstats.active.nfs
Výstup zobrazí počet klientů připojených k uzlu a počet těchto klientů je aktivních na každém uzlu. - Spuštěním následujícího příkazu zkontrolujte klienty SMB:
isi statistics query - nodes=all --stats=node.clientstats.connected.smb, node.clientstats.active.smb1,node.clientstats.active.smb2
Výstup zobrazí počet klientů připojených k uzlu a počet těchto klientů je aktivních na každém uzlu.
SmartConnect
Zkontrolujte, zda uzel, na kterém běží služba SmartConnect, není zatěžován síťovým provozem.
- Navažte připojení SSH s libovolným uzlem v clusteru a přihlaste se pomocí účtu "root".
- Spusťte následující příkaz:
isi_for_array -sq 'ifconfig|grep em -A3'
Výstup zobrazí seznam všech IP adres, které jsou vázány na externí rozhraní. - Zkontrolujte uzly, které mají o jednu IP adresu navíc než ostatní.
- Zkontrolujte stav uzlů, které jste si všimli v kroku 3, spuštěním následujícího příkazu:
isi status
Zkontrolujte sloupec propustnosti výstupu a určete zatížení uzlů zaznamenané v kroku 3.
Propustnost clusteru
Vyhodnoťte propustnost clusteru prováděním testů zápisu a čtení, které měří dobu potřebnou ke čtení ze souboru a zápisu do souboru. Proveďte alespoň jeden test zápisu a jeden test čtení následujícím způsobem.
Test zápisu
- Navažte připojení SSH s libovolným uzlem v clusteru a přihlaste se pomocí účtu "root".
- Změňte adresář na /ifs :
cd /ifs
- Z rozhraní příkazového řádku (CLI) v clusteru nebo z klientského počítače se systémem UNIX nebo Linux použijte příkaz
ddk zápisu nového souboru do clusteru. Spusťte následující příkaz:dd if=/dev/zero of=1GBfile bs=1024k count=1024
Tento příkaz vytvoří ukázkový soubor o velikosti 1 GB a oznámí dobu potřebnou k jeho zápisu na disk. - Z výstupu tohoto příkazu extrapolujte, kolik MB za sekundu lze zapsat na disk v pracovních postupech s jedním datovým proudem.
- Pokud máte MAC klienta a chcete provést další analýzu,
- Spusťte nástroj Monitor aktivity.
- Spusťte následující příkaz, kde část
pathToFilepředstavuje cestu k cílovému souboru:cat /dev/zero > /pathToFile
Tento příkaz pomáhá měřit propustnost operací zápisu v clusteru Isilon. (Ačkoli je možné spustit příkazddz klienta MAC, mohou být výsledky nekonzistentní.) - Sledujte výsledky příkazu v nástroji Monitor Aktivity na kartě Síť .
Test
čteníPři měření propustnosti operací čtení neprovádějte testy čtení v souboru, který jste vytvořili během testu zápisu. Protože soubor byl uložen do cache, výsledky testů čtení by byly nepřesné. Místo toho otestujte operaci čtení souboru, který nebyl uložen do cache. Vyhledejte soubor v clusteru, který je větší než 1 GB, a odkažte na tento soubor v testu čtení.
- Navažte připojení SSH s libovolným uzlem v clusteru a přihlaste se pomocí účtu "root".
- Z příkazového řádku v clusteru nebo z klientského počítače se systémem UNIX nebo Linux použijte příkaz
ddke čtení souboru v clusteru. Spusťte následující příkaz, kde částpathToFilepředstavuje cestu k cílovému souboru:dd if=/pathToLargeFile of=/dev/null bs=1024k
Tento příkaz přečte cílový soubor a nahlásí dobu potřebnou k jeho přečtení. - Pokud máte MAC klienta a chcete provést další analýzu,
- Spusťte nástroj Monitor aktivity.
- Spusťte následující příkaz, kde část
pathToFilepředstavuje cestu k cílovému souboru:time cp /pathToLargeFile > /dev/null
Tento příkaz pomáhá měřit propustnost operací čtení v clusteru Isilon. (Ačkoli je možné spustit příkazddz klienta MAC, mohou být výsledky nekonzistentní.) - Sledujte výsledky příkazu v nástroji Monitor Aktivity na kartě Síť .
Zpracování clusteru
Úlohy
opětovného prokládáníPřed kontrolou vstupně-výstupních operací (IOPS) clusteru:
- Určete, které úlohy jsou v clusteru spuštěny. Pokud jsou spuštěny úlohy opětovného prokládání, jako je Automatické vyvážení, Shromažďování nebo Vícenásobné skenování, zvažte, proč tomu tak je a zda by měly být spuštěné i nadále.
- Zvažte typ zpracovávaných dat. Pokud klientské počítače pracují s velkými videosoubory nebo virtuálními počítači (VM), vyžaduje znovu prokládaná úloha větší množství operací IOPS disku, než je obvyklé.
- Zvažte dočasné pozastavení úlohy opětovného prokládání. To může významně zlepšit výkon a může jít o krátkodobé řešení problému s výkonem.
Disk I/O
Kontrola operací I/O disku může pomoci určit, zda jsou určité disky nadměrně využívány.
Ze strany clusteru
- Navažte připojení SSH s libovolným uzlem v clusteru a přihlaste se pomocí účtu "root".
- Spuštěním následujícího příkazu zjistíte operace I/O disku:
isi statistics pstat
- Z výstupu tohoto příkazu vydělte počet operací IOPS disku celkovým počtem disků v clusteru. Například u clusteru s 8 uzly Isilon IQ 12000x, který na každém uzlu hostuje 12 disků, vydělíte počet operací IOPS disku číslem 96.
U uzlů řady X a NL byste měli očekávat, že se zobrazí maximálně 70 operací IOPS disku pro 100% náhodné pracovní postupy nebo maximálně 140 operací IOPS disku pro 100% sekvenční pracovní postupy. Protože uzly řady NL mají méně paměti RAM a nižší rychlost procesoru než uzly řady X, mohou uzly řady X zvládnout vyšší počet operací IOPS disku.
Ze strany uzlu a disku
- Navažte připojení SSH s libovolným uzlem v clusteru a přihlaste se pomocí účtu "root".
- Spuštěním následujícího příkazu zjistíte operace IOPS disku podle uzlu, což může pomoct zjistit disky, které jsou nadměrně využívány:
isi statistics query --nodes=all --stats=node.disk.xfers.rate.sum --top
- Spuštěním následujícího příkazu určete, jak se dotazovat na statistiku na jednotlivých discích:
isi statistics describe --stats=all | grep disk
Operace ve frontě
Dalším způsobem, jak zjistit, zda jsou disky nadměrně využívány, je určit, kolik operací je zařazeno do fronty pro každý disk v clusteru. U pracovních postupů na bázi SMB s jedním datovým proudem může fronta 4 položek signalizovat problém, zatímco u operací oboru názvů NFS s vysokou souběžností je fronta větší.
- Navažte připojení SSH s libovolným uzlem v clusteru a přihlaste se pomocí účtu "root".
- Spuštěním následujícího příkazu určete, kolik operací je zařazeno do fronty pro každý disk v clusteru:
isi_for_array -s sysctl hw.iosched | grep total_inqueue
- Určete latenci způsobenou operacemi fronty:
sysctl -aN hw.iosched|grep bios_inqueue|xargs sysctl -D
Procesor
Problémy s procesorem lze často vysledovat k operacím, které klienti provádějí v clusteru. Pomocí příkazu isi statistics můžete určit operace prováděné v clusteru, katalogizované pomocí síťového protokolu nebo klientského počítače.
- Navažte připojení SSH s libovolným uzlem v clusteru a přihlaste se pomocí účtu "root".
- Spuštěním následujícího příkazu určete, které operace se provádějí v celé síti, a vyhodnoťte, která z těchto operací trvá nejdéle:
isi statistics protocol --orderby=TimeAvg --top
Tento výstup příkazu poskytuje podrobné statistiky pro všechny síťové protokoly uspořádané podle toho, jak dlouho clusteru trvá, než odpoví klientům. Ačkoli výsledky tohoto příkazu nemusí určit, která operace je nejpomalejší, může vás navést správným směrem. - Spuštěním následujícího příkazu získáte další informace o zpracování procesoru, například o tom, které procesory uzlů se používají nejčastěji:
isi statistics system --top
- Spuštěním následujícího příkazu získejte čtyři procesy na každém uzlu, které spotřebovávají nejvíce zdrojů procesoru:
isi_for_array -sq 'top -d1|grep PID -A4'
Additional Information
Zde jsou doporučené zdroje související s tímto tématem, které by vás mohly zajímat: