Base de connaissances

Failure modes and Effects Analysis Oracle 9i RAC sous Linux via aux meilleures pratiques Dell. - KB Article - 133176


Plans d'urgence

Figure 1 - Une panne Tolérance solution conçue l'utilisation de Dell les meilleures pratiques

à caractère critique les solutions doivent permettre la possibilité d'une panne de module. Étant donné la probabilité qu'une défaillance de ces composants dans une solution complexe sur une certaine période de temps est non négligeables, une solution conçue pour résister aux défaillances de composants est indispensable pour de nombreuses entreprises. Un autre primordiale requis pour faire face à ces échecs est la planification à l'avance. Les meilleures pratiques Dell permet aux administrateurs dans une entreprise pour créer des solutions qui peuvent résister composants. Un exemple Oracle 9i Database solution est indiqué dans la Figure 1. Cette solution créée conformément aux meilleures pratiques de Dell comptes pour les composants des défaillances. Avec un mécanisme de sauvegarde et de récupération de la sous-système de stockage, cette solution supprime tous les points d'échecs.



récupération en cas de sinistre

Les utilisateurs de l'entreprise, il est primordial qu'ils ont une récupération en cas de sinistre bien définis. Un tel plan permettent au service de base aux administrateurs de restauration dans un minimum de temps, et la plus complète du contenu, base après une grave et production inattendues interruption du service.Les sections suivantes présentent une autre sauvegarde et récupération méthodologies disponibles.

sauvegarde sur bande

peu coûteux méthodologie de sauvegarde est sauvegarde sur bande. L'utilisation des outils tiers, tels que LEGATO NetWorker™ logiciels ou Veritas BackupExec ™, des sauvegardes régulières peut être effectué sur un lecteur de bande et les bandes peuvent être stockées hors site. Si les données est endommagé, puis les bandes peut être utilisée pour restaurer la base de données à un moment donné. Pour une analyse détaillée de deux manières de solutions de sauvegarde sur bande bases de données utilisent 9i RAC LEGATO NetWorker, reportez-vous au livre blanc la sauvegarde et la restauration une base de données Oracle.

Mise en miroir synchrone

EMC MirrorView comporte des applications telles que la mise en miroir synchrone™ qui fournissent des données entre différents réseaux SAN. Le second SAN de sauvegarde toujours avoir une copie des données de production sur le site principal. Ainsi, si le site principal étaient défaillants, le second système peuvent être mis en ligne très rapidement. Cette configuration permet aux administrateurs de maintenir une sauvegarde à chaud de la base de données.

EMC SnapView™’s permet aux administrateurs de capturer un instantané des instantanés des données de production. , en cas de panne par un réseau SAN un lecteur de disque défaillant, du SAN peuvent être rapidement restauré à la pré-défaillance étape avec seulement un simple disque un remplacement.

Pour un livre blanc sur la création d'une sauvegarde à distance du réseau SAN, reportez-vous au livre blanc avec SnapView et MirrorView de sauvegarde à distance.



défaillance de composants et de leurs effets

En dépit de tous les tests effectués, il ne peut pas être idéalement devrait supposent que un composant actif dans un système jamais. Tous les composants de ces solutions complexes mais conçues pour respecter normes de qualité strictes peut être censé échouent sur de longues périodes. Les sections suivantes décrivent en détail le comportement prévu de ces composants défectueux sur le Oracle 9i Database solution, et la manière de réduire les effets de ces échecs.

Défaillance de composants serveur

  • disques internes - Si la base de données Oracle est en cours d'exécution sur un seul disque, et le disque est défectueux, l'administrateur doit remplacer le disque interne et installez Oracle nouveau sur ce nœud. Après avoir installé le logiciel sur le système, consultez Dell Guide de déploiement sous la section que les détails comment ajouter un nouvellement déployées nœud au cluster.

    Mais les meilleures pratiques exigent que les disques internes qui héberge le système d'exploitation ainsi que du logiciel de base être installé au moins configuration RAID de niveau 1, et que les administrateurs plan de quelques disques de rechange. tous les plates-formes Dell pris en charge disques durs enfichables à chaud, si un seul disque, sur ce type de configuration RAID étaient défaillants, le disque ne peut être facilement retiré et remplacé par un autre sur un système, sans aucun impact sur le fonctionnement du cluster. Pour plus d'informations sur comment reconstruire un disque défectueux, consultez la documentation fournie avec votre carte PERC ou le ROMB qui a été fourni dans le système.

  • Le processeur (CPU) - Si un nœud avec une unité centrale unique étaient défaillants, le système peut s'arrêter. base de données Oracle cluster logiciel a les renseignements à prendre ce type de nœud défaillant de son cluster. Ce processeur-ci doit être remplacé par un autre un immédiatement. Si le nœud dispose de plusieurs processeurs, et une unité centrale unique échoue, ce système également arrêter. Mais pour permettre à ce noeud à fonctionner temporairement jusqu'à ce que le nouveau processeur est fourni, le a échoué CPU peut être extraite de le système et le système peut être redémarré. Le seul impact négatif du système avec un processeur sera moindre réduire les performances sur un système.

    Une fois le processeur a été remplacé, démarrez la base de données sur ce nœud. Ce nœud ne rejoindre le cluster sans intervention de l'administrateur.

  • nœud de serveur - En cas de panne d'un nœud, la base de données Oracle logiciel retirez le noeud du cluster. Cela signifie que les performances de l'ensemble du cluster serait réduit seulement en raison d'un manque nœud. En attendant, un nouveau nœud doivent immédiatement être fourni et installé. Pour ajouter ce noeud au cluster, consultez Dell Deployment Guide sur comment ajouter un nouveau nœud à un cluster.

    La santé des nœuds peuvent être contrôlée avec SNMP outils tels que Dell OpenManage Server Administrator. Pour obtenir plus d'informations sur l'pour automatiser le suivi, reportez-vous au papier PowerSolutions l'utilisation de Server Administrator pour Automatiser le contrôle du serveur santé.

interconnexion de cluster

  • privé des pannes carte d'interface réseau (NIC) - Dans les cas où l'interface privée échoue, du logiciel de base, que nœud, comme un nœud défaillant, et que vous supprimez du cluster. Ce qui pourrait entraîner une baisse des performances pour l'ensemble du cluster. Pour restaurer une défaillance, retirez la carte d'interface réseau (NIC) du système (ou de désactiver dans le BIOS s'il est sur la carte mère) et insérez une nouvelle carte NIC. En outre, si vous exécutez OCFS, puis arrêtez le service cfs, supprimez la dernière ligne du fichier /etc/ocfs.conf, lancez à nouveau ocfs_uid_gen -cet lancez la cfs et ocmstart service. Sur la confirmation que ce noeud peut communiquer avec tous les autres nœuds du cluster, démarrez la base de données sur ce nœud. logiciel Oracle permet le nœud à rejoindre le cluster avec peu une intervention administrateur.

    Pour éviter les répercussions négatives de l'interface défaillance, meilleures pratiques de Dell recommandons le regroupement, permettant ainsi une interface redondant pour les connexions réseau. En cas de panne d'une seule interface, la présence de l'autre interface offre suffisamment la redondance que la panne paramétrages risque pas le fonctionnement du cluster, comme le basculement serait instantanées. Pour configurer le regroupement, consultez la section « Configuration d'interconnexion redondante » dans le Guide de déploiement.

  • commutateur du réseau privé - Si l'ensemble du réseau privé échoue, cela provoquerait tous les nœuds de diminuer. Un utilisateur à partir du réseau externe ne sera pas en mesure d'accéder à la base de données. Pour récupérer une telle défaillance, remplacez-le et après avoir confirmé que tous les nœuds peuvent communiquer entre eux, démarrez la base de données sur tous les nœuds. Les noeuds rejoindre le cluster eux-mêmes.

    Comme une protection pour éviter contre de telles défaillances, le teaming peut être utilisé en association avec deux commutateurs redondants. Cette commande crée deux réseaux privés, et que la défaillance d'un réseau ne doit pas tous les la base de l'arrêt sur tous les nœuds. Si un commutateur dans cette configuration étaient défaillants, il peut prendre la autre commutateur jusqu'à 90 secondes pour prendre la relève et depuis le cluster Manager est défini sur 200 secondes sur Dell installe, la transition ne requiert aucune intervention de l'administrateur.

Connexion LAN

carte d'interface réseau externe : Si l'interface externe échoue, les utilisateurs externes, perte de connexion à ce noeud. Le noeud ne sera pas être retiré du cluster, car il continuer à répondre à d'autres nœuds de l'interface privée. Ainsi, le performances du cluster est dégradé, comme le reste des nœuds prend en charge les utilisateurs déjà cours de routage de ce nœud. Pour restaurer une défaillance, l'arrêt du noeud, puis remplacez l'interface est en panne (ou commutateur hors tension dans le BIOS s'il s'agit d'une interface intégré et remplacer par une carte d'interface). Après la commutation le système, assurez-vous qu'il peut communiquer avec tous les autres nœuds sur le réseau externe. Une fois la base de données sur ce nœud est démarré, ce noeud permet de rejoindre le cluster.

Pour vous assurer que contre les pannes de réseau par ailleurs, Dell recommande d'utiliser leur regroupement et des commutateurs externes.

Structure de commutateurs Fibre Channel

adaptateur de bus hôte (HBA) : en cas de défaillance de l'adaptateur HBA sur un système, le noeud ne sera pas en mesure de voir l'unité de stockage externe Fibre Channel. Ceci entraîne le nœud à être extraite de du cluster. Remplacez l'adaptateur HBA sur ce nœud et sur les outils de gestion SAN, reconfigurez la carte HBA à participer au même groupe de stockage qu'il était précédemment. Une fois le noeud peut détecter le stockage partagé, le redémarrage la base de données sur le nœud peut provoquer d'être rejoint dans le cluster.

Pour éviter ce problème, meilleures pratiques de Dell vous recommandons solution de base est déployé avec au moins deux cartes HBA en association avec EMC’s logiciel PowerPath. Ce permet la création de chemins redondants au réseau SAN à partir du nœud. Dans les conditions normales, le plusieurs chemins fournira charge d'E/S distribution. En cas d'un seul adaptateur HBA, l'autre chemin pourrait empêcher la base de s'arrêter. Le système peut effectuer, mais à réduire les performances, jusqu'à ce que la carte HBA est remplacé. Pour installer PowerPath sur une base de données, consultez le fonctionnels les articles suivants de la base de connaissances intitulé « Migration d'un OCFS en OCFS avec PowerPath base”, et « Migration d'un OCFS en OCFS avec PowerPath base”

commutateur Fibre Channel : un commutateur Fibre Channel défaillance signifie que toutes les chemins de tous les nœuds au SAN sont bloquées. Cela entraîne la base de l'arrêt sur tous les nœuds. Pour restaurer une défaillance, remplacez le commutateur à canal fibre optique et redémarrez la base de données sur tous les nœuds après avoir vérifié que chaque noeud peut détecter le système de stockage partagé.

Pour minimiser les risques liés à une défaillance, administrateurs de bases peut installer PowerPath sur le cluster, et en utilisant deux ou plusieurs cartes HBA sur chaque nœud et deux commutateurs à canal fibre optique créer au moins deux chemins de chaque nœud au réseau SAN. Ainsi, même si l'un de ces commutateurs étaient défaillants, l'autre chemin s'agit toujours conserver la base fonctionnel, avec certains dégradation des performances jusqu'à ce que le commutateur est remplacé. Pour installer PowerPath sur une base de données, consultez le fonctionnels les articles suivants de la base de connaissances intitulé « Migration d'un OCFS en OCFS avec PowerPath base”, et « Migration d'un OCFS en OCFS avec PowerPath base”

sous-système de stockage : en cas de panne sous-système de stockage, les risques de perte de données est très élevé. une défaillance pourrait causer la base de données sur arrêter, comme aucun des nœuds ne sera en mesure d'accéder au stockage.

Si le système de stockage défaillance est dû à un composant, tel qu'un bloc d'alimentation ou à un processeur de stockage, facilement remplacée, la perte de données peut ne pas être très élevé. Sur le remplacement du composant affecté, le système de stockage peut être mis sauvegarder facilement. Mais si certaines de ces disques sont concernés, puis les données réelles seront perdues. Meilleures pratiques de Dell recommande la configuration des groupes de stockage dans au moins une configuration RAID 5. Il s'agit permettre une protection des données, mais une solution de sauvegarde est une condition requise pour éviter toute perte en cas de défaillance. solution de sauvegarde sur bande peut être utilisé pour effectuer des sauvegardes régulières de votre solution SAN. Si une entreprise ne peut permettre de la base, même pour une très peu de temps, le réseau SAN en miroir avec une sauvegarde à chaud.



Présentation de clusters Oracle

tri-neuf ou 99.9 % disponibilité dans un système signifie qu'il est en panne pendant environ 8 heures et 46 minutes en une seule année. En fonction de ce que le système est, le coût d'une entreprise d'un tel un temps d'inactivité peut signifier jusqu'à 5 millions de dollars (par groupe standish 2001). solutions Oracle 9i RAC sont oft optimisé pour bases stratégiques où la disponibilité et la prévisibilité sont essentielles ; planification appropriée peuvent vous aider à éviter une défaillance se reproduise, et la meilleure le basculement sur l'ensemble se produit, la préservation disponibilité du système. Dans ce document, le auteurs ont tenté de la documenter le comportement d'une grappe de base en cas de défaillance de composants, ainsi que les meilleures pratiques à éviter une défaillance et de la récupérer en cas le cluster ne fonctionne pas.

Présentation de clusters

Oracle cluster Oracle se compose de jusqu'à 8 serveurs Dell, un système de stockage partagé (réseau de stockage – SAN ou Dell stockage SCSI PowerVault), Red Hat Linux 2.1 Advanced Server et d'Oracle 9i Database. Avec un réseau SAN est utilisé comme système de stockage, puis un réseau Fibre Channel, en utilisant un commutateur Fibre Channel Brocade, est utilisé pour la connecter à des serveurs. de stockage SCSI, un câble SCSI entre le nœud et l'unité de stockage suffit.

Oracle RAC clusters nécessitent un privé et un réseau public. Le réseau privé utilise les cartes Gigabit Ethernet sur les serveurs, qui sont connectés via un commutateur Dell PowerConnect. communication entre principal nœuds mis en cluster se passe sur le réseau privé. clients et les autres serveurs d'application accès à la base sur le réseau public.

Dell travaille avec Oracle pour développer l'installation routines de cette solution. La solution ainsi installé est un étroitement liée la configuration et les utilisateurs doivent veiller installer d'autres logiciels (y compris les pilotes et les utilitaires), pour vous assurer qu'ils sont compatibles avec la version de noyau et d'autres logiciels déjà installé.

Développement multi Corporation effort de la

solution et tests’s développement de composants est un effort effectués par chacun des fournisseurs indépendamment. Chacun des fournisseurs leurs composants sujets à une vaste cycle de tests, avant que Dell intègre dans les solutions Oracle. Le système d'exploitation de base est conservé et testés par Red Hat. Dell et EMC développer le matériel et les composants, y compris les serveurs et le stockage. Le 9i RAC logiciel est développé par Oracle.

Test de solution par Dell

en plus de développer une partie des matériels pièces et l'installation routines pour le logiciel Oracle 9i, Dell Computer Corporation exécute la totalité solution intégrée à l'aide d'un test complet cycle. Pour une couverture de test pour tous les plates-formes pris en charge, Dell teste de nombreux Permutations de la base configurations. Ce test recouvre le fonctionnement des différentes plates-formes avec les différents systèmes de stockage principal pour vous assurer que la solution est entièrement opérationnel. Le test méthodologies suivies par Dell vous assurer que interconnexions fonctionnent correctement, et qu'il n'y a pas Assertions entre les composants de la solution de base. Extended essais de contrainte sont également effectués sur la solution avant leur publication à des clients externes. La contrainte tests tests TPCC simuler une charge.



 


Le contenu des Conseils Pratiques est publié par les professionnels du support technique Dell eux-mêmes, ces derniers résolvant les problèmes techniques au quotidien. Afin de parvenir à une publication rapide, les Conseils Pratiques consistent simplement en des solutions partielles ou de nouvelles approches qui sont encore en cours de développement ou en attente de validation. Dans la mesure où ces Conseils pratiques n’ont pas été revus, validés ou approuvés par Dell, ils doivent être utilisés avec précaution. Dell ne saurait être responsable de toute perte, y compris, mais de façon non exhaustive, la perte de données, la perte de profit ou de revenu que les clients pourraient subir à l’occasion de la mise en pratique des Conseils exposés sur cette page.

ID de l'article : SLN108952

Date de la dernière modification : 08/12/2010 00:00


Noter cet article

Précis
Utile
Facile à comprendre
Avez-vous trouvé cet article utile ?
Oui Non
Envoyez-nous vos commentaires
Les commentaires ne doivent pas contenir les caractères spéciaux : <>()\
Désolé, notre système de collecte des commentaires est actuellement indisponible. Veuillez réessayer ultérieurement.

Merci pour vos commentaires.