LInux: Comment diagnostiquer / isoler ce qui cause des blocages "aléatoires" et des redémarrages spontanés?

( Publié à l' origine sur serverfault )

Donc, plutôt que de deviner quelle est la cause (bien que mon argent soit sur les pilotes de nvidia), où commencez-vous à trouver quelques faits?

J'ai traversé / var / log à plusieurs reprises, mais il y a beaucoup de choses là-dedans et je ne peux pas (encore) repérer les bits importants.

Contexte: la version courte

Je suis passé de WinXP à Ubuntu Karmic juste après sa disponibilité.

Depuis lors, j'ai eu une série de collisions apparemment aléatoires qui se manifestent comme étant:

  • Un redémarrage spontané
  • Un verrouillage complet avec mon clavier USB et la souris ne répondant pas (jusqu'à ce que les LED s'éteignent). En outre, je ne pourrai généralement pas ssh à la boîte lorsque cela se produit.

J'ai fait beaucoup de recherches et Nvidia semble être le principal suspect, mais je ne sais pas où commencer à chercher à déterminer quelle est la cause réelle.

Un utilisateur serverfault a suggéré de vérifier la RAM avec MemtextX86 +. Aucune erreur trouvée. La surveillance de la température de la carte vidéo a également été suggérée, ce que je regarde maintenant.

Autre que, suggestions de quelqu'un?

Contexte: la longue version

Parfois, je peux passer une semaine entière sans crash puis avoir 5 à 2 jours.

Motivé par le désir d'éliminer les suspects possibles, j'ai fait quelques changements dans le temps sans succès:

  • À l'origine, j'ai utilisé KVM pour la virtualisation, j'utilise maintenant VirtualBox OSE
  • J'ai eu NFS en cours d'exécution dans le noyau, mais maintenant, utilisez Samba
  • J'utilisais Compiz, mais j'avais désactivé
  • J'ai roulé de 64 bits Karmic à 32 bits (pour d'autres raisons aussi)
  • J'ai essayé Ubuntu, Kubuntu et Xubuntu. Même problème à chaque fois (bien que tard, il semble être plus fréquent chez Gnome que dans XFCE).
  • J'ai roulé le pilote Nvidia de la version 185 à la version 96 (NVIDIA Linux x86 Kernel Module 96.43.13 jeu. 25 juin 18:42:21 PDT 2009). Cela semble avoir réduit la fréquence d'erreur.

En ce qui concerne ce qui fonctionne à l'époque, cela peut varier. Les points suivants sont communs mais ne fonctionnent pas nécessairement pour chaque accident:

  • Firefox 3.5
  • VirtualBox OSE avec 1 ou 2 machines virtuelles Windows XP
  • Skype
  • Rhythmbox ou Exaile

Mon matériel est de 2 à 3 ans:

  • Core 2 Duo 6300
  • 4 Go de RAM
  • Une carte mère Intel de ce millésime
  • Une carte vidéo Asus à double tête avec le chipset Nvdia GeForce 7300 GS
  • 2 disques durs SATA
  • Double moniteurs (donc je compte sur les pilotes nvidia propriétaires)

Je me suis tenu compte des mises à jour de mon système.

J'espère que les données ci-dessus pourraient inciter quelqu'un à suggérer un type spécifique de journal ou de configuration qui vaut la peine d'être étudié.

Mise à jour 1

Il a eu un accident dans lequel les haut-parleurs sont devenus fous. Avez-vous fait un googling et semble que PulseAudio a eu quelques problèmes dans le passé. Je ne sais pas encore si cela est pertinent, mais PulseAudio aura fonctionné chaque fois que j'avais un crash.

Mise à jour 2

Après le lien @ CarlF vers le Guide Debian Sysadmin m'a conduit à la clé sysrq magique que je vais essayer au prochain crash. Ce n'est pas que cela me donnera beaucoup d'indices quant à la cause, mais au moins, j'espère pouvoir m'arrêter gracieusement.

Mise à jour 3

Lm-sensors rapporte que mon GPU fonctionne à près de 70C / 158F – intéressant. Si je devais deviner, je dirais que c'est un indice important.

Mise à jour 4

Frappez l'intérieur du système avec un diffuseur peu après ma dernière mise à jour – résultat net: un seul crash depuis lors. Je vais appeler cela un problème thermique.

Il existe de bons conseils du Guide de l'administrateur Debian ici: http://www.debian-administration.org/articles/492

La première chose que vous souhaitez vérifier s'il y a des problèmes de matériel pendant le démarrage. Le processus de démarrage enregistrera les données du tampon du noyau de noyau dans /var/log/boot.log . Une fois le système démarré, de nouveaux messages sont vidés dans ce tampon et vous pouvez afficher l'état actuel avec la commande dmesg . Un journal important que vous voudrez également étudier est /var/log/messages . Cela contiendra des horaires, des installations et les priorités des erreurs et de l'application qui les a générés. Le fait d'avoir une horodatage disponible est un atout précieux lors des erreurs de débogage.

Cependant, les blocages aléatoires ont définitivement du matériel sonore. Essayez de réinstaller tout le matériel sur la carte mère et de lui donner une session memtest86 + .

Avez-vous essayé de recharger votre mémoire, votre processeur et d'autres puces? De plus, vous pouvez essayer d'exécuter un autre OS (FreeDOS) pour éliminer certaines possibilités.

En tant que conseil, vous devriez également pouvoir utiliser deux moniteurs très bien à travers Gnome sans utiliser les pilotes nvidia.