( Publié à l' origine sur serverfault )
Donc, plutôt que de deviner quelle est la cause (bien que mon argent soit sur les pilotes de nvidia), où commencez-vous à trouver quelques faits?
J'ai traversé / var / log à plusieurs reprises, mais il y a beaucoup de choses là-dedans et je ne peux pas (encore) repérer les bits importants.
Contexte: la version courte
Je suis passé de WinXP à Ubuntu Karmic juste après sa disponibilité.
Depuis lors, j'ai eu une série de collisions apparemment aléatoires qui se manifestent comme étant:
J'ai fait beaucoup de recherches et Nvidia semble être le principal suspect, mais je ne sais pas où commencer à chercher à déterminer quelle est la cause réelle.
Un utilisateur serverfault a suggéré de vérifier la RAM avec MemtextX86 +. Aucune erreur trouvée. La surveillance de la température de la carte vidéo a également été suggérée, ce que je regarde maintenant.
Autre que, suggestions de quelqu'un?
Contexte: la longue version
Parfois, je peux passer une semaine entière sans crash puis avoir 5 à 2 jours.
Motivé par le désir d'éliminer les suspects possibles, j'ai fait quelques changements dans le temps sans succès:
En ce qui concerne ce qui fonctionne à l'époque, cela peut varier. Les points suivants sont communs mais ne fonctionnent pas nécessairement pour chaque accident:
Mon matériel est de 2 à 3 ans:
Je me suis tenu compte des mises à jour de mon système.
J'espère que les données ci-dessus pourraient inciter quelqu'un à suggérer un type spécifique de journal ou de configuration qui vaut la peine d'être étudié.
Mise à jour 1
Il a eu un accident dans lequel les haut-parleurs sont devenus fous. Avez-vous fait un googling et semble que PulseAudio a eu quelques problèmes dans le passé. Je ne sais pas encore si cela est pertinent, mais PulseAudio aura fonctionné chaque fois que j'avais un crash.
Mise à jour 2
Après le lien @ CarlF vers le Guide Debian Sysadmin m'a conduit à la clé sysrq magique que je vais essayer au prochain crash. Ce n'est pas que cela me donnera beaucoup d'indices quant à la cause, mais au moins, j'espère pouvoir m'arrêter gracieusement.
Mise à jour 3
Lm-sensors rapporte que mon GPU fonctionne à près de 70C / 158F – intéressant. Si je devais deviner, je dirais que c'est un indice important.
Mise à jour 4
Frappez l'intérieur du système avec un diffuseur peu après ma dernière mise à jour – résultat net: un seul crash depuis lors. Je vais appeler cela un problème thermique.
Il existe de bons conseils du Guide de l'administrateur Debian ici: http://www.debian-administration.org/articles/492
La première chose que vous souhaitez vérifier s'il y a des problèmes de matériel pendant le démarrage. Le processus de démarrage enregistrera les données du tampon du noyau de noyau dans /var/log/boot.log
. Une fois le système démarré, de nouveaux messages sont vidés dans ce tampon et vous pouvez afficher l'état actuel avec la commande dmesg
. Un journal important que vous voudrez également étudier est /var/log/messages
. Cela contiendra des horaires, des installations et les priorités des erreurs et de l'application qui les a générés. Le fait d'avoir une horodatage disponible est un atout précieux lors des erreurs de débogage.
Cependant, les blocages aléatoires ont définitivement du matériel sonore. Essayez de réinstaller tout le matériel sur la carte mère et de lui donner une session memtest86 + .
Avez-vous essayé de recharger votre mémoire, votre processeur et d'autres puces? De plus, vous pouvez essayer d'exécuter un autre OS (FreeDOS) pour éliminer certaines possibilités.
En tant que conseil, vous devriez également pouvoir utiliser deux moniteurs très bien à travers Gnome sans utiliser les pilotes nvidia.