Anzeige

Am Puls von Microsoft

Anzeige

System Blue Screen: whea_uncorrectable_error 0x00000124 & HAL.dll error

Anzeige
Ich habe mal ins letzte DMP geschautAls Prozess steht da (Explorer.exe, DWM.exe - Desktop Fenstermanager, Wallpaper64.exe ?) aber das sollte nicht der Auslöser sein sondern beim Explorerstart ist der Fehler aufgetreten. Und zwar wie oben schon geschrieben (0x124_GenuineIntel_PROCESSOR_TLB) . Hardwarefehler!
Nicht korrekt sitzender Prozessor, zu optimistische Einstellungen im Bios, falsche Spannungswerte, ?übertaktet? , Fehler im CPU- Cache oder Speichercontroller - auch Hardwaredefekt läßt sich nicht ausschließen
Da wird auch ein Win8-Treiberfehler angezeigt. Hast du das überhaupt auf deinem System?

Der Ari45 kann da tiefer Einsteigen als ich. Wird er später bestimmt auch machen.
Du kannst aber mal einen Beeper auf dein Motherboard stöpseln und dem System beim Start zuhören. Wenn nur ein Beep ertönt ist alles io. wenn es aber mehrere Töne sein sollten kannst du diese Protokollieren (lang-kurz-Folgen oder laut leise , je nach bios unterschiedlich) und die Anzahl der Töne und deren Kadenz hier mal mitteilen. Das sind dann schon beim Start durch das Bios erkannte Fehler in der Hardware oder Verbindungs- und Stromversorgungsfehler.

Dein Bios ist AMI: https://de.wikipedia.org/wiki/Liste_der_BIOS-Signaltöne#AMI-BIOS
 
Zuletzt bearbeitet:
Mahlzeit zusammen! :)
@tkmopped
Da wird auch ein Win8-Treiberfehler angezeigt. Hast du das überhaupt auf deinem System?
Das hat nichts zu sagen. Auch wenn man unter Windows 10 mit dem Debugger für Windows 10 arbeitet und man hat vorher Windows 10 clean installiert, wird "Win8-Treiberfehler" angezeigt, auch wenn es nichts oder nur entfernt etwas mit einem Treiber zu tun hat. Das ist mir anfänglich immer etwas komisch vorgekommen, jetzt ignoriere ich das einfach.

@all
Ich habe mir jetzt die letzten Dumpfiles angesehen, die alle eine Regelmäßigkeit ausweisen.
Zuerst wieder das Log (Auszugsweise) des Debuggers.
030817-5140-01.dmp
Code:
WHEA_UNCORRECTABLE_ERROR (124)
A fatal hardware error has occurred. Parameter 1 identifies the type of error
source that reported the error. Parameter 2 holds the address of the
WHEA_ERROR_RECORD structure that describes the error conditon.
Arguments:
Arg1: 0000000000000000, Machine Check Exception
[COLOR="#FF0000"]Arg2: ffff9084768cc028, Address of the WHEA_ERROR_RECORD structure.[/COLOR]
[COLOR="#008000"]Die Adresse des Error-Record, das einzige was bei 0x124 hilfreich ist.[/COLOR]
Arg3: 00000000f2000440, High order 32-bits of the MCi_STATUS value.
Arg4: 0000000000010019, Low order 32-bits of the MCi_STATUS value.
.....
PROCESS_NAME:  explorer.exe
....
STACK_TEXT:  
fffff803`cdb3ea38 fffff803`cbe4a27f : 00000000`00000124 00000000`00000000 ffff9084`768cc028 00000000`f2000440 : nt!KeBugCheckEx
fffff803`cdb3ea40 fffff803`cc0b434c : ffff9084`768cc028 ffff9084`75bba2d0 ffff9084`75bba2d0 ffff9084`75bba2d0 : hal!HalBugCheckSystem+0xcf
[COLOR="#FF0000"]fffff803`cdb3ea80 fffff803`cbe4a76c : 00000000`00000728 00000000`00000000 fffff803`cdb3ee70 00000000`00000000 : nt!WheaReportHwError+0x258[/COLOR]
[COLOR="#008000"]Nach schreiben des WHEA-Report wird im nächsten Schritt das System über BugCheckSystem beendet.[/COLOR]
fffff803`cdb3eae0 fffff803`cbe4aac4 : ffff9084`00000010 ffff9084`75bba2d0 fffff803`cdb3ec88 ffff9084`75bba2d0 : hal!HalpMcaReportError+0x50
fffff803`cdb3ec30 fffff803`cbe4a9ae : ffff9084`756ec660 00000000`00000001 00000000`00000000 00000000`00000000 : hal!HalpMceHandlerCore+0xe8
[COLOR="#FF0000"]fffff803`cdb3ec80 fffff803`cbe4abee : 00000000`00000004 00000000`00000001 00000000`00000000 00000000`00000000 : hal!HalpMceHandler+0xda[/COLOR]
[COLOR="#008000"]Hier wird der MachineCheckError-Handler gestartet.[/COLOR]
fffff803`cdb3ecc0 fffff803`cbe4ad70 : ffff9084`756ec660 fffff803`cdb3eef0 00000000`00000000 00000000`00000000 : hal!HalpMceHandlerWithRendezvous+0xce
fffff803`cdb3ecf0 fffff803`cbfdd5fb : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : hal!HalHandleMcheck+0x40
fffff803`cdb3ed20 fffff803`cbfdd384 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KxMcheckAbort+0x7b
[COLOR="#FF0000"]fffff803`cdb3ee60 00007fff`1feb27d0 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiMcheckAbort+0x184[/COLOR]
[COLOR="#008000"]Hier wird der MachineCheck unterbrochen, weil ein Fehler erkannt wurde[/COLOR]
00000000`10dfe438 00000000`00000000 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : 0x00007fff`1feb27d0
.....
[COLOR="#FF0000"]FAILURE_BUCKET_ID:  0x124_GenuineIntel_PROCESSOR_TLB
BUCKET_ID:  0x124_GenuineIntel_PROCESSOR_TLB[/COLOR]
....
[COLOR="#008000"]Den WHEA-Record abrufen[/COLOR]
0: kd> !errrec ffff9084768cc028
===============================================================================
Common Platform Error Record @ ffff9084768cc028
-------------------------------------------------------------------------------
Record Id     : 01d29851320b4613
Severity      : Fatal (1)
Length        : 928
Creator       : Microsoft
Notify Type   : Machine Check Exception
Timestamp     : 3/8/2017 21:17:35 (UTC)
Flags         : 0x00000000

===============================================================================
Section 0     : Processor Generic
-------------------------------------------------------------------------------
Descriptor    @ ffff9084768cc0a8
Section       @ ffff9084768cc180
Offset        : 344
Length        : 192
Flags         : 0x00000001 Primary
Severity      : Fatal

Proc. Type    : x86/x64
Instr. Set    : x64
[COLOR="#FF0000"]Error Type    : TLB error[/COLOR]
[COLOR="#008000"]Ein TLB-Fehler ist aufgetreten. Eine Speicheradresse konnte nicht richtig
zugeordnet werden[/COLOR]
Flags         : 0x00
Level         : 1
CPU Version   : 0x00000000000906e9
Processor ID  : 0x0000000000000000

===============================================================================
Section 1     : x86/x64 Processor Specific
-------------------------------------------------------------------------------
Descriptor    @ ffff9084768cc0f0
Section       @ ffff9084768cc240
Offset        : 536
Length        : 128
Flags         : 0x00000000
Severity      : Fatal

Local APIC Id : 0x0000000000000000
CPU Id        : e9 06 09 00 00 08 10 00 - bf fb fa 7f ff fb eb bf
                00 00 00 00 00 00 00 00 - 00 00 00 00 00 00 00 00
                00 00 00 00 00 00 00 00 - 00 00 00 00 00 00 00 00

Proc. Info 0  @ ffff9084768cc240

===============================================================================
Section 2     : x86/x64 MCA
-------------------------------------------------------------------------------
Descriptor    @ ffff9084768cc138
Section       @ ffff9084768cc2c0
Offset        : 664
Length        : 264
Flags         : 0x00000000
Severity      : Fatal

[COLOR="#FF0000"]Error         : GTLBL1_ERR (Proc 0 Bank 2)[/COLOR]
[COLOR="#008000"]Das ist die eigentlich wichtige Aussage: ein generischer TLB-Fehler
ist im L1-Cache aufgetreten. [/COLOR]
  Status      : 0xf200044000010019
Bei den anderen Dumpfiles sah es genau so aus, bis auf den beteiligten Prozess.
030817-5140-01.dmp der Fehler ist GTLBL1_ERR (Proc 0 Bank 2); beteiligter Prozess: Explorer.exe
030817-4515-02.dmp der Fehler ist GTLBL1_ERR (Proc 0 Bank 2); beteiligter Prozess: dwm.exe
030817-4078-01.dmp der Fehler ist GTLBL1_ERR (Proc 0 Bank 2); beteiligter Prozess: wallpaper64.exe
Bei den gestern untersuchten Dumpfiles sah das Ergebnis genau so aus, bis auf die beteiligten Prozesse.

Schlussfolgerung:
Der Fehler ist immer GTLBL1_ERR (Proc 0 Bank 2).
Das heißt, ein generischer TLB-Fehler (Adressübersetzungsfehler) ist immer bei Prozessor 0 in der Cache-Bank 2 eingetreten und betrifft den L1-Cache.
Das erhärtet die Annahme, dass der Fehler unmittelbar in der CPU zu suchen ist. In #20 hatte ich schon 5 (nach meiner Meinung) mögliche Ursachen aufgezählt.
Ich neige zu der Ansicht, dass die CPU (möglicher Weise durch Überhitzung) bereits Schaden genommen hat.

Ich gehe mal davon aus, dass aufgrund meiner Ausführungen #20 bereits Temperatur, Taktung und VCore überprüft wurden.
 
@Ari45 Danke für den Win8-Treiberfehler. Merk ich mir. Ich bin da auch nicht der Artist sondern eher der Handwerker - mit Ambitionen.
 
Ja @tkmopped, ich denke, man kann das mit ruhigen Gewissen ignorieren.
Im weiteren Verlauf des Debuggens stößt man garantiert noch mal auf einen Treiberfehler (wenn es einen solchen gibt) und kann dann mit lm <Treibername> den Treiber noch mal abfragen.
 
@tkmopped:

Beeper: Ein Beeper ist montiert und piepst einmal kurz beim hochfahren, also alles ok. Ich habe zusätzlich noch Kontrollleuchten am Motherboard. 4 Stück: DRAM, VGA, CPU und Boot. Beim Starten leuchtet jede einmal kurz auf, danach leuchtet Boot etwas länger, bis gebootet wird. Danach sind alle Lichter erloschen. Dürfte also alles ok sein!
CPU: Nach den BSoD habe ich den gesamten PC auseinandergebaut. Auch die CPU vom Sockel getrennt und die Kontakte mit einem Taschentuch gereinigt (beim auseinanderbauen habe ich etwas Wärmeleitpaste auf die Kontakte der CPU bekommen), bis sie alle wieder perfekt glänzten. Die CPU hat sicherlich festen Kontakt, ist bei weitem nicht der erste PC, den ich aufgebaut habe.


@Ari45:

Gemessen mit HWMonitor
CPU:
- 4,6GHz getaktet: ~ 35° bis 40°C im Leerlauf. ~ 60 °C unter Volllast. Takt 4,6GHz <-- Messwerte vor den BSoD (schon Wochen alte Messungen)
- Werkseinstellung: ~ 25 °C bis 29 °C im Leerlauf. ~ 40 °C bis 50 °C unter Volllast. Takt 4,2GHz (Immer 4,2GHz, auch im Leerlauf, müsste normal ja deutlich niedriger sein und nur wenn er Boostet auf 4,2GHz hochschrauben) <-- Messwerte nach den BSoD (gestern gemessen)

Die Temperaturen sind also jenseits von Böse. Die Temperaturmessungen im übertakteten Betrieb liefen über Stunden hinweg. Parallel dazu habe ich den Computer mit aufwendigen Videospielen beschäftigt.
Einen CPU Benchmark werde ich nicht mehr ausführen können, da zuvor ein BSoD kommen würde...

VCore:
Habe ein bisschen im Internet recherchiert und bin dabei auf folgende Seite getroffen: bit-tech.net. Hier wird die VCore auf 1,168V definiert, bei mir ist diese laut Abbildung, wesentlich höher (1,308V oder 1,295V!?). Könnte das der Fehler sein?
Anm.: Alles ist auf Werkseinstellungen

EDIT:
Hier ist ein Bild meiner HWMonitor-Messungen direkt nach Neustart mit zurückgesetzten min/max-Values (Bios in Werkseinstellungen):

EDIT 2.0:
Ich habe die VCore im Bios jetzt auf 1,170V gestellt und mein PC läuft jetzt schon seit 5 Minuten ohne Absturz (normal alle 2 Minuten). Sobald ich einen BSoD bekomme, werde ich mich wieder melden!
 

Anhänge

  • Unbenannt.PNG
    Unbenannt.PNG
    326,9 KB · Aufrufe: 143
  • Unbenannt2_LI.jpg
    Unbenannt2_LI.jpg
    127,6 KB · Aufrufe: 144
Zuletzt bearbeitet:
Die Standardwerte deiner CPU kenne ich jetzt nicht auswendig. Nachgeschaut - der Takt sollte wohl 3,8 GHz sein und der Turbo 4,2GHZ Spannung 1,2 - 1,35V. Das sind aber keine ständig anliegenden Werte sondern diese Schwanken je nach Belastung.
Wenn du ständig bei 4,2 bist hast du schon übertaktet und wenn du schreibst 4,6 GHz auf alle Fälle. Übertakten soll man ja nur wenn man genau weiß was man eigentlich macht und dann auch nur bis zu der Stelle an welcher das System instabil wird. Und man soll sich auch die Frage stellen : Wozu brauche ich das eigentlich?
Dein Bios bietet bestimmt schon eine voreingestellte Erhöhung des Standardtaktes an. Diese ist aber auch an Bedingungen gebunden. Teurerer Speicher!!, stabileres Netzteil, höherwertiger CPU-Kühler!!, sauberer Airflow im Gehäuse usw.
Das sieht erstmal so aus , das dort alles passen sollte aber das zusammenspiel von CPU und Ram ist nochmal eine andere Geschichte. Vor allem das Ram muß man bei Problemen penibel im Bios kontrollieren. Alle Werte - Spannung, Latenzen, eingebaut in welche Ports. Und wenn es dann instabil wird ist es eben zu scharf gewesen für ein Bauteil in der Kette. Da kann man auch schnell mal sein Geld verbrannt haben, im wahrsten Sinne des Wortes. Das ist eben von der Leistungssteigerung abgesehen immer eine Materialschlacht und nur ein Sport für solche die das letzte bischen Leistung "brauchen" und Geld nur die dritte Geige spielt. Ansonsten ist eine schnellere CPU innerhalb des Standardtaktes immer die bessere Wahl.
Wir wissen jetzt zwar wie schnell deine CPU momentan ist aber nicht , wie schnell sie schonmal vorher war. Strukturen von 14 nM, da braucht es nicht viel zur Überlastung. Die CPU sollte dann zwar selber "Notabschalten" aber gesund ist das nicht.
 
Anzeige
Oben