Anzeige

Am Puls von Microsoft

Anzeige

BSOD und Einfrieren

Ampere

Herzlich willkommen
Hallo Leute,

ich komme gleich zur Sache. Es geht im einen BSOD und ich sitze und probiere nun schon seit Monaten ihn loszuwerden. Ich komme nicht dahinter, was hier los ist. Aus dem Minidump werde ich nicht schlau.

Mein System: (KEIN OC)
Win10 64bit
Intel SSD 530 240GB
WD Black 1TB 64MB
Asrock Z97 Extreme4
I7-4790k
GSkill DDR3 4*4GB 2400MHz CL10
Gigabyte 280x
Corsair AX750 750Watt


Symptome:
-Meistens wird der Bildschirm grau und der PC friert komplett ein. (siehe Bild-Bild nicht von mir selbst)
-Dann muss ich mit "Gewalt" neu starten, also mit Reset oder Power Knopf.
-Selbst die Resettaste reagiert nicht immer, dann stecke ich einfach aus.
-Nur selten schafft es Windows noch sachgerecht neu zu starten und einen Bluescreen anzuzeigen.
-Aus den Lautsprechern kommt nur das Geräuch eines Rechteckimpulses (die Techniker unter euch sollten es kennen).
-Kurz bevor der Absturz oder Einfrierer kommt wird das Bild komisch fleckig (siehe Anhang)
WP_20161130_12_31_46_Pro.jpgWP_20161121_23_06_46_Pro.jpg2013-03-16 20.49.02.jpg

Minidump:
Anhang anzeigen Minidump.zip

Wann kommt es zu dem Problem?
Fast nur, wenn ich zocke. Selten im Desktopbetrieb bei Nutzung von simplen Programmen

Bei welchen Spielen ist der Fehler schon aufgetreten?
Banished, 7 Days to Die, War thunder, Cities Skylines, Day of Infamy
Bei welcher Software?
Jaikoz Autotagger, Firefox

Was habe ich unternommen:
-Memtest86 laufen lassen
-Video Memory Stress Test 4 Stunden lang im Loop den VRAM getestet.
-CristalDiskInfo auf Fehler prüfen lassen
-Intel SSD Tool auf Fehler prüfen lassen
-SSD Firmware aktualisiert
-Jeden RAM-Riegel einzeln mit Memtest getestet
-Habe von den 4 Riegelen nur jeweils 2 bei Standardwerten betrieben. Auch hier kommt es zu Bluescreens.
Jeweils beide Riegelpaare sind in beinen Kanälen betrieben worden (Immer Paarweise).
-Systemdatein mit Befehl sfc /scannow geprüft. Hat keine Integritätsverletzungen gefunden, also keine Fehlende oder beschädigte Systemdatein.
-Neu aufgesetzt
-Stresstest mit Prime95 >1h
-Windows Speicherdiagnose mehrfach
-Furmark >1h
-Stresstest Sisoft Sandra
-Treiber aktualisieren
-UEFI aktualisiert
-Stresstest mit Prime95 >1h
-Temperaturen kontrolliert mit HWMonitor (alles im grünen Bereich)

Ich bitte im Hilfe, bei der Interpretation der Dumpfiles.
 

Anhänge

  • WP_20161009_19_47_14_Pro[1].jpg
    WP_20161009_19_47_14_Pro[1].jpg
    7,9 KB · Aufrufe: 106
  • WP_20161130_12_31_46_Pro.jpg
    WP_20161130_12_31_46_Pro.jpg
    8 KB · Aufrufe: 99
  • WP_20161121_23_06_46_Pro.jpg
    WP_20161121_23_06_46_Pro.jpg
    10 KB · Aufrufe: 109
Zuletzt bearbeitet:
Anzeige
-Video Memory Stress Test 4 Stunden lang im Loop den VRAM getestet.

heißt nix, das Tool is uralt und wurd nie wieder geupdated. Die Grafikfehler deuten eindeutig auf einen Defekt der Grafikkarte hin, alternativ kann auch das Netzteil das Problem sein. Genau sagen kann man dir das nicht, hilft nur die Komponenten auszutauschen gegen irgendwas anderes halt. NT sollte das geringste Problem sein, vielleicht kennste ja wen der noch eins inner Ecke liegen hat (gleiches gilt für ne andere Grafikkarte)
 
Alles klar, dann werde ich mit einer aktuellen Software auch noch einmal testen. Netzteil ist derzeit auch mein Favorit.
Ich werde Ausschau nach einem Ersatz halten, den ein Bekannter vielleicht herumliegen hat.
 
Ich geh eher direkt auf die Grafikkarte, die Dumps sprechen auch fürn Speicherproblem eigentlich und RAM kannste nach deinen Tests quasi ausschließen. Die Grafikfehler sprechen selbstredend auch für ein Problem mit der Grafikkarte bzw deren Speicher. Kannst dir ja schon mal überlegen ob du dir zu Weihnachten nicht selber ne 1070 schenken willst so wie ich das bei mir auch tun werde :ROFLMAO:

Aber evtl hab ich was in den Dumps übersehen, Ari wird hier sicherlich gleich rein schauen und sich die Dateien auch mal angucken ;)
 
Also du meinst die Dumps zeigen ein Problem mit dem VRAM oder RAM?

Eine 1070 schmeichelt mir schon sehr, aber ich will noch auf die Konkurrenz warten, vielleicht lockern die noch die Preisschraube...
Dass der Reset Knopf nicht reagiert, ist aber wiederum ein Netzteil/MoBo-Problem. :wand
 
Nö warum sollte das mit dem Resetknopf nen Problem des Boards/Netzteils sein? Wenn dir die Möhre komplett verreckt kanns schon durchaus sein, dass selbst der Knopf nicht reagiert (oder erst wenn du 15-20 Sek gedrückt hältst)
 
Mein Gedanke ist, dass das Reset-Signal ja an das Netzteil gelangen muss. Das geht über den Pin 8 PWR_OK des ATX-Steckers am Mobo. Soweit ich informiert bin gibt gibt das MoBo ein Signal an alle Komponenten, dass die Spannung gleich weg ist. Dann kommt es zum abstellen der Spannung und das NT startet von forne. Wenn also der Reset-Knopf nicht reagiert muss in dieser Befehlskette was nicht passen denke ich.
 
Hallo @Ampere! Willkommen im Forum! :)
Habe mir die Dumpfiles runter geladen. Das Debuggen kann ein Weilchen dauern. Ich melde mich wieder.
 
Mein Gedanke ist, dass das Reset-Signal ja an das Netzteil gelangen muss. Das geht über den Pin 8 PWR_OK des ATX-Steckers am Mobo. Soweit ich informiert bin gibt gibt das MoBo ein Signal an alle Komponenten, dass die Spannung gleich weg ist. Dann kommt es zum abstellen der Spannung und das NT startet von forne. Wenn also der Reset-Knopf nicht reagiert muss in dieser Befehlskette was nicht passen denke ich.

Kleiner Tipp: Denk nicht so viel ;) [das trifft übrigens auf viele Lebenslagen zu :ROFLMAO: zuviel Denken macht alles nur komplizierter]
 
So, da bin ich wieder.
Zuerst eine kurze Info für die anderen Hlfer:
Das System ist nicht übertaktet, das BIOS ist vom Juli 2016, also relativ neu, die RAM-Module stecken in Bank 1 und Bank 3, also Slot 2 und Slot 4 und sind von gleichen Hersteller. Die Modulkennung ist nicht in Sysinfo enthalten.
Zu den Dumpfiles:
Ich habe mir 3 der 4 Dumpfiles angesehen, bei allen drei war die gleiche Absturzursache BCC 0x124 (WHEA-Error).
113016-8687-01.dmp
Code:
WHEA_UNCORRECTABLE_ERROR (124)
A fatal hardware error has occurred. Parameter 1 identifies the type of error
source that reported the error. Parameter 2 holds the address of the
WHEA_ERROR_RECORD structure that describes the error conditon.
Arguments:
Arg1: 0000000000000000, Machine Check Exception
[COLOR="#FF0000"]Arg2: ffffe28112600028, Address of the WHEA_ERROR_RECORD structure.[/COLOR]
[COLOR="#008000"]Arg2 ist der einzige Parameter, der uns weiter bringt[/COLOR]
Arg3: 00000000bf800000, High order 32-bits of the MCi_STATUS value.
Arg4: 0000000000000124, Low order 32-bits of the MCi_STATUS value.
....
[COLOR="#FF0000"]DEFAULT_BUCKET_ID:  CODE_CORRUPTION[/COLOR]
PROCESS_NAME:  Microsoft.Photos.e
[COLOR="#008000"]Dass hier die Photo-App genannt wird, soll uns nicht irritieren[/COLOR]
....
STACK_TEXT:  
[COLOR="#008000"]Den Stack lasse ich weg, das irritiert nur. Maßgeblich ist fast nur der WHEA-Recors[/COLOR]
....
CHKIMG_EXTENSION: !chkimg -lo 50 -d !nt
    fffff8016892d5e2-fffff8016892d5e3  2 bytes - nt!MiGetFreeOrZeroPage+2e2
	[ 80 fa:00 91 ]
    fffff8016892d638-fffff8016892d639  2 bytes - nt!MiGetFreeOrZeroPage+338 (+0x56)
	[ 80 fa:00 91 ]
4 errors : !nt (fffff8016892d5e2-fffff8016892d639)
[COLOR="#008000"]Das aktive Image [B]nt[/B] hat 4 Fehler im RAM bei einer Page-Suche verursacht. [/COLOR]
....
FAILURE_BUCKET_ID:  MEMORY_CORRUPTION_LARGE
BUCKET_ID:  MEMORY_CORRUPTION_LARGE
[COLOR="#FF0000"]PRIMARY_PROBLEM_CLASS:  MEMORY_CORRUPTION_LARGE.[/COLOR]
.....
[COLOR="#008000"]Den WHEA-Record aufrufen[/COLOR]
4: kd> !errrec ffffe28112600028
===============================================================================
Common Platform Error Record @ ffffe28112600028
-------------------------------------------------------------------------------
Record Id     : 01d24ae6169e8b93
Severity      : Fatal (1)
Length        : 928
Creator       : Microsoft
[COLOR="#FF0000"]Notify Type   : Machine Check Exception[/COLOR]
Timestamp     : 11/30/2016 11:30:54 (UTC)
Flags         : 0x00000000

===============================================================================
Section 0     : Processor Generic
-------------------------------------------------------------------------------
Descriptor    @ ffffe281126000a8
Section       @ ffffe28112600180
Offset        : 344
Length        : 192
Flags         : 0x00000001 Primary
Severity      : Fatal

Proc. Type    : x86/x64
Instr. Set    : x64
[COLOR="#FF0000"]Error Type    : Cache error
Operation     : Generic[/COLOR]
[COLOR="#008000"]es ist ein generischer Cache-Fehler aufgetreten[/COLOR]
Flags         : 0x00
Level         : 0
CPU Version   : 0x00000000000306c3
Processor ID  : 0x0000000000000004
....
.....
===============================================================================
Section 2     : x86/x64 MCA
-------------------------------------------------------------------------------
Descriptor    @ ffffe28112600138
Section       @ ffffe281126002c0
Offset        : 664
Length        : 264
Flags         : 0x00000000
Severity      : Fatal

[COLOR="#FF0000"]Error         : DCACHEL0_WR_ERR (Proc 4 Bank 1)[/COLOR]
  Status      : 0xbf80000000000124
  Address     : 0x00000002195b8540
  Misc.       : 0x0000000000000086 
[COLOR="#008000"]Beim Schreiben in den Datencache  ist ein Fehler aufgetreten[/COLOR]
Der WHEA-Record der anderen beiden Dumpfiles sieht genau so aus, wie dieser. Um nicht mit zu viel Informationen die Auswertung unübersichtlich zu machen, verzichte ich auf die Wiedergabe der beiden Debuggerläufe.
Schlussfolgerung:
Beim Schreiben in den Datencache von Prozessor 4 wurde ein Fehler ausgelöst.
Mögliche Ursachen sind:
-> CPU --> da nicht übertaktet ist, bleibt nur Undervolting oder CPU-Defekt
-> BUS-Fehler oder RAM-Fehler --> falsche Timings, falsche Spannung, oder doch RAM defekt

Da bei allen drei Bluescreens genau der gleiche WHEA-Fehler (WR_ERR = Write-Error) an genau den gleichen Caches (DCACHEL0) und gleichen Prozessoren (Proc 4 ) eingetreten ist , tendiere ich zu der Meinung, dass der Fehler eher im Bezug zum Prozessor zu suchen ist.
Der RAM (Timings und Spannung) soll aber nicht ganz außer Acht gelassen werden, denn zum Schreiben in den Cache muß ja erst mal ein Wert aus dem Speicher geladen werden ehe er in den Cache geschrieben wird.
 
Wow das ist allerhand Information und sie ist richtig.
Also das hier Undervolting im Spiel ist, kann ich bestätigen. Die CPU heizt anständig und ich habe von der ersten Stunde an (12.2014)einen Offset von -0.1V gesetzt. Hatte bis Sommer 2015 keine Probleme. Ich habe natürlich sofort daran gedacht, dass dies das Problem ist. Aber auch mit Standardspannung kommen die BSOD, daher habe ich nicht mehr weiter darüber nachgedacht und den Offset wieder eingestellt, damit die Temperaturen nicht immer so in die Höhe schnellen. (Im Sommer 80 Grad )

Alle anderen Einstellungen wie Timings und Spannungen habe ich beim RAM alle auf default bzw Auto. Der RAM-Kit ist mit XMP ausgestattet, das habe ich aber lange nicht mehr aktiviert.

Nachdem das MoBo den Riegel nicht richtig erkennt, soll ich die Werte manuell eingeben?
 
Da fällt mir noch etwas ein, was ich hätte bezüglich der CPU erwähnen sollen:
Auch bei Temperaturproblemen kommt es zu Lese- und Schreibfehlern der CPU.
Darüber hinaus forciert ständig hohe Temperatur auch die Alterung der Chips.
 
Anzeige
Oben