Hallo zusammen,
hab mich nach längerem Umsehen nun für diese Board zwecks Hilfe und Beistand entschieden.
Ein älterer wieder gebrauchter Dual Xeon wird wieder als zusätzlicher Renderknecht/Grafikworkstation eingesetzt.
Hier und da geht er aber einfach aus und weigert sich dann auch ca 7-10 min wieder anzuspringen.
Den ersten Gedanken dass er zu heiss wird habe ich mit gründlichstem Saubermachen, Erneuern der Wärmeleitpaste unter den Prozessoren und verräumen der Kabel im etwaigen Luftstrom besänftigt.
mal kurz zwischendurch:
2x Xeon 5690, EVGA Classified SR2 Board - aktuell nicht übertaktet, alles auf Defaultwerte im Bios. Bios so neu als möglich. 96GB Kingston ECC (derzeit zwecks Fehlersuche nur 16Gb), 1066 Nvidia GTX970. 2x Marvel Yukon 88E8057 onboard. EVGA Netzteil1200W.
abgeschlossene Tests:
prime95 http://www.mersenne.org/ftp_root/gimps/p95v298b6.win64.zip
Intel Processor Diagnostic Tool 64 Intel(R) Processor Diagnostic Tool
FurMark Downloads - freewares, applications, utilities, drivers | Geeks3D
MemTest https://www.memtest86.com/downloads/memtest86-usb.zip
Alle mit PASS abgeschlossen.
Ans Eingemachte:
1.) Ereignissprotokoll
2.) Memorydmp dazu
Das Genuineintel.sys ist ja wohl fürs MB zustädig. Daraufhin nochmal kontrolliert ob wirklich ALLE Treiber aktuell sind mit:
Niroft Driver List http://www.nirsoft.net/utils/installeddriverslist-x64.zip
oder besser gleich die eierlegende Wollmilchsau:
WSCC Windows System Control Center http://www.kls-soft.com/wscc/downloads.php
Tja und da stehe ich nun.
Ich kann nicht feststellen wann er ausgeht, will heissen, nichts erkennbares. Gestern mit Renderman echt viel gerendert: nüscht. Was auf esterne USB HD kopiert: PENG... Das nächste mal genau andersrum.
Ich weiss nicht, ich weiss nicht....
Vielleicht habt ihr ja noch nen weiteren Ansatzpunkt zum forschen... Ich mein es macht ja auch irgendwie Spass wenn halt nicht so viel Zeit dabei verloren gehen würde.
Eine gute gesunde Zeit für alle.
Edit 1:
auch die Spannungen auf Abfall oder grobe Schwankungen kontrolliert. Nichts. Ich mein wenn, dann seh ichs nicht weil er ja ausgeht. Aber so, nichts Auffäliges.
Achso ja:
ein kleines Speicherabbild kann ich nicht posten weil ich noch keins habe. Hab nur das Grosse... Aber der nächste Absturz kommt bestimmt ...
Edit2:
der gibt mir auch ein wenig zu denken: Arg1: 0000000000000004, PCI Express Error
hab mich nach längerem Umsehen nun für diese Board zwecks Hilfe und Beistand entschieden.
Ein älterer wieder gebrauchter Dual Xeon wird wieder als zusätzlicher Renderknecht/Grafikworkstation eingesetzt.
Hier und da geht er aber einfach aus und weigert sich dann auch ca 7-10 min wieder anzuspringen.
Den ersten Gedanken dass er zu heiss wird habe ich mit gründlichstem Saubermachen, Erneuern der Wärmeleitpaste unter den Prozessoren und verräumen der Kabel im etwaigen Luftstrom besänftigt.
mal kurz zwischendurch:
2x Xeon 5690, EVGA Classified SR2 Board - aktuell nicht übertaktet, alles auf Defaultwerte im Bios. Bios so neu als möglich. 96GB Kingston ECC (derzeit zwecks Fehlersuche nur 16Gb), 1066 Nvidia GTX970. 2x Marvel Yukon 88E8057 onboard. EVGA Netzteil1200W.
Code:
ausführlich siehe Anhang: Bigbrain_hwinfo64.rar
abgeschlossene Tests:
prime95 http://www.mersenne.org/ftp_root/gimps/p95v298b6.win64.zip
Intel Processor Diagnostic Tool 64 Intel(R) Processor Diagnostic Tool
FurMark Downloads - freewares, applications, utilities, drivers | Geeks3D
MemTest https://www.memtest86.com/downloads/memtest86-usb.zip
Alle mit PASS abgeschlossen.
Ans Eingemachte:
1.) Ereignissprotokoll
Der Computer wurde nach einem schwerwiegenden Fehler neu gestartet. Der Fehlercode war: 0x00000124 (0x0000000000000004, 0xffffd58c6c1e7038, 0x0000000000000000, 0x0000000000000000). Ein volles Abbild wurde gespeichert in: C:\Windows\MEMORY.DMP. Berichts-ID: 3f00a677-0772-4a88-90a1-18162b29a8e1.
Code:
- System
- Provider
[ Name] Microsoft-Windows-WER-SystemErrorReporting
[ Guid] {ABCE23E7-DE45-4366-8631-84FA6C525952}
[ EventSourceName] BugCheck
- EventID 1001
[ Qualifiers] 16384
Version 0
Level 2
Task 0
Opcode 0
Keywords 0x80000000000000
- TimeCreated
[ SystemTime] 2020-04-27T05:49:44.116770600Z
EventRecordID 94187
Correlation
- Execution
[ ProcessID] 0
[ ThreadID] 0
Channel System
Computer BIGBRAIN
Security
- EventData
param1 0x00000124 (0x0000000000000004, 0xffffd58c6c1e7038, 0x0000000000000000, 0x0000000000000000)
param2 C:\Windows\MEMORY.DMP
param3 3f00a677-0772-4a88-90a1-18162b29a8e1
2.) Memorydmp dazu
Code:
Microsoft (R) Windows Debugger Version 10.0.19528.1000 AMD64
Copyright (c) Microsoft Corporation. All rights reserved.
Loading Dump File [C:\Windows\MEMORY.DMP]
Kernel Bitmap Dump File: Kernel address space is available, User address space may not be available.
Symbol search path is: srv*
Executable search path is:
Windows 10 Kernel Version 18362 MP (24 procs) Free x64
Product: WinNt, suite: TerminalServer SingleUserTS
18362.1.amd64fre.19h1_release.190318-1202
Machine Name:
Kernel base = 0xfffff806`0cc00000 PsLoadedModuleList = 0xfffff806`0d048150
Debug session time: Mon Apr 27 07:29:57.948 2020 (UTC + 2:00)
System Uptime: 0 days 0:00:13.782
Loading Kernel Symbols
...............................................................
....................Page 4089d5 not present in the dump file. Type ".hh dbgerr004" for details
............................................
................................................................
....
Loading User Symbols
Loading unloaded module list
.....
For analysis of this file, run !analyze -v
nt!KeBugCheckEx:
fffff806`0cdc2390 48894c2408 mov qword ptr [rsp+8],rcx ss:0018:fffff806`0fa75cf0=0000000000000124
windbg> .hh dbgerr004
0: kd> !analyze -v
*******************************************************************************
* *
* Bugcheck Analysis *
* *
*******************************************************************************
WHEA_UNCORRECTABLE_ERROR (124)
A fatal hardware error has occurred. Parameter 1 identifies the type of error
source that reported the error. Parameter 2 holds the address of the
WHEA_ERROR_RECORD structure that describes the error conditon.
Arguments:
Arg1: 0000000000000004, PCI Express Error
Arg2: ffffd58c6c1e7038, Address of the WHEA_ERROR_RECORD structure.
Arg3: 0000000000000000
Arg4: 0000000000000000
Debugging Details:
------------------
KEY_VALUES_STRING: 1
Key : Analysis.CPU.Sec
Value: 4
Key : Analysis.DebugAnalysisProvider.CPP
Value: Create: 8007007e on BIGBRAIN
Key : Analysis.DebugData
Value: CreateObject
Key : Analysis.DebugModel
Value: CreateObject
Key : Analysis.Elapsed.Sec
Value: 15
Key : Analysis.Memory.CommitPeak.Mb
Value: 65
Key : Analysis.System
Value: CreateObject
ADDITIONAL_XML: 1
BUGCHECK_CODE: 124
BUGCHECK_P1: 4
BUGCHECK_P2: ffffd58c6c1e7038
BUGCHECK_P3: 0
BUGCHECK_P4: 0
HARDWARE_VENDOR_ID: 1033
HARDWARE_DEVICE_ID: 0194
BLACKBOXBSD: 1 (!blackboxbsd)
BLACKBOXNTFS: 1 (!blackboxntfs)
BLACKBOXWINLOGON: 1
PROCESS_NAME: System
STACK_TEXT:
fffff806`0fa75ce8 fffff806`0cba4188 : 00000000`00000124 00000000`00000004 ffffd58c`6c1e7038 00000000`00000000 : nt!KeBugCheckEx
fffff806`0fa75cf0 fffff806`0dd81920 : ffffd58c`6a913170 00000000`00000000 ffffd58c`6c1e7038 00000000`00000000 : hal!HalBugCheckSystem+0xd8
fffff806`0fa75d30 fffff806`0cf41072 : ffffd58c`6a913170 fffff806`0fa75db9 00000000`00000000 ffffd58c`6c1e7038 : PSHED!PshedBugCheckSystem+0x10
fffff806`0fa75d60 fffff806`0e4ae884 : 00000000`00000001 00000000`00000001 ffffd58c`6a9b81c0 ffffd58c`6c1e6010 : nt!WheaReportHwError+0x382
fffff806`0fa75e20 fffff806`0e4af002 : ffffe601`3b1ebc80 fffff806`0fa75ec0 ffffe601`3b1ebd30 00000040`e1c824e0 : pci!ExpressRootPortAerInterruptRoutine+0x270
fffff806`0fa75e80 fffff806`0e4af0b9 : ffffe601`3b1ebc80 00000000`084f58b5 fffff806`0fa75fb0 00000000`00000f32 : pci!ExpressRootPortInterruptRoutine+0x22
fffff806`0fa75ee0 fffff806`0cc57921 : 00000000`00000004 ffffd58c`6aa20000 ffff9d80`00099220 00000000`00000002 : pci!ExpressRootPortMessageRoutine+0x9
fffff806`0fa75f10 fffff806`0cc2cc75 : fffff806`0e4af0b0 00000000`0000a000 fffff806`0fa75fc0 00000000`00000008 : nt!KiInterruptMessageDispatch+0x11
fffff806`0fa75f40 fffff806`0cdc3b9f : fffff806`0fa677a0 ffffe601`3b1ebc80 00000000`084fd915 ffffe601`3b1ebc80 : nt!KiCallInterruptServiceRoutine+0xa5
fffff806`0fa75f90 fffff806`0cdc3e67 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiInterruptSubDispatch+0x11f
fffff806`0fa67720 fffff806`10954332 : fffff806`1095d3aa 00000000`00000000 00000000`00000202 ffffd58c`6baffa00 : nt!KiInterruptDispatch+0x37
fffff806`0fa678b8 fffff806`1095d3aa : 00000000`00000000 00000000`00000202 ffffd58c`6baffa00 fffff806`0cef064b : intelppm!C1Halt+0x2
fffff806`0fa678c0 fffff806`10951423 : 00000000`00000000 00000000`084fd915 fffff806`07d42180 00000000`00000000 : intelppm!C1Idle+0x1a
fffff806`0fa678f0 fffff806`0ccbb68c : 00000000`00000000 ffffd58c`00000064 ffffd58c`72716010 00000000`0000010f : intelppm!AcpiCStateIdleExecute+0x23
fffff806`0fa67920 fffff806`0ccbadde : 00000000`00000003 00000000`00000002 00000000`00000001 00000000`00000000 : nt!PpmIdleExecuteTransition+0x70c
fffff806`0fa67c40 fffff806`0cdc5e84 : 00000000`00000000 fffff806`07d42180 ffffdd82`f8ce5040 00000000`00000ccc : nt!PoIdle+0x36e
fffff806`0fa67da0 00000000`00000000 : fffff806`0fa68000 fffff806`0fa62000 00000000`00000000 00000000`00000000 : nt!KiIdleLoop+0x44
MODULE_NAME: GenuineIntel
IMAGE_NAME: GenuineIntel.sys
STACK_COMMAND: .thread ; .cxr ; kb
FAILURE_BUCKET_ID: 0x124_4_GenuineIntel_PCIEXPRESS_VENID_1033_DEVID_0194_MALFORMED_TLP_IMAGE_GenuineIntel.sys
OS_VERSION: 10.0.18362.1
BUILDLAB_STR: 19h1_release
OSPLATFORM_TYPE: x64
OSNAME: Windows 10
FAILURE_ID_HASH: {3d2258b7-c4da-05a1-9d98-61ac8df34a44}
Followup: MachineOwner
---------
0: kd> {3d2258b7-c4da-05a1-9d98-61ac8df34a44}
^ Syntax error in '{3d2258b7-c4da-05a1-9d98-61ac8df34a44}'
0: kd> !blackboxntfs
NTFS Blackbox Data
0 Slow I/O Timeout Records Found
0 Oplock Break Timeout Records Found
0: kd> !analyze -v
*******************************************************************************
* *
* Bugcheck Analysis *
* *
*******************************************************************************
WHEA_UNCORRECTABLE_ERROR (124)
A fatal hardware error has occurred. Parameter 1 identifies the type of error
source that reported the error. Parameter 2 holds the address of the
WHEA_ERROR_RECORD structure that describes the error conditon.
Arguments:
Arg1: 0000000000000004, PCI Express Error
Arg2: ffffd58c6c1e7038, Address of the WHEA_ERROR_RECORD structure.
Arg3: 0000000000000000
Arg4: 0000000000000000
Debugging Details:
------------------
KEY_VALUES_STRING: 1
Key : Analysis.CPU.Sec
Value: 3
Key : Analysis.DebugAnalysisProvider.CPP
Value: Create: 8007007e on BIGBRAIN
Key : Analysis.DebugData
Value: CreateObject
Key : Analysis.DebugModel
Value: CreateObject
Key : Analysis.Elapsed.Sec
Value: 3
Key : Analysis.Memory.CommitPeak.Mb
Value: 68
Key : Analysis.System
Value: CreateObject
ADDITIONAL_XML: 1
BUGCHECK_CODE: 124
BUGCHECK_P1: 4
BUGCHECK_P2: ffffd58c6c1e7038
BUGCHECK_P3: 0
BUGCHECK_P4: 0
HARDWARE_VENDOR_ID: 1033
HARDWARE_DEVICE_ID: 0194
BLACKBOXBSD: 1 (!blackboxbsd)
BLACKBOXNTFS: 1 (!blackboxntfs)
BLACKBOXWINLOGON: 1
PROCESS_NAME: System
STACK_TEXT:
fffff806`0fa75ce8 fffff806`0cba4188 : 00000000`00000124 00000000`00000004 ffffd58c`6c1e7038 00000000`00000000 : nt!KeBugCheckEx
fffff806`0fa75cf0 fffff806`0dd81920 : ffffd58c`6a913170 00000000`00000000 ffffd58c`6c1e7038 00000000`00000000 : hal!HalBugCheckSystem+0xd8
fffff806`0fa75d30 fffff806`0cf41072 : ffffd58c`6a913170 fffff806`0fa75db9 00000000`00000000 ffffd58c`6c1e7038 : PSHED!PshedBugCheckSystem+0x10
fffff806`0fa75d60 fffff806`0e4ae884 : 00000000`00000001 00000000`00000001 ffffd58c`6a9b81c0 ffffd58c`6c1e6010 : nt!WheaReportHwError+0x382
fffff806`0fa75e20 fffff806`0e4af002 : ffffe601`3b1ebc80 fffff806`0fa75ec0 ffffe601`3b1ebd30 00000040`e1c824e0 : pci!ExpressRootPortAerInterruptRoutine+0x270
fffff806`0fa75e80 fffff806`0e4af0b9 : ffffe601`3b1ebc80 00000000`084f58b5 fffff806`0fa75fb0 00000000`00000f32 : pci!ExpressRootPortInterruptRoutine+0x22
fffff806`0fa75ee0 fffff806`0cc57921 : 00000000`00000004 ffffd58c`6aa20000 ffff9d80`00099220 00000000`00000002 : pci!ExpressRootPortMessageRoutine+0x9
fffff806`0fa75f10 fffff806`0cc2cc75 : fffff806`0e4af0b0 00000000`0000a000 fffff806`0fa75fc0 00000000`00000008 : nt!KiInterruptMessageDispatch+0x11
fffff806`0fa75f40 fffff806`0cdc3b9f : fffff806`0fa677a0 ffffe601`3b1ebc80 00000000`084fd915 ffffe601`3b1ebc80 : nt!KiCallInterruptServiceRoutine+0xa5
fffff806`0fa75f90 fffff806`0cdc3e67 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiInterruptSubDispatch+0x11f
fffff806`0fa67720 fffff806`10954332 : fffff806`1095d3aa 00000000`00000000 00000000`00000202 ffffd58c`6baffa00 : nt!KiInterruptDispatch+0x37
fffff806`0fa678b8 fffff806`1095d3aa : 00000000`00000000 00000000`00000202 ffffd58c`6baffa00 fffff806`0cef064b : intelppm!C1Halt+0x2
fffff806`0fa678c0 fffff806`10951423 : 00000000`00000000 00000000`084fd915 fffff806`07d42180 00000000`00000000 : intelppm!C1Idle+0x1a
fffff806`0fa678f0 fffff806`0ccbb68c : 00000000`00000000 ffffd58c`00000064 ffffd58c`72716010 00000000`0000010f : intelppm!AcpiCStateIdleExecute+0x23
fffff806`0fa67920 fffff806`0ccbadde : 00000000`00000003 00000000`00000002 00000000`00000001 00000000`00000000 : nt!PpmIdleExecuteTransition+0x70c
fffff806`0fa67c40 fffff806`0cdc5e84 : 00000000`00000000 fffff806`07d42180 ffffdd82`f8ce5040 00000000`00000ccc : nt!PoIdle+0x36e
fffff806`0fa67da0 00000000`00000000 : fffff806`0fa68000 fffff806`0fa62000 00000000`00000000 00000000`00000000 : nt!KiIdleLoop+0x44
MODULE_NAME: GenuineIntel
IMAGE_NAME: GenuineIntel.sys
STACK_COMMAND: .thread ; .cxr ; kb
FAILURE_BUCKET_ID: 0x124_4_GenuineIntel_PCIEXPRESS_VENID_1033_DEVID_0194_MALFORMED_TLP_IMAGE_GenuineIntel.sys
OS_VERSION: 10.0.18362.1
BUILDLAB_STR: 19h1_release
OSPLATFORM_TYPE: x64
OSNAME: Windows 10
FAILURE_ID_HASH: {3d2258b7-c4da-05a1-9d98-61ac8df34a44}
Followup: MachineOwner
---------
Das Genuineintel.sys ist ja wohl fürs MB zustädig. Daraufhin nochmal kontrolliert ob wirklich ALLE Treiber aktuell sind mit:
Niroft Driver List http://www.nirsoft.net/utils/installeddriverslist-x64.zip
oder besser gleich die eierlegende Wollmilchsau:
WSCC Windows System Control Center http://www.kls-soft.com/wscc/downloads.php
Tja und da stehe ich nun.
Ich kann nicht feststellen wann er ausgeht, will heissen, nichts erkennbares. Gestern mit Renderman echt viel gerendert: nüscht. Was auf esterne USB HD kopiert: PENG... Das nächste mal genau andersrum.
Ich weiss nicht, ich weiss nicht....
Vielleicht habt ihr ja noch nen weiteren Ansatzpunkt zum forschen... Ich mein es macht ja auch irgendwie Spass wenn halt nicht so viel Zeit dabei verloren gehen würde.
Eine gute gesunde Zeit für alle.
Edit 1:
auch die Spannungen auf Abfall oder grobe Schwankungen kontrolliert. Nichts. Ich mein wenn, dann seh ichs nicht weil er ja ausgeht. Aber so, nichts Auffäliges.
Achso ja:
ein kleines Speicherabbild kann ich nicht posten weil ich noch keins habe. Hab nur das Grosse... Aber der nächste Absturz kommt bestimmt ...
Edit2:
der gibt mir auch ein wenig zu denken: Arg1: 0000000000000004, PCI Express Error
Anhänge
Zuletzt bearbeitet: