VMwareの紫色の死の画面を打ち負かす方法は?

多くのVMwareESXi管理者は、Purple Screen ofDeathの問題を経験しています。この問題で最も厄介なのは、自分のインフラストラクチャに不信感があることです。同じ問題が別のサーバーでも繰り返される可能性があるという考えが頭の中で常に回転しています。

PSODとは何ですか?

PSODPurpleScreen of Diagnosticsの略で、MicrosoftWindowsにあるより有名なBlueScreen ofDeathからPurpleScreen ofDeathと呼ばれることがよくあります。

これは、カーネルが安全に回復できないか、実行を継続できないという致命的なエラーが発生したときにVMwareESXiによって表示される診断画面です。

障害発生時のメモリの状態と、障害の原因を解決するために重要な追加情報(ESXiのバージョンとビルド、例外タイプ、レジスタダンプ、バックトレース、サーバーの稼働時間、エラーメッセージ、カーネルダンプ情報)が表示されます。(エラー後に作成されたファイルで、追加の診断情報が含まれています)。

この画面はサーバーコンソールに表示されます。これを表示するには、データセンターにいてモニターを接続するか、帯域外サーバー管理(ベンダーに応じて、iLO、iDRAC、IMMなど)を使用してリモートで接続する必要があります。  

写真1
写真1

PSODが表示されるのはなぜですか?

PSOD -   . , ESXi UNIX, UNIX. ESXi (vmkernel) , , , . : ESXi , , «» , , « » , !

PSOD:

1. , RAM CPU. «MCE» «NMI».

«MCE» — , . , , .

«NMI» — , , . NMI HW, , ESXi 5.0 , PSOD. . MCE, , NMI,   ,  .

2.

·         ESXi SW (. KB2105711)

·         (. KB2136430 )

·         : , , (. KB2034111,  KB2150280)

·         + (. KB2105522 )

·         (. KB2012125,  KB2127997)

3. ;  , (. KB2146526,  KB2148123)

PSOD?

,   , , .     . HA, . , «» , , .

, , , , , VSAN, PSOD vSAN.

?

1. .

, -   . (IMM, iLO, iDRAC, …), , , . .

図2
2

2. VMware.

, VMware, . (RCA).

3. ESXi.

, . , RCA, . , , DRS, , PSOD .

4. coredump

coredump. Coredump, vmkernel-zdump, , , , , . PSOD, 1, , coredump.

:

.  

b.  .dump  

c.  .dump   vCenter — netdump

Coredump ,   PSOD , . ESXi SCP, (, Notepad ++). , , . VMware , vmkernel, :

図3
3

5. .

.  , , - , .  , : 

Exception Type 0 #DE: Divide Error

Exception Type 1 #DB: Debug Exception

Exception Type 2 NMI: Non-Maskable Interrupt

Exception Type 3 #BP: Breakpoint Exception

Exception Type 4 #OF: Overflow (INTO instruction)

Exception Type 5 #BR: Bounds check (BOUND instruction)

Exception Type 6 #UD: Invalid Opcode

Exception Type 7 #NM: Coprocessor not available

Exception Type 8 #DF: Double Fault

Exception Type 10 #TS: Invalid TSS

Exception Type 11 #NP: Segment Not Present

Exception Type 12 #SS: Stack Segment Fault

Exception Type 13 #GP: General Protection Fault

Exception Type 14 #PF: Page Fault

Exception Type 16 #MF: Coprocessor error

Exception Type 17 #AC: Alignment Check

Exception Type 18 #MC: Machine Check Exception

Exception Type 19 #XF: SIMD Floating-Point Exception

Exception Type 20-31: Reserved

Exception Type 32-255: User-defined (clock scheduler)

, .  Intel 64 IA-32, 1:      Intel 64 IA-32, 3A.

VMware. PSOD:

LINT1/NMI (motherboard nonmaskable interrupt), undiagnosed

NMI (1014767)

Panic requested by one or more 3rd party NMI handlers

COS Error: Oops

«» (1006802)

Lost Heartbeat

« » (1009525)

ASSERT bora/vmkernel/main/pframe_int.h:527

ASSERT NOT_IMPLEMENTED (1019956)

NOT_IMPLEMENTED /build/mts/release/bora-84374/bora/vmkernel/main/util.c:83

ASSERT NOT_IMPLEMENTED (1019956)

Spin count exceeded (iplLock) — possible deadlock

« » (1020105)

PCPU 1 locked up. Failed to ack TLB invalidate

TLB, (1020214)

#GP Exception(13) in world 4130:helper13-0 @ 0x41803399e303

13 14 (1020181)

#PF Exception type 14 in world 136:helper0-0 @ 0x4a8e6e

Machine Check Exception: Unable to continueHardware (Machine) Error

(MCE) (1005184)

Hardware (Machine) Error

PCPU: 1 hardware errors seen since boot (1 corrected by hardware)

6.

, , , , - , , PSOD.  , , , .

, ,   (,  VMware Log Insight SolarWinds LEM ), , ,     .

:

/var/log/syslog.log

.

VMkernel

/var/log/vmkernel.log

, ESXi.  , PSOD, , .

ESXi

/var/log/hostd.log

, ESXi .

VMkernel

/var/log/vmkwarning.log

, .  , (Heap WorkHeap).

vCenter

/var/log/vpxa.log

, vCenter, , vCenter PSOD.

shell

/var/log/shell.log

, PSOD .




All Articles