Problemas de caídas continuas del servicio VirtualCenter Server
Tras una llamada de emergencia he asistido a un cliente que perdian la posibilidad de administracion de los nodos de ESX.
Problemas:
Su servicio de VCenter se caia cada 5 minutos sin una razón aparente. En concreto el sistema Windows 2003 daba el siguiente mensaje en el visor de sucesos:
Tipo de suceso: Información Origen del suceso: VMware VirtualCenter Server Categoría del suceso: Ninguno Id. suceso: 1000 Fecha: 09/07/2010 Hora: 9:54:57 Usuario: No disponible Equipo: ********* Descripción: No se encuentra la descripción del Id. de suceso ( 1000 ) en el origen ( VMware VirtualCenter Server ). Es posible que el equipo local no tenga la información de Registro o archivos DLL de mensajes necesarios para mostrar mensajes desde un equipo remoto. Es posible que pueda usar el indicador /AUXSOURCE= para recuperar esta descripción; consulte Ayuda y soporte técnico para obtener más detalles. La siguiente información es parte del suceso: Log directory: C:\Documents and Settings\Default User\Configuración local\Datos de programa\VMware\vpx.. Tipo de suceso: InformaciónOrigen del suceso: VMware VirtualCenter ServerCategoría del suceso: NingunoId. suceso: 1000Fecha: 09/07/2010Hora: 9:54:57Usuario: No disponibleEquipo: *******Descripción:No se encuentra la descripción del Id. de suceso ( 1000 ) en el origen ( VMware VirtualCenter Server ). Es posible que el equipo local no tenga la información de Registro o archivos DLL de mensajes necesarios para mostrar mensajes desde un equipo remoto. Es posible que pueda usar el indicador /AUXSOURCE= para recuperar esta descripción; consulte Ayuda y soporte técnico para obtener más detalles. La siguiente información es parte del suceso: Log directory: C:\Documents and Settings\Default User\Configuración local\Datos de programa\VMware\vpx..
Ademas teníamos este otro:
Tipo de suceso: Error
Tipo de suceso: ErrorOrigen del suceso: Service Control ManagerCategoría del suceso: NingunoId. suceso: 7031Fecha: 09/07/2010Hora: 10:34:47Usuario: No disponibleEquipo: **********Descripción:El servicio VMware VirtualCenter Server terminó inesperadamente. Lo ha hecho 1 veces. Se realizará la siguiente acción correctora en 300000 milisegundos: Reiniciar el servicio.
Para obtener más información, vea el Centro de ayuda y soporte técnico en http://go.microsoft.com/fwlink/events.asp.
Tras un rato navegando por distintos logs del sistema y de vmware encontre las siguientes lineas en el vxpd.log:
[2010-07-06 11:33:13.526 02016 error ‘App’] Win32 exception: Stack overflow (0xc00000fd) [2010-07-06 11:33:13.526 02016 error ‘App’] eip: 0x19de1fb esp: 0x58a2fcc ebp: 0x58a3040 [2010-07-06 11:33:13.526 02016 error ‘App’] eax: 0x58a5064 ebx: 00000000 ecx: 0x1302d48 edx: 0xfffffffe edi: 0x408de68 esi: 0x000007La verdad que muchas pistas no daba el invento, ademas cayendo continuamente no me dejaba mirar nada dentro de sus sistemas.
Buscando en la base de incidencias de VmWare encontre un documento que me dio la pista para su resolucion:
http://kb.vmware.com/kb/1016281
En este documento encontre la pista definitiva, “A virtual machine has too many snapshots associated with it“
Resolución:
Entre en la administración de ambos nodos, de modo directo sin usar el Vcenter.
Y en uno de ellos encontre un sistema con 18 snapshots que era el causante del problema.
En el Snapshot Manager borre uno a uno esos 18 snapshot, y le di un reinicio al sistema del Vcenter Server, y conseguimos recuperar el servicio.
Buscar quien fue el causante de estos 18 Snapshot fue un poco mas complicado 🙂