De mi Manual de Proxmox VE 4.x: Configuración de un Clúster de Proxmox VE 4.x

Saludos nuevamente.

Continuando con los posts relacionados con el manual de Proxmox VE, voy ahora con la configuración de un Clúster de Proxmox VE 4.x. Aclaro que aquí solamente abordaré la parte conceptual y de funcionamiento básico, dado que el tema de la Alta Disponibilidad (HA) tiene mucha tela por donde cortar y, por lo tanto, será tratada en otros posts.

Sin más preámbulo, aquí les va:

Configuración de un Clúster de Proxmox VE 4.x

Primero que todo, decir una de las características del Clúster de Proxmox VE 4.x (y de todas las versiones anteriores) es la de proporcionar una gestión centralizada de múltiples miembros (nodos o servidores físicos que lo conforman), lo cual facilita sobremanera el trabajo del administrador del mismo.

NOTA: En este epígrafe abordaré solamente las características y funcionamiento básico de un Clúster de Proxmox VE. La parte de la Alta Disponibilidad (HA), el plato fuerte de este tema, será abordada en otro epígrafe más adelante.

En dependencia de la latencia de la red, un clúster de Proxmox VE consiste en varios nodos (en condiciones normales hasta 32 nodos, pero probablemente pueden ser más).

Características principales

Las características principales de un Clúster de Proxmox VE son las siguientes:

  • Gestión centralizada por Web (WebGUI), además de acceso seguro a una consola CLI
  • Soporte para múltiples fuentes para la autenticación (por ej: local, MS ADS, LDAP, etc.)
  • Permisos basados en roles para todos los objetos de la WebGUI (VMs, tipos de almacenamiento, nodos, etc.)
  • Creación de clústeres multi-master
  • Uso del Sistema de archivos del Clúster de Proxmox VE (pmxcfs), que no es más que un sistema de archivos al estilo de una base de datos donde se guardan los archivos de configuración del clúster, la cual es replicada en tiempo real en todos los nodos del clúster vía corosync (tiene un tamaño máximo de 30 MB)
  • Migración en vivo de Máquinas Virtuales entre los nodos físicos
  • Registro de eventos del clúster
  • API por Web (modo RESTful)
  • Fencing fuera de banda utilizando métodos basados en software (que pueden ser por energía  o por red)
  • Rápido despliegue de nodos y servidores virtuales
  • Cortafuegos a nivel de clúster, nodo y VM/CT
  • Migración en vivo de Contenedores Linux (LXC) entre los nodos físicos

 

Requerimientos del sistema

NOTA: Primero que todo recalcar que, según la Wiki de Proxmox VE, no es posible mezclar clústeres de versiones anteriores con un Clúster con Proxmox VE 4.x.

Como requerimientos principales para crear un Clúster con Proxmox VE 4.x están los siguientes:

  • Todos los nodos deben estar situados en el mismo segmento de red, dado que Corosync usa paquetes multicast para la comunicación entre los nodos

 

NOTA: Algunos switches no traen habilitado por defecto el soporte para paquetes multicast, así que hay que habilitárselo primero antes de. Ejemplos de cómo habilitar esta característica en distintos modelos de switches se pueden encontrar en la Wiki de Proxmox VE en la parte donde están las notas sobre multicast.

  • La fecha y la hora deben estás sincronizados en todos los nodos del clúster
  • Por defecto se usa tunneling a través de SSH por el puerto 22/tcp entre los nodos del clúster

 

NOTA MIA: Una de las cosas que quiero hacer es ver cómo puedo modificar esto de manera tal que sea a través de otro puerto que no sea el que usa por defecto SSH. Recuerdo que una vez lo hice, pero no lo anoté.

  • En caso de que se desee habilitar la características de Alta Disponibilidad (HA), para tener un quórum aceptable, se debe tener -obligatoriamente- como mínimo 3 nodos

 

NOTA: Claro está que los nodos TIENEN que tener la misma versión.

  • Para el tráfico de red entre el área o subsistema de almacenamiento y los nodos del clúster se debe usar otra interfaz de red dedicada al efecto

 

NOTA: Por esta tarjeta de red pasará el tráfico de almacenamiento de los tipos iSCSI, NFS, GlusterFS, Ceph, DRBD 8/9, o el que se desee utilizar.

Creación del Clúster Proxmox VE

Bueno, para crear el clúster, primeramente hay que instalar Proxmox VE en todos los nodos que lo conformarán. Es importante definir muy bien los nombres de host (preferente en formato FQDN) de los nodos, así como la configuración de sus respectivas direcciones IP.

NOTA IMPORTANTE: Una vez que se definen estos dos parámetros en un nodo y este se une a un clúster, ya no es posible modificarlos a posteriori, dado que crearía un desastre.

Normalmente la vía más adecuada para la creación del clúster es a través de la consola de Proxmox VE autenticándose preferentemente por SSH y utilizando el comando pvecm.

Para crear un clúster Proxmox VE voy a utilizar tres nodos con Proxmox VE 4.1 instalado, los cuales son:

  • Nodo prx4-c0-1-drbd8.lab.codesa.co.cu (Dirección IP: 10.0.1.18/28)
  • Nodo prx4-c0-2-drbd8.lab.codesa.co.cu (Dirección IP: 10.0.1.19/28)
  • Nodo prx4-c0-3-qrm.lab.codesa.co.cu (Dirección IP: 10.0.1.20/28)
  • Nodo prx4-c0-4-qrm.lab.codesa.co.cu (Dirección IP: 10.0.1.21/28)

 

Y la secuencia de comandos para crear un clúster con nombre lab-pve-clr es la que sigue:

En el primer nodo ejecutar:

# pvecm create lab-pve-clr

Que da la salida siguiente:

root@prx4-c0-1-drbd8:~# pvecm create lab-pve-clr

Corosync Cluster Engine Authentication key generator.

Gathering 1024 bits for key from /dev/urandom.

Writing corosync key to /etc/corosync/authkey.

root@prx4-c0-1-drbd8:~#

Como se ve, Proxmox VE, que usa Corosync como tecnología de clúster, crea la llave para la autenticación entre los nodos que conformarán el clúster.

Creado ya el clúster con su primer miembro:

root@prx4-c0-1-drbd8:~# pvecm status

Quorum information

——————

Date:             Fri Jan 15 18:37:36 2016

Quorum provider:  corosync_votequorum

Nodes:            1

Node ID:          0x00000001

Ring ID:          4

Quorate:          Yes

 

Votequorum information

———————-

Expected votes:   1

Highest expected: 1

Total votes:      1

Quorum:           1

Flags:            Quorate

 

Membership information

———————-

    Nodeid      Votes Name

0x00000001          1 10.0.1.18 (local)

root@prx4-c0-1-drbd8:~#

Sólo queda añadir los otros.

NOTA: Cuando se añaden nuevos miembros al clúster, se solicita primero añadir la clave SSH del nodo al que se está asociando a la lista local de equipos conocidos, y luego la contraseña del root para completar el proceso. Sí, porque una vez que los nodos forman parte del clúster, la autenticación entre ellos será a través de claves públicas SSH (la comunicación entre ellos).

Las correspondientes salidas de los comandos son las siguientes:

En el segundo nodo ejecutar:

root@prx4-c0-2-drbd8:~# pvecm add 10.0.1.18

The authenticity of host ‘10.0.1.18 (10.0.1.18)’ can’t be established.

ECDSA key fingerprint is a7:5e:c8:39:97:b2:74:1f:66:ff:e0:11:cb:bc:a2:a4.

Are you sure you want to continue connecting (yes/no)? yes

root@10.0.1.18’s password:

copy corosync auth key

stopping pve-cluster service

backup old database

generating node certificates

merge known_hosts file

restart services

successfully added node ‘prx4-c0-2-drbd8’ to cluster.

root@prx4-c0-2-drbd8:~#

Al chequear nuevamente el estado del clúster después de añadir al nuevo miembro, se ve que ha cambiado:

root@prx4-c0-1-drbd8:~# pvecm status

Quorum information

——————

Date:             Fri Jan 15 18:43:14 2016

Quorum provider:  corosync_votequorum

Nodes:            2

Node ID:          0x00000001

Ring ID:          8

Quorate:          Yes

 

Votequorum information

———————-

Expected votes:   2

Highest expected: 2

Total votes:      2

Quorum:           2

Flags:            Quorate

 

Membership information

———————-

    Nodeid      Votes Name

0x00000001          1 10.0.1.18 (local)

0x00000002          1 10.0.1.19

root@prx4-c0-1-drbd8:~#

Ahora son dos miembros los que conforman el clúster.

En el tercer nodo ejecutar:

root@prx4-c0-3-qrm:~# pvecm add 10.0.1.19

The authenticity of host ‘10.0.1.19 (10.0.1.19)’ can’t be established.

ECDSA key fingerprint is 10:d7:cc:3f:79:8c:ad:55:19:9c:fd:dc:0e:2f:d9:77.

Are you sure you want to continue connecting (yes/no)? yes

root@10.0.1.19’s password:

copy corosync auth key

stopping pve-cluster service

backup old database

waiting for quorum…OK

generating node certificates

merge known_hosts file

restart services

successfully added node ‘prx4-c0-3-qrm’ to cluster.

root@prx4-c0-3-qrm:~#

NOTA: Recordar que los nodos funcionan bajo una estructura multi-master en el clúster (la información se replica en todos los nodos gracias al sistema de archivos compartido pvecfs que trae por defecto Proxmox VE), con lo cual se puede añadir miembros estableciendo como nodo asociado a cualquiera de los miembros ya existentes.

Para saber si todo está en orden, pues, chequear nuevamente el estado del clúster:

root@prx4-c0-1-drbd8:~# pvecm status

Quorum information

——————

Date:             Fri Jan 15 18:45:32 2016

Quorum provider:  corosync_votequorum

Nodes:            4

Node ID:          0x00000001

Ring ID:          16

Quorate:          Yes

 

Votequorum information

———————-

Expected votes:   3

Highest expected: 3

Total votes:      3

Quorum:           3

Flags:            Quorate

 

Membership information

———————-

    Nodeid      Votes Name

0x00000001          1 10.0.1.18 (local)

0x00000002          1 10.0.1.19

0x00000003          1 10.0.1.20

root@prx4-c0-1-drbd8:~#

En el cuarto y último nodo ejecutar:

root@prx4-c0-4-qrm:~# pvecm add 10.0.1.18

The authenticity of host ‘10.0.1.18 (10.0.1.18)’ can’t be established.

ECDSA key fingerprint is b3:25:35:1d:97:d0:8a:1e:a8:be:62:1a:2c:05:8e:e4.

Are you sure you want to continue connecting (yes/no)? yes

root@10.0.1.18’s password:

copy corosync auth key

stopping pve-cluster service

backup old database

waiting for quorum…OK

generating node certificates

merge known_hosts file

restart services

successfully added node ‘prx4-c0-4-qrm’ to cluster.

root@prx4-c0-4-qrm:~#

Chequear una vez más si todo está funcionando correctamente:

root@prx4-c0-1-drbd8:~# pvecm status

Quorum information

——————

Date:             Fri Jan 15 18:48:55 2016

Quorum provider:  corosync_votequorum

Nodes:            4

Node ID:          0x00000001

Ring ID:          16

Quorate:          Yes

 

Votequorum information

———————-

Expected votes:   4

Highest expected: 4

Total votes:      4

Quorum:           3

Flags:            Quorate

 

Membership information

———————-

    Nodeid      Votes Name

0x00000001          1 10.0.1.18 (local)

0x00000002          1 10.0.1.19

0x00000003          1 10.0.1.20

0x00000004          1 10.0.1.21

root@prx4-c0-1-drbd8:~#

Y por si queda alguna duda, parte del log del sistema muestra que el clúster tiene 3 miembros:

(…)

Jan 15 18:48:53 prx4-c0-1-drbd8 corosync[8732]:  [TOTEM ] A new membership (10.0.1.18:16) was formed. Members joined: 4

Jan 15 18:48:53 prx4-c0-1-drbd8 corosync[8732]:  [QUORUM] Members[4]: 1 2 3 4

Jan 15 18:48:53 prx4-c0-1-drbd8 corosync[8732]:  [MAIN  ] Completed service synchronization, ready to provide service.

Jan 15 18:48:58 prx4-c0-1-drbd8 pmxcfs[8716]: [dcdb] notice: members: 1/8716, 2/8302, 3/8296, 4/4106

Jan 15 18:48:58 prx4-c0-1-drbd8 pmxcfs[8716]: [dcdb] notice: starting data syncronisation

Jan 15 18:48:58 prx4-c0-1-drbd8 pmxcfs[8716]: [dcdb] notice: received sync request (epoch 1/8716/00000004)

Jan 15 18:48:58 prx4-c0-1-drbd8 pmxcfs[8716]: [status] notice: members: 1/8716, 2/8302, 3/8296, 4/4106

Jan 15 18:48:58 prx4-c0-1-drbd8 pmxcfs[8716]: [status] notice: starting data syncronisation

Jan 15 18:48:58 prx4-c0-1-drbd8 pmxcfs[8716]: [status] notice: received sync request (epoch 1/8716/00000004)

Jan 15 18:48:58 prx4-c0-1-drbd8 pmxcfs[8716]: [dcdb] notice: received all states

Jan 15 18:48:58 prx4-c0-1-drbd8 pmxcfs[8716]: [dcdb] notice: leader is 1/8716

Jan 15 18:48:58 prx4-c0-1-drbd8 pmxcfs[8716]: [dcdb] notice: synced members: 1/8716, 2/8302, 3/8296

Jan 15 18:48:58 prx4-c0-1-drbd8 pmxcfs[8716]: [dcdb] notice: start sending inode updates

Jan 15 18:48:58 prx4-c0-1-drbd8 pmxcfs[8716]: [dcdb] notice: sent all (44) updates

Jan 15 18:48:58 prx4-c0-1-drbd8 pmxcfs[8716]: [dcdb] notice: all data is up to date

Jan 15 18:48:58 prx4-c0-1-drbd8 pmxcfs[8716]: [status] notice: received all states

Jan 15 18:48:58 prx4-c0-1-drbd8 pmxcfs[8716]: [status] notice: all data is up to date

(…)

También se puede ver la cantidad de miembros que lo conforman con el siguiente comando:

root@prx4-c0-1-drbd8:~# pvecm nodes

 

Membership information

———————-

    Nodeid      Votes Name

         1          1 prx4-c0-1-drbd8 (local)

         2          1 prx4-c0-2-drbd8

         3          1 prx4-c0-3-qrm

         4          1 prx4-c0-4-qrm

root@prx4-c0-1-drbd8:~#

NOTA: Esto se verá más adelante, la infraestructura que pretendo crear, en el caso de este ejemplo, es la de un Clúster HA con Proxmox VE usando como almacenamiento compartido DRBD 8. Para esta versión de DRBD se necesitan sólo dos nodos (sí, porque el almacenamiento estará dentro de los propios nodos del clúster), pero esta nueva versión de Proxmox VE (la rama 4.x) necesita 3 nodos como mínimo para activar la característica HA del clúster, así que el tercer nodo es solamente para que el quorum requerido se cumpla. Este tercer nodo puede ser una estación de trabajo o un PC-saurio que no esté siendo usado y se le quiera dar utilidad.

Por la WebGUI se puede ver que los miembros del clúster:

152 - Gestor de Proxmox VE - Cluster Proxmox VE de 4 Nodos

Remover o quitar un nodo del Clúster Proxmox VE

Este proceso es uno de los más riesgosos a la hora de trabajar con un clúster de Proxmox VE, dado que debe hacerse con extremo cuidado porque se debe cumplir a cabalidad con los pasos que se describirán a continuación. En otras palabras, dicho proceso no debe hacerse a lo loco o como el administrador quiera.

NOTA IMPORTANTE: En este punto vuelvo a recalcar que para realizar esta operación se requiere tener más de 3 miembros en el clúster como mínimo.

Los pasos son los siguientes:

1.- Mover todas las máquinas virtuales y/o contenedores que tenga el nodo a retirar hacia otro nodo activo del clúster

Para esto se recomienda usar la WebGUI centralizada para migrar o eliminar las máquinas virtuales y/o contenedores.

2.- No se deben tener respaldos locales almacenados en el nodo, por lo tanto, se deben copiar o salvar en alguna otra plataforma de almacenamiento o en otro servidor

3.- Autenticarse por vía SSH en uno de los nodos restantes del clúster para chequear el estado del arte

Con el uso del comando pvecm se puede identificar el nodo que se retirará:

root@prx4-c0-1-drbd8:~# pvecm status

Quorum information

——————

Date:             Mon Jan 25 10:13:12 2016

Quorum provider:  corosync_votequorum

Nodes:            4

Node ID:          0x00000001

Ring ID:          44

Quorate:          Yes

 

Votequorum information

———————-

Expected votes:   4

Highest expected: 4

Total votes:      4

Quorum:           3

Flags:            Quorate

 

Membership information

———————-

    Nodeid      Votes Name

0x00000001          1 10.0.1.18 (local)

0x00000002          1 10.0.1.19

0x00000003          1 10.0.1.20

0x00000004          1 10.0.1.21

root@prx4-c0-1-drbd8:~#

En este caso, retiraré el cuarto nodo, o sea, el nodo con nombre FQDN prx4-c0-4-qrm.lab.codesa.co.cu y dirección IP 10.0.1.21.

4.- Apagar el nodo que se retirará del clúster

NOTA: Asegurarse de que esté BIEN apagado, es más, que no tenga presencia en la red.

5.- Chequear que el nodo a retirar ya no se encuentre disponible en la lista de nodos del clúster

Para ello se utiliza el comando pvecm nodes:

root@prx4-c0-1-drbd8:~# pvecm nodes

 

Membership information

———————-

    Nodeid      Votes Name

         1          1 prx4-c0-1-drbd8 (local)

         2          1 prx4-c0-2-drbd8

         3          1 prx4-c0-3-qrm

root@prx4-c0-1-drbd8:~#

Incluso, si se desea ver el estado del clúster después de haber apagado a uno de sus miembros, la salida es esta:

root@prx4-c0-1-drbd8:~# pvecm status

Quorum information

——————

Date:             Mon Jan 25 10:21:40 2016

Quorum provider:  corosync_votequorum

Nodes:            3

Node ID:          0x00000001

Ring ID:          48

Quorate:          Yes

 

Votequorum information

———————-

Expected votes:   4

Highest expected: 4

Total votes:      3

Quorum:           3

Flags:            Quorate

 

Membership information

———————-

    Nodeid      Votes Name

0x00000001          1 10.0.1.18 (local)

0x00000002          1 10.0.1.19

0x00000003          1 10.0.1.20

root@prx4-c0-1-drbd8:~#

Aún se puede ver que el número de votos máximo que se espera es de 4.

6.- Eliminar el nodo en cuestión

Para eliminar un nodo del clúster se utiliza el comando pvecm delnode:

root@prx4-c0-1-drbd8:~# pvecm delnode prx4-c0-4-qrm

root@prx4-c0-1-drbd8:~#

Evidentemente, si la operación se ejecutó satisfactoriamente, no devuelve ninguna salida.

7.- Chequear el nuevo estado del clúster

Para realizar esta operación se pueden ejecutar los comandos pvecm status ó pvecm nodes (o en sus variantes más cortas: pvecm s y pvecm n). He aquí sus correspondientes salidas:

root@prx4-c0-1-drbd8:~# pvecm s

Quorum information

——————

Date:             Mon Jan 25 10:57:07 2016

Quorum provider:  corosync_votequorum

Nodes:            3

Node ID:          0x00000001

Ring ID:          48

Quorate:          Yes

 

Votequorum information

———————-

Expected votes:   3

Highest expected: 3

Total votes:      3

Quorum:           2

Flags:            Quorate

 

Membership information

———————-

    Nodeid      Votes Name

0x00000001          1 10.0.1.18 (local)

0x00000002          1 10.0.1.19

0x00000003          1 10.0.1.20

root@prx4-c0-1-drbd8:~#

 

root@prx4-c0-1-drbd8:~# pvecm n

 

Membership information

———————-

    Nodeid      Votes Name

         1          1 prx4-c0-1-drbd8 (local)

         2          1 prx4-c0-2-drbd8

         3          1 prx4-c0-3-qrm

root@prx4-c0-1-drbd8:~#

Como se ve en la primera salida, ahora el número máximo de votos es 3 debido a que “oficialmente” el clúster consta de tres miembros.

No obstante, de existir alguna duda, se puede consultar los logs del hipervisor. El él se podrá ver el antes y el después dela operación. O sea:

Antes de eliminar el cuarto nodo:

Jan 25 10:05:05 prx4-c0-1-drbd8 corosync[935]:  [TOTEM ] A new membership (10.0.1.18:44) was formed. Members joined: 4

Jan 25 10:05:05 prx4-c0-1-drbd8 corosync[935]:  [QUORUM] Members[4]: 1 2 3 4

Jan 25 10:05:05 prx4-c0-1-drbd8 corosync[935]:  [MAIN  ] Completed service synchronization, ready to provide service.

Jan 25 10:05:09 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: members: 1/838, 2/903, 3/907, 4/904

Jan 25 10:05:09 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: starting data syncronisation

Jan 25 10:05:09 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: received sync request (epoch 1/838/00000004)

Jan 25 10:05:09 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: members: 1/838, 2/903, 3/907, 4/904

Jan 25 10:05:09 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: starting data syncronisation

Jan 25 10:05:09 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: received sync request (epoch 1/838/00000004)

Jan 25 10:05:09 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: received all states

Jan 25 10:05:09 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: leader is 1/838

Jan 25 10:05:09 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: synced members: 1/838, 2/903, 3/907

Jan 25 10:05:09 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: start sending inode updates

Jan 25 10:05:09 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: sent all (4) updates

Jan 25 10:05:09 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: all data is up to date

Jan 25 10:05:09 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: received all states

Jan 25 10:05:09 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: all data is up to date

Jan 25 10:05:17 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: received log

Jan 25 10:05:17 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: received log

Después de eliminar el cuarto nodo:

Jan 25 10:17:59 prx4-c0-1-drbd8 corosync[935]:  [TOTEM ] A new membership (10.0.1.18:48) was formed. Members left: 4

Jan 25 10:17:59 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: members: 1/838, 2/903, 3/907

Jan 25 10:17:59 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: starting data syncronisation

Jan 25 10:17:59 prx4-c0-1-drbd8 corosync[935]:  [QUORUM] Members[3]: 1 2 3

Jan 25 10:17:59 prx4-c0-1-drbd8 corosync[935]:  [MAIN  ] Completed service synchronization, ready to provide service.

Jan 25 10:17:59 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: members: 1/838, 2/903, 3/907

Jan 25 10:17:59 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: starting data syncronisation

Jan 25 10:17:59 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: received sync request (epoch 1/838/00000005)

Jan 25 10:17:59 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: received sync request (epoch 1/838/00000005)

Jan 25 10:17:59 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: received all states

Jan 25 10:17:59 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: leader is 1/838

Jan 25 10:17:59 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: synced members: 1/838, 2/903, 3/907

Jan 25 10:17:59 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: start sending inode updates

Jan 25 10:17:59 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: sent all (0) updates

Jan 25 10:17:59 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: all data is up to date

Jan 25 10:17:59 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: received all states

Jan 25 10:17:59 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: all data is up to date

Jan 25 10:52:13 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: wrote new corosync config ‘/etc/corosync/corosync.conf’ (version = 5)

Jan 25 10:52:13 prx4-c0-1-drbd8 corosync[935]:  [CFG   ] Config reload requested by node 1

Jan 25 10:52:13 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: update cluster info (cluster name  lab-pve-clr, version = 5)

En fin, realizando los pasos anteriores se puede eliminar un miembro del clúster Proxmox VE. No obstante, si más adelante, debido a las causas que pudieran presentarse, se necesitara añadir uno o varios miembros nuevos a dicho clúster, es seguir nuevamente los pasos descritos en la sección anterior para el caso de añadir un nuevo nodo al clúster Proxmox VE.

Por ejemplo, se añadirá un nuevo nodo al clúster con las siguientes características:

  • Nodo prx4-c0-5-qrm.lab.codesa.co.cu (Dirección IP: 10.0.1.22/28)

 

Se ejecuta el comando correspondiente para añadir el nuevo miembro al clúster existente:

root@prx4-c0-5-qrm:~# pvecm add 10.0.1.18

The authenticity of host ‘10.0.1.18 (10.0.1.18)’ can’t be established.

ECDSA key fingerprint is b3:25:35:1d:97:d0:8a:1e:a8:be:62:1a:2c:05:8e:e4.

Are you sure you want to continue connecting (yes/no)? yes

root@10.0.1.18’s password:

copy corosync auth key

stopping pve-cluster service

backup old database

waiting for quorum…OK

generating node certificates

merge known_hosts file

restart services

successfully added node ‘prx4-c0-5-qrm’ to cluster.

Y mediante la WebGUI se puede ver que el Nuevo nodo ya forma parte del clúster Proxmox VE:

153 - Gestor de Proxmox VE - Cluster Proxmox VE de 4 Nodos (Eliminado el 4to y añadiendo un 5to)

También puede darse el caso de que uno de los nodos que integra el clúster tenga algún desperfecto y tenga que ser reinstalado (por ejemplo, que haya algún problema derivado de una actualización incorrecta, o un comportamiento anómalo del nodo derivado de una incorrecta gestión del mismo o por accidente). No necesariamente hay que sacarlo y volverlo a introducir en el clúster, sino que realizando una salva de ciertos elementos y luego restaurándolos en el recién reinstalado nodo se puede resolver el problema.

Para ilustrar lo anterior se usará el clúster recién restablecido. El log muestra lo siguiente:

(…)

Jan 26 07:57:40 prx4-c0-1-drbd8 corosync[935]:  [TOTEM ] A new membership (10.0.1.18:60) was formed. Members joined: 4

Jan 26 07:57:40 prx4-c0-1-drbd8 corosync[935]:  [QUORUM] Members[4]: 1 2 3 4

Jan 26 07:57:40 prx4-c0-1-drbd8 corosync[935]:  [MAIN  ] Completed service synchronization, ready to provide service.

Jan 26 07:57:45 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: members: 1/838, 2/903, 3/907, 4/815

Jan 26 07:57:45 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: starting data syncronisation

Jan 26 07:57:45 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: received sync request (epoch 1/838/00000008)

Jan 26 07:57:45 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: members: 1/838, 2/903, 3/907, 4/815

Jan 26 07:57:45 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: starting data syncronisation

Jan 26 07:57:45 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: received sync request (epoch 1/838/00000008)

Jan 26 07:57:45 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: received all states

Jan 26 07:57:45 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: leader is 1/838

Jan 26 07:57:45 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: synced members: 1/838, 2/903, 3/907

Jan 26 07:57:45 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: start sending inode updates

Jan 26 07:57:45 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: sent all (4) updates

Jan 26 07:57:45 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: all data is up to date

Jan 26 07:57:45 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: received all states

Jan 26 07:57:45 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: all data is up to date

Jan 26 07:57:46 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: received log

Jan 26 07:57:46 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: received log

(…)

Lo cual indica que todos los nodos que conforman el clúster están funcionando adecuadamente.

Ahora bien, suponiendo que el cuarto nodo tuvo un desperfecto, el cual provocó que salga fuera de servicio, el log mostrará lo siguiente:

(…)

Jan 26 07:59:38 prx4-c0-1-drbd8 corosync[935]:  [TOTEM ] A processor failed, forming new configuration.

Jan 26 07:59:39 prx4-c0-1-drbd8 corosync[935]:  [TOTEM ] A new membership (10.0.1.18:64) was formed. Members left: 4

Jan 26 07:59:39 prx4-c0-1-drbd8 corosync[935]:  [TOTEM ] Failed to receive the leave message. failed: 4

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: members: 1/838, 2/903, 3/907

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: starting data syncronisation

Jan 26 07:59:39 prx4-c0-1-drbd8 corosync[935]:  [QUORUM] Members[3]: 1 2 3

Jan 26 07:59:39 prx4-c0-1-drbd8 corosync[935]:  [MAIN  ] Completed service synchronization, ready to provide service.

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: cpg_send_message retried 1 times

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: members: 1/838, 2/903, 3/907

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: starting data syncronisation

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: received sync request (epoch 1/838/00000009)

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: received sync request (epoch 1/838/00000009)

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: received all states

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: leader is 1/838

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: synced members: 1/838, 2/903, 3/907

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: start sending inode updates

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: sent all (0) updates

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: all data is up to date

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: dfsm_deliver_queue: queue length 2

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: received all states

Jan 26 07:59:39 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: all data is up to date

Jan 26 08:00:07 prx4-c0-1-drbd8 pveproxy[3760]: proxy detected vanished client connection

(…)

O en vez del cuarto nodo, fue el tercero que salió fuera de servicio:

(…)

Jan 26 08:01:35 prx4-c0-1-drbd8 corosync[935]:  [TOTEM ] A processor failed, forming new configuration.

Jan 26 08:01:36 prx4-c0-1-drbd8 corosync[935]:  [TOTEM ] A new membership (10.0.1.18:72) was formed. Members left: 3

Jan 26 08:01:36 prx4-c0-1-drbd8 corosync[935]:  [TOTEM ] Failed to receive the leave message. failed: 3

Jan 26 08:01:36 prx4-c0-1-drbd8 corosync[935]:  [QUORUM] Members[3]: 1 2 4

Jan 26 08:01:36 prx4-c0-1-drbd8 corosync[935]:  [MAIN  ] Completed service synchronization, ready to provide service.

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: members: 1/838, 2/903, 4/816

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: starting data syncronisation

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: members: 1/838, 2/903, 4/816

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: starting data syncronisation

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: received sync request (epoch 1/838/0000000B)

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: received sync request (epoch 1/838/0000000B)

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: received all states

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: leader is 1/838

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: synced members: 1/838, 2/903, 4/816

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: start sending inode updates

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: sent all (0) updates

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: all data is up to date

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [dcdb] notice: dfsm_deliver_queue: queue length 3

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: received all states

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: all data is up to date

Jan 26 08:01:36 prx4-c0-1-drbd8 pmxcfs[838]: [status] notice: dfsm_deliver_queue: queue length 3

(…)

NOTA SOBRE ALTA DISPONIBILIDAD (HA): La literatura recomienda fuertemente que, para el caso de tener un clúster HA con Proxmox VE 4.x de más de tres nodos,  se garantice siempre tener N – 1 nodos habilitados para el HA en cada grupo.

Luego de revisar las posibles causas del error, resulta que no hay otro remedio que reinstalar el nodo 🙁 :

154 - Gestor de Proxmox VE - Cluster Proxmox VE de 4 Nodos (Tercer Nodo caido debido a problemas en el SO subyacente)

Reinstalación de un nodo del Clúster Proxmox VE

El proceso para reinstalar un nodo específico, tenga VMs o no, es relativamente sencillo. Los pasos son los siguientes (tomando como nodo de pruebas a prx4-c0-3-qrm.lab.codesa.co.cu/10.0.1.20):

1.- En caso de que el nodo tenga VMs creadas, se deben retirar o mover todas

2.- Detener los servicios asociados al funcionamiento de Proxmox VE en el sistema GNU/Linux

En el nodo ejecutar lo siguiente:

root@prx4-c0-3-qrm:~# systemctl stop pvestatd.service

root@prx4-c0-3-qrm:~# systemctl stop pvedaemon.service

root@prx4-c0-3-qrm:~# systemctl stop pve-cluster.service

root@prx4-c0-3-qrm:~#

3.- Respaldar datos del clúster Proxmox VE

Aquí me detengo un momento porque son varios archivos los que intervienen en este proceso, pero lo más llamativo es que se ubican en varios lugares:

  • Archivos de configuración de Corosync: /etc/corosync
  • Archivos de configuración del Clúster Proxmox VE (pvecfs): /etc/pve

 

Este subdirectorio no es más que el punto de montaje de un sistema de archivos compartido especial donde se ubica la información principal del clúster Proxmox VE, la cual es replicada a todos los miembros que lo integran.

  • Bases de datos del Clúster Proxmox VE: /var/lib/pve-cluster

 

Para ello ejecutar el comando siguiente:

root@prx4-c0-3-qrm:/etc/pve# tar -czf /root/etc-corosync-backup.tar.gz /etc/corosync/

tar: Removing leading `/’ from member names

root@prx4-c0-3-qrm:/etc/pve# tar -czf /root/etc-pve-backup.tar.gz /etc/pve/

tar: Removing leading `/’ from member names

root@prx4-c0-3-qrm:/etc/pve# tar -czf /root/var-lib-pve-cluster-backup.tar.gz /var/lib/pve-cluster

tar: Removing leading `/’ from member names

root@prx4-c0-3-qrm:/etc/pve#

4.- Respaldar los archivos referentes a la autenticación por llave pública del cliente SSH (ubicados en /root/.ssh/)

NOTA: Dentro de este subdirectorio aparecen dos archivos (aunque también puede aparecer solamente uno de ellos) que no son más que enlaces simbólicos a los archivos authorized_keys y authorized_keys.orig, los cuales están ubicados en el sistema de archivos compartido que se utiliza para replicar la misma información en todos los miembros del clúster Proxmox VE. En otras palabras, los archivos reales están ubicados en /var/lib/pve-cluster/.

Para ello ejecutar el comando siguiente:

root@prx4-c0-3-qrm:/etc/pve# tar -czf /root/root-ssh-backup.tar.gz /root/.ssh

tar: Removing leading `/’ from member names

root@prx4-c0-3-qrm:~#

5.- Copiar los archivos respaldados a un soporte externo o a otro nodo del clúster

Sí, los archivos comprimidos, resultado del respaldo de la información del clúster Proxmox VE y de la autenticación utilizada por el cliente SSH del sistema GNU/Linux subyacente, se deben copiar a un soporte externo (memoria flash o disco duro externo) o a otro miembro del clúster. Dichos archivos serán utilizados a la hora de restaurar la información en la nueva instalación de Proxmox VE en el nodo.

Por ejemplo, para copiar estos archivos a otro nodo del clúster, basta con ejecutar los comandos siguientes:

root@prx4-c0-3-qrm:/# scp /root/*.tar.gz root@10.0.1.18:/root/

etc-corosync-backup.tar.gz                    100%  636     0.6KB/s   00:00

etc-pve-backup.tar.gz                         100%  112     0.1KB/s   00:00

root-ssh-backup.tar.gz                        100% 2128     2.1KB/s   00:00

var-lib-pve-cluster-backup.tar.gz             100%   32KB  32.3KB/s   00:00

root@prx4-c0-3-qrm:/#

Si el proceso de copia finalizó exitosamente, se puede ver en el nodo destino:

root@prx4-c0-1-drbd8:~# ls -lF

total 48

-rw-r–r– 1 root root   636 Jan 26 15:23 etc-corosync-backup.tar.gz

-rw-r–r– 1 root root   112 Jan 26 15:23 etc-pve-backup.tar.gz

-rw-r–r– 1 root root  2128 Jan 26 15:23 root-ssh-backup.tar.gz

-rw-r–r– 1 root root 33081 Jan 26 15:23 var-lib-pve-cluster-backup.tar.gz

root@prx4-c0-1-drbd8:~#

6.- Apagar y reinstalar el nodo o servidor Proxmox VE

NOTA: En la nueva instalación hay que asegurarse de que tenga el mismo nombre FQDN y dirección IP que tenía en la instalación anterior. En este caso:

Nombre FQDN: prx4-c0-3-qrm.lab.codesa.co.cu

Dirección IP: 10.0.1.20/28

7.- Detener los servicios asociados al funcionamiento de Proxmox VE en el nuevo  sistema GNU/Linux recién instalado

Aquí solamente hay que ejecutar los mismos comandos del paso 2:

# systemctl stop pvestatd.service

# systemctl stop pvedaemon.service

# systemctl stop pve-cluster.service

8.- Copiar los archivos compactados anteriormente al nodo recién reinstalado

En este paso solamente hay que realizar el proceso inverso del paso 5. Como se tiene una copia de estos archivos en otro nodo del clúster, solamente hay que “traerlos de vuelta”. Para ello se deben ejecutar los comandos siguientes:

root@prx4-c0-3-qrm:~# scp root@10.0.1.18:/root/*.tar.gz /root/

The authenticity of host ‘10.0.1.18 (10.0.1.18)’ can’t be established.

ECDSA key fingerprint is b3:25:35:1d:97:d0:8a:1e:a8:be:62:1a:2c:05:8e:e4.

Are you sure you want to continue connecting (yes/no)? yes

Warning: Permanently added ‘10.0.1.18’ (ECDSA) to the list of known hosts.

root@10.0.1.18’s password: <Proporcionar contrase;a del root>

etc-corosync-backup.tar.gz                    100%  636     0.6KB/s   00:00

etc-pve-backup.tar.gz                         100%  112     0.1KB/s   00:00

root-ssh-backup.tar.gz                        100% 2128     2.1KB/s   00:00

var-lib-pve-cluster-backup.tar.gz             100%   32KB  32.3KB/s   00:00

root@prx4-c0-3-qrm:~#

9.- Restaurar los archivos referentes a la autenticación por llave pública del cliente SSH (ubicados en /root/.ssh/)

Para ello ejecutar el comando siguiente:

root@prx4-c0-3-qrm:~# cd / ; tar -xzf /root/root-ssh-backup.tar.gz

root@prx4-c0-3-qrm:/#

10.- Reemplazar los datos del clúster Proxmox VE actual con los respaldados anteriormente

Para ello ejecutar los comandos siguientes:

root@prx4-c0-3-qrm:/# rm -rf /etc/corosync

root@prx4-c0-3-qrm:/# rm -rf /etc/pve

root@prx4-c0-3-qrm:/# rm -rf /var/lib/pve-cluster

root@prx4-c0-3-qrm:/# cd / ; tar -xzf /root/etc-corosync-backup.tar.gz

root@prx4-c0-3-qrm:/# cd / ; tar -xzf /root/etc-pve-backup.tar.gz

root@prx4-c0-3-qrm:/# cd / ; tar -xzf /root/pve-cluster-backup.tar.gz

root@prx4-c0-3-qrm:/#

Con esto se garantiza la restauración de la información del clúster Proxmox VE, aunque aún falta por realizar otros pasos para completar el proceso.

11.- Iniciar nuevamente el servicio pve-cluster

Para ello ejecutar el comando siguiente:

root@prx4-c0-3-qrm:/# systemctl start pve-cluster.service

root@prx4-c0-3-qrm:/#

12.- Restaurar los enlaces simbólicos de los archivos del cliente SSH

Para ello ejecutar los comandos siguientes:

root@prx4-c0-3-qrm:/# ln -sf /etc/pve/priv/authorized_keys /root/.ssh/authorized_keys

root@prx4-c0-3-qrm:/# ln -sf /etc/pve/priv/authorized_keys /root/.ssh/authorized_keys.orig

root@prx4-c0-3-qrm:/#

13.- Por último, iniciar nuevamente los restantes servicios asociados al funcionamiento del clúster Proxmox VE

En otras palabras, ejecutar los comandos requeridos para iniciar los servicios a los que hago referencia:

root@prx4-c0-3-qrm:/# systemctl start pvestatd.service

root@prx4-c0-3-qrm:/# systemctl start pvedaemon.service

root@prx4-c0-3-qrm:/#

Si todas estas operaciones fueron exitosas, el resultado se puede ver en el log del nodo lo siguiente:

(…)

Jan 26 17:19:59 prx4-c0-3-qrm pve-ha-crm[917]: ipcc_send_rec failed: Connection refused

Jan 26 17:20:01 prx4-c0-3-qrm pve-ha-lrm[924]: ipcc_send_rec failed: Connection refused

Jan 26 17:20:01 prx4-c0-3-qrm pve-ha-lrm[924]: ipcc_send_rec failed: Connection refused

Jan 26 17:20:01 prx4-c0-3-qrm pve-ha-lrm[924]: ipcc_send_rec failed: Connection refused

Jan 26 17:20:01 prx4-c0-3-qrm cron[893]: (*system*vzdump) CAN’T OPEN SYMLINK (/etc/cron.d/vzdump)

Jan 26 17:20:04 prx4-c0-3-qrm pmxcfs[1127]: [quorum] crit: quorum_initialize failed: 2

Jan 26 17:20:04 prx4-c0-3-qrm pmxcfs[1127]: [quorum] crit: can’t initialize service

Jan 26 17:20:04 prx4-c0-3-qrm pmxcfs[1127]: [confdb] crit: cmap_initialize failed: 2

Jan 26 17:20:04 prx4-c0-3-qrm pmxcfs[1127]: [confdb] crit: can’t initialize service

Jan 26 17:20:04 prx4-c0-3-qrm pmxcfs[1127]: [dcdb] crit: cpg_initialize failed: 2

Jan 26 17:20:04 prx4-c0-3-qrm pmxcfs[1127]: [dcdb] crit: can’t initialize service

Jan 26 17:20:04 prx4-c0-3-qrm pmxcfs[1127]: [status] crit: cpg_initialize failed: 2

Jan 26 17:20:04 prx4-c0-3-qrm pmxcfs[1127]: [status] crit: can’t initialize service

Jan 26 17:20:04 prx4-c0-3-qrm pvecm[1128]: ipcc_send_rec failed: Connection refused

Jan 26 17:20:04 prx4-c0-3-qrm pvecm[1128]: ipcc_send_rec failed: Connection refused

Jan 26 17:20:04 prx4-c0-3-qrm pvecm[1128]: ipcc_send_rec failed: Connection refused

Jan 26 17:20:04 prx4-c0-3-qrm pve-ha-crm[917]: ipcc_send_rec failed: Connection refused

Jan 26 17:20:04 prx4-c0-3-qrm pve-ha-crm[917]: ipcc_send_rec failed: Connection refused

Jan 26 17:20:04 prx4-c0-3-qrm pve-ha-crm[917]: ipcc_send_rec failed: Connection refused

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1139]:  [MAIN  ] Corosync Cluster Engine (‘2.3.5.15-e2b6b’): started and ready to provide service.

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1139]:  [MAIN  ] Corosync built-in features: augeas systemd pie relro bindnow

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [TOTEM ] Initializing transport (UDP/IP Multicast).

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [TOTEM ] Initializing transmit/receive security (NSS) crypto: aes256 hash: sha1

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [TOTEM ] The network interface [10.0.1.20] is now up.

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [SERV  ] Service engine loaded: corosync configuration map access [0]

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [QB    ] server name: cmap

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [SERV  ] Service engine loaded: corosync configuration service [1]

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [QB    ] server name: cfg

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [SERV  ] Service engine loaded: corosync cluster closed process group service v1.01 [2]

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [QB    ] server name: cpg

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [SERV  ] Service engine loaded: corosync profile loading service [4]

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [QUORUM] Using quorum provider corosync_votequorum

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [SERV  ] Service engine loaded: corosync vote quorum service v1.0 [5]

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [QB    ] server name: votequorum

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [SERV  ] Service engine loaded: corosync cluster quorum service v0.1 [3]

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [QB    ] server name: quorum

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [TOTEM ] A new membership (10.0.1.20:4) was formed. Members joined: 3

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [QUORUM] Members[1]: 3

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [MAIN  ] Completed service synchronization, ready to provide service.

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [TOTEM ] A new membership (10.0.1.18:100) was formed. Members joined: 1 2 4

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [QUORUM] This node is within the primary component and will provide service.

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [QUORUM] Members[4]: 1 2 3 4

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1140]:  [MAIN  ] Completed service synchronization, ready to provide service.

Jan 26 17:20:05 prx4-c0-3-qrm corosync[1133]: Starting Corosync Cluster Engine (corosync): [  OK  ]

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [status] notice: update cluster info (cluster name  lab-pve-clr, version = 8)

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [status] notice: node has quorum

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [dcdb] notice: members: 1/838, 2/903, 3/1127, 4/816

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [dcdb] notice: starting data syncronisation

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [dcdb] notice: received sync request (epoch 1/838/00000012)

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [status] notice: members: 1/838, 2/903, 3/1127, 4/816

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [status] notice: starting data syncronisation

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [status] notice: received sync request (epoch 1/838/00000012)

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [dcdb] notice: received all states

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [dcdb] notice: leader is 1/838

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [dcdb] notice: synced members: 1/838, 2/903, 4/816

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [dcdb] notice: waiting for updates from leader

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [status] notice: received all states

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [status] notice: all data is up to date

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [dcdb] notice: update complete – trying to commit (got 4 inode updates)

Jan 26 17:20:10 prx4-c0-3-qrm pmxcfs[1127]: [dcdb] notice: all data is up to date

Jan 26 17:20:30 prx4-c0-3-qrm pvestatd[1177]: starting server

Jan 26 17:20:31 prx4-c0-3-qrm pvedaemon[1181]: starting server

Jan 26 17:20:31 prx4-c0-3-qrm pvedaemon[1181]: starting 3 worker(s)

Jan 26 17:20:31 prx4-c0-3-qrm pvedaemon[1181]: worker 1182 started

Jan 26 17:20:31 prx4-c0-3-qrm pvedaemon[1181]: worker 1183 started

Jan 26 17:20:31 prx4-c0-3-qrm pvedaemon[1181]: worker 1184 started

Jan 26 17:21:01 prx4-c0-3-qrm cron[893]: (*system*vzdump) RELOAD (/etc/cron.d/vzdump)

Jan 26 17:23:52 prx4-c0-3-qrm pmxcfs[1127]: [status] notice: received log

Jan 26 17:38:52 prx4-c0-3-qrm pmxcfs[1127]: [status] notice: received log

(…)

Y si se desea ver que todo esté bien a través de la WebGUI de Proxmox VE, la imagen es similar a esta:

155 - Gestor de Proxmox VE - Cluster Proxmox VE de 4 Nodos (Tercer Nodo Reinstalado)

Concluyendo, el tercer nodo fue reinstalado y restaurada su información exitosamente. 🙂

Y hasta aquí el post. Espero les sirva. 😀

Acerca de Hector Suarez Planas

Es Licenciado en Ciencia de la Computación (3 de julio de 2002). Ha sido Administrador de Red en varias organizaciones, Programador y Analista de Sistemas. Actualmente se desempeña como Administrador de Red del Telecentro Tele Turquino de Santiago de Cuba. Tiene experiencia con sistemas Windows y GNU/Linux, Infraestructura de Redes (Cisco, AlliedTelesis, Netgear y HP ProCurve, Vyatta/VyOS), Servidores tanto físicos como virtuales (plataformas VMWare, Proxmox VE y Xen), Sistemas de Seguridad Informática (Snort/Suricata IDS, appliances AlienVault OSSIM), programador (Delphi, C++ Builder, Perl [poco], Python [algo]), entre otras cosas. Actualmente estoy incursionando en todo lo que tiene relación con Cloud Computing (OpenStack) y Centros de Datos. :-)
Esta entrada fue publicada en Proxmox VE. Guarda el enlace permanente.

55 respuestas a De mi Manual de Proxmox VE 4.x: Configuración de un Clúster de Proxmox VE 4.x

  1. josevte dijo:

    Hola Hector

    muy buenos howts, gacias. seria posible los publicasemos en pdf,asi que puedan servir de recordatorio o ayuda para otras veces

  2. jose vte dijo:

    Hola Hector una pregunta.
    en el cluster de pve 4.x es neceario 3 equipos minimos para HA y que Quorum no quede inestable.

    Como defininimos que equipo es el de Quorum?
    si es posible o es le propio proxmox el que decide segun la actividad de los nodos

    • Hector Suarez Planas dijo:

      Saludos, José.

      En Proxmox VE 4.x es un requisito mandatorio tener como mínimo 3 nodos para formar un clúster. En cuanto a lo otro, recuerda que, a partir de la versión 3.x, todos los nodos tienen el mismo rol. En dependencia de los recursos con los que cuente el nodo, pues, habrá que hacer los ajustes necesarios. 🙂

  3. Ramses dijo:

    Héctor, buenas tardes.

    Fantástico el tutorial.

    Una consulta: Siempre hablas de que es necesario tener 3 nodos en el Cluster para poder tener funcionalidad HA, incluso al principio del tutorial comentas que vas a añadir 3 nodos, sin embargo añades 4 nodos. ¿Podrías aclarar por qué motivo añades 4 nodos?

    Saludos,

    Ramses

    • Hector Suarez Planas dijo:

      Saludos, Ramses.

      Gracias por tu comentario.

      Mira, a partir de la versión 4.x, la cantidad mínima de nodos requerida para garantizar la funcionalidad HA de un Clúster Proxmox es de 3. Ahora bien, ¿por qué usé 4 nodos? Pues, porque quería mostrar dicha funcionalidad y la variente de caída de uno de los nodos. Si lo hiciera solamente con 3, al apagar uno de ellos, echo abajo al clúster completo. 🙂

      Saludos.

      • Ramses dijo:

        Héctor, buenas tardes,

        Yo he montado un entorno de pruebas de un Cluster con 3 nodos únicamente y la funcionalidad HA funciona.

        Si tengo los 3 nodos levantados, por ejemplo con la VM100 en el nodo1, si tiro el nodo1, la VM100 pasa al nodo2 o nodo3.

        Si tiro uno de los 2 nodos que quedan levantados en el Cluster, es decir, dejo sólo 1 nodo levantado, la funcionalidad HA hace un shutdown de la VM100.

        En el momento que levanto otro de los nodos, automáticamente se levanta la VM100.

        Es decir, que con 3 nodos en el Cluster pienso que funciona perfectamente la funcionalidad HA.

        Saludos

        • Hector Suarez Planas dijo:

          Saludos, Ramses.

          Claro que con tres nodos funciona la característica de HA. Lo que, para lograr que las VMs migren sin problemas, debes tener un almacenamiento compartido entre los nodos del clúster. 🙂

          • Ramses dijo:

            Correcto, yo tengo en el entorno de pruebas un FreeNAS donde alojo la VM100.

            Por cierto, comentabas en el tutorial que harías algo más adelante para tocar la funcionalidad HA. ¿Lo has llegado a hacer o aun lo tienes en la lista de TODO?

            Saludos,

            Ramses

          • Hector Suarez Planas dijo:

            Saludos, Ramses.

            Yo utilicé también una herramienta de NAS basada en BSD (no recuerdo ahora si fue el propio FreeNAs o el NAS4Free) para el almacenamiento.

            En cuanto a la funcionalidad HA de Proxmox VE, no he podido por falta de recursos.

            🙁

  4. Juan Jose dijo:

    Saludos , Excelente material, tengo una duda , me llego un blade con dos nodos y quiero poner HA en proxmox tengo un storage nuevo tambien , para hacer el quorum solo le agrego la ip del storage al cluster ? y lo otro que me recomiendas openfiler o freeNas para este ambiente de produccion

    • Hector Suarez Planas dijo:

      Saludos, Juan José.

      Primero que todo, gracias por su comentario.

      Bueno, para ativar la característica de HA en un clúster Proxmox VE 4.x se necesitan, como mínimo, tres nodos. Una alternativa que podría usar es añadir un PC normal al clúster para poder activarla, lo que la parte del live migration de las VMs se debe configurar de manera tal que evite el uso de dicho nodo (un PC no tiene los recursos de un blade).

      En cuanto al storage, no es lo mismo SAN que NAS. Si va a usar un almacenamiento externo para ubicar las imágenesd e los HDD de las VMs/CTs, no hay problema. 🙂

  5. Juan J Morales L dijo:

    Nuevamente Saludos, te comento instale mis 3 Nodos en HA y el Storage utilize el Openmediavault con ISCSI y NFS , mi duda radica en la siguiente cuantos ISCS necesitos para mis 3 nodos ? , ya que voy a tener al rededor de 20 vm y cree solo un iscsi con 21tb y un nfs de 7tb para iso y snapshot .

  6. Juan Jose Morales dijo:

    Saludos Te comento monte mi infraestructura con 3 Nodos y mi storage ISCSI con nappit , lo que si no tengo idea es como hacer funcionar mi maquinas virtuales con el iscsi over zfs , ya que con el iscsi y creando el disco duro lvm m funcionan bien

    • Hector Suarez Planas dijo:

      Saludos, Juan Jose.

      Me alegra que haya completado la infra con la primera variante. Ahora bien, nunca he utilizado napp-it. Me entero ahora de que existe. Ya le di una revisadita en el sitio web y parece estar muy interesante. Cuando tenga un chance probaré cómo funciona.

      Sobre el tema del iSCSI over ZFS, lo que utilicé fue NAS4Free cuando hice el ejemplo en su momento y no me dió problemas. Claro, tuve que leer cómo hacerlo porque era la primera vez que tropezaba con eso. Lo que le sugiero que revise bien, quizás se haya saltado algún paso durante el proceso.

      😐

  7. Juan Jose Morales dijo:

    Saluedos Nuevamente , tengo una duda, mi infraestructura de proxmox trabaja bien pero me di cuenta que no tengo snapshots en vivo de mis vm solo el backup que hago a diario , ahora bien tengo en mis nodos mi storage iscsi tipo LVM compartido, pero la instalacion de los nodos lo hice por default error para mi , si quisiera volver a instalar los nodos con la particion zfs para los snapshots , deberia hacer esto ?

    1 pasar todas mis maquinas en produccion a un nodo
    2. eliminar ese nodo del cluster
    3 hago la maquina nueva con zfs y agrego el storage iscsi lvm donde estan mis maquinas y repito el paso al nodo principal ?

    agradezco tu ayuda. gracia

    • Hector Suarez Planas dijo:

      Saludos, Juan José.

      Primero que todo, gracias por su comentario.

      Exacto, lo más reocmendable es que mueva las VM/CT para otro nodo y vaya barriendo poco a poco con la infraestructura de manera tal que vaya modificando cada uno. Claro está que el quorum del clúster se verá afectado si baja de 3, por ello puede montar otros nodos para mantener dicho quorum solamente, no para albergar instancias virtuales.

      Suerte con eso. 🙂

      • Juan Jose Morales dijo:

        otra duda , si creo mi nuevo nodo con el sistema ZFS local y mi storage central es ISCSI LVM , podre igual hacer snapshot ? gracias nuevamente

        • Hector Suarez Planas dijo:

          Saludos, Juan José.

          Una de las cosas que debes ver, antes de…, es si tu nuevo storage es capaz de sportar instantáneas (snapshot). Normalmente eso está en la Wiki de Proxmox VE. Yo con lo que he probado medio a fondo es el GlusterFS, pero debes invertigar si lo soporta. 🙂

  8. odin dijo:

    Saludos
    muy bueno el post
    necesito su ayuda, tengo 4 servidores blade conectados a una MSA fiber channel los proxmox ven los discos como si fueran discos locales pero no se como configurarlos para HA o cluster, si monto un disco en un server en el otro da error o se monta pero no se ve nada, que puedo hacer???

    • Hector Suarez Planas dijo:

      Saludos, Odin.

      Primero que todo, gracias por tu comentario.

      Bueno, usted me describe el entorno, pero no me da muchos detalles. No he tenido la oportunidad de gestionar una HP MSA, por lo que no puedo darle una respuesta exacta. El comportamiento que me describe es similar al iSCSI. La idea que se me ocurre en este caso, según lo que he leído, sería incluir en el mecanismo del HA el volumen que monta cada servidor, de manera tal que, si se cae el nodo que tiene un determinado volumen, que los otros chequeen el estado del nodo caído y el que menos carga tenga cargue primero el volumen y luego inicie las VMs/CTs.

      Esto yo lo he visto en RHCS, pero nunca lo he hecho en Corosync/Pacemaker.

      La otra alternativa (una menos óptima), sería crear un servidor de almacenamiento con Ceph/GlusterFS/iSCSI/NFS al que le adjunte los volúmenes de la SAN y montar ese almacenamiento en el Proxmox VE. Claro, dicho servidor de almacenamiento debe tener HA como mínimo. Lo malo de esta solución es que incluye una capa más en la infra, la cual requerirá de recursos y configuraciones adicionales.

      Espero le sirva. 🙂

      • Ismael Alvarez Wong dijo:

        hola hector:
        muy bueno este howto de cluster en pve.
        tengo la sgte duda:
        . tengo un pve1 en un segmento de red (ejemplo: 192.168.112.0/24) trabajando hace rato.
        . hace poco me dieron otro servidor fisico y cree un segundo pve2, pero lamentablemente lo tengo en otro segmento de red (192.168.113.0/24).
        . ES POSIBLE CREAR UN CLUSTER ENTRE NODOS PVEs DE DIFERENTES SEGMENTOS?

        • Hector Suarez Planas dijo:

          Saludos, Ismael.

          Primero que todo, gracias por su comentario.

          Si los nodos se “ven” entre sí, no hay problemas. 🙂 De hecho, se pueden proyectar diversas variantes de infraestructura física y crear un clúster Proxmox VE sin problemas. Muy interesante se vuelve si se tuviese una unfra virtual compuesta por varias subredes y servidores. Nada más imagínese cómo lo hace Amazon con sus AWS.

          Ahora yo soy el que tiene una duda: ¿tiene completo el primer rango /24 que no cabe el nuevo nodo o es que está ubicado obligatoriamente en la otra localización? 🙂

  9. Yixo dijo:

    Excelente trabajo con Proxmox,
    Le comento que instalé la versión 4.3 y cuando ejecuto el comando pvecm add x.x.x.x en el 2do nodo me muestra el error unable to create directory ‘/etc/pve/priv’ – Operation not permitted. a que se deberá esto?
    Gracias de antemano…

    • Hector Suarez Planas dijo:

      Saludos, Yixo.

      Primero que todo, gracias por su comentario.

      Primera vez que veo ese error. ¿Qué versión de Proxmox VE 4.3 utiliza? ¿Ha upgradeado a la última versión?

      🙂

  10. Yixo dijo:

    También sale esto si lo vuelvo a intentar
    can’t create shared ssh key database ‘/etc/pve/priv/authorized_keys’
    authentication key already exists
    Gracias de antemano…

    • Hector Suarez Planas dijo:

      Al parecer, durante el proceso de intentar añadir el nodo puso la llave. El archivo se puede editar eliminado la entrada correspondiente, pero se debe hacer con mucho cuidado.

      🙂

  11. Yixo dijo:

    Hola amigo, estoy utilizando el iso proxmox-ve_4.3-e7cdc165 y no he mapeado los repos, tienes alguna recomendación nacional para los mismos? Sobre el error, aún no logro crear un cluster, trabajo con los nodos por separado.
    Gracias de antemano…

    • Hector Suarez Planas dijo:

      Saludos, Yixo.

      Primero que todo, gracias por su comentario.

      Respecto a lo que me pregunta, le sugiero fuertemente usar el ISO de la última versión de Proxmox VE. Ahora bien, con respecto a los repos, tengo entendido que en el FTP de Joven Club están, así como en un repositorio público de la Universidad de Villa Clara. De todas maneras, le sugiero investigar bien.

      Espero le sirva. 🙂

  12. Roy Frances dijo:

    Amigo Tengo 2 nodos proxmox 4.3 con cluster y configuro paso a paso la HA despues de tener mi servidor NFS y cuando apago un nodo las VM se caen y el otro nodo no se hace cargo de ellas. Es obligado tener 3 nodos? y pq con 2 no trabaja la HA

    • Hector Suarez Planas dijo:

      Saludos, Roy.

      Primero que todo, gracias por su comentario.

      Es obligatorio el tener tres nodos como mínimo para habilitar la característica HA en un Cluster Proxmox VE.

      Espero le sirva. 🙂

  13. Emma Díaz dijo:

    Hola Hector muchas gracias por toda la información. En mi trabajo estamos estudiando esto de los cluster para hacer uno, contamos con 4 maquinas, queremos usar 3 y una para NAS. No entiendo mucho del tema si pudieras ayudarme con algunas dudas lo agradecería un montón. Por ejemplo tengo que ponerle una ip a cada nodo para que se conecten entre ellos, además ponerle otra para la red local de mi empresa, pero además tengo dos conexiones externas de internet diferentes que las manejaría a traves de un firewall que tendria en una pc aparte, entonces mi pregunta es para conectar el cluster a la pc de firewall que ip usaría?? la interna de ellos o la local de mi red o cual?? Uso proxmox 4.3. Please ayudame tengo muchas dudas. saludos

    • Hector Suarez Planas dijo:

      Saludos, Enma.

      Primeramente darle las gracias por su comentario, se agradece muchísimo. Y segundo, que me agradó muchísimo ver un comentario de una representante del sexo femenino. Ojalá fuesen muchas, muchas más, dado que llenarían de flores nuestro sombrío y gris mundo de la telemática, donde la interacción personal se hace cada vez más difícil por el tema de la falta de tiempo. 🙂

      Ahora bien, con respecto a lo que desean hacer, sí, pueden usar un clúster de 3 nodos, pero deben tener mu yen cuenta de que tendrían el número mínimo de nodos y si se cae uno de ellos, se cae el clúster completo. En ese aspecto pueden montar un sistema híbrido con Proxmox VE y la SAN/NAS. Eso depende de los datos que van a manejar.

      Por otro lado, básicamente todos los nodos deben tener una dirección IP de gestión, por lo que la infra de red donde van a estar ubicados debe ser buena. Si es básica, en cierta medida se dificulta un poco el trabajo.

      A ver, no se preocupe, yo le escribiré a su correo. 🙂

  14. Virtualizando dijo:

    HOla, tengo una consulta, porque proxmox te exige tres nodos para brindar alta disponibilidad, no se puede hacer con ods

    • Hector Suarez Planas dijo:

      Saludos, Sebantian.

      La respuesta la tiene en el otro comentario que le respondí más arriba.

      🙂

  15. Virumancia dijo:

    hola, excelente tuto… Consulta no logro entender porque Proxmox te pide como minimo tres nodo para lograr la Alta Disponibilidad, no se podria hacer con dos nodos?… en un cluster de dos nodos si se cae uno no empezaria a funcionar el otro nodo ?

    • Hector Suarez Planas dijo:

      Saludos, Virumancia (Sebastian).

      Primero que todo, gracias por su comentario.

      Como dice la literatura, como mínimo se requieren 3 nodos para formar el clúster. Si se utilizan dos, el problema es aún mayor, dado que, si se cae uno de los dos nodos:

      1.- El nodo superviviente sigue funcionando, no hay problema hasta que falle algún EV en él, dado que no encenderá hasta que el quorum se restablezca.
      2.- Y si el segundo nodo se reinicia, no encenderá ningún EV que haya en él, debido a que el quorum no está restablecido.
      3.- Y si se reinician los dos nodos y uno de ellos no puede terminar de iniciar, se cumple el punto anterior.

      Por lo tanto, tres nodos como mínimo. 🙂

      Espero le sirva.

  16. sebastian dijo:

    Hola hector! consulta, es importante que la placa madre soporte virtualizacion ? se puede instalar proxmox igual?

    • Hector Suarez Planas dijo:

      Saludos, Sebastian.

      La cuestión no es la motherboard, sino el micro. Hoy en día ya las motherboards actuales soportan micros de buenas características, entre ellas la virtualización.

      Ahora bien, si su micro no soporta virtualización, puede ir sobreviviendo con los contenedores LXC del Proxmox VE. Ahora bien, en el momento que desee montar una VM, pues, llegará a hacerse una pregunta existencial, dado que no tendrá armas para poder pelear decentemente. 🙂

  17. Hola Hector, de ante mano te felicito por tu post.. Por favor ayudame con el siguiente problema. Cree el cluster con 3 maquinas fisicas y al momento que ingreso a via web proxmox me solicita a cada rato que me autentique, esto pese a que si acepta el usuario y la contraseña, pero luego de unos segundos vuelve a solicitar autenticacion. Talves tienes idea por que? Es esto..

    • Hector Suarez Planas dijo:

      Saludos, Santy.

      Ante todo, gracias por su comentario.

      ¿Le hizo alguna modificación al servicio SSH? Porque eso me sucedía cuando le hacía cambios. Recuerde que, por debajo, cuando los nodos se van uniendo al clúster, tiene lugar la autenticación mediante llave privada y pública. Debe revisar la configuración del servicio SSH.

      Espero le sirva. 🙂

  18. Saludos Héctor

    Muy gentil por contestar el mensaje.
    No le he modificado al servicio SSH, es mas, reinstalé proxmox en las 3 maquinas y al acceder a cada una por separado (no en cluster) luego de ingresar el usuario y contraseña se trabaja normalmente, solo en cluster me solicita usuario y contraseña a cada momento.
    Tal vés me podrías ayudar Héctor brindandome alguna idea de que archivos debo modificar en el servidor fisico proxmox para que funcione adecuadamente el autenticación mediante llave privada y pública. Por favor me podrías responder por interno al correo que solicita el formulario.

    Saludos
    Santiago

  19. ecuatek dijo:

    Buenas tardes, he montado 2 proxmox y configure a modo cluster, cree una VM en uno de los nodos y al momento de realizar pruebas de migracion de la VM hacia el otro nodo, me arroja este log, y de ahi no pasa:
    root@clust2:/etc/pve/qemu-server# qm migrate 603 clust1
    Jun 15 15:19:09 starting migration of VM 603 to node ‘clust1’ (172.31.199.2)
    Jun 15 15:19:09 found local disk ‘local-lvm:vm-603-disk-1’ (in current VM config)
    Jun 15 15:19:09 copying disk images
    Logical volume “vm-603-disk-1” created.
    successfully created ‘local-lvm:vm-603-disk-1’

    Agradezco su ayuda, he realizado algunas pruebas y me pasa lo mismo

    • Hector Suarez Planas dijo:

      Saludos, Ecuatek.

      Primero que todo, gracias por su comentario.

      Antes que nada, decirle que NO es recomendable crea run clúster Proxmox VE 4.x con 2 nodos, dado que el mínimo recomendado para eso es 3.

      En cuanto a la migración en vivo, ¿tiene configurado algún almacenamiento compartido entre los nodos del clúster? Porque, según el log que muestra, el vHDD del EV está en el almacenamiento local, el cual es propio del nodo, no es compartido. 🙂

  20. Eriberto Minguel Pantaleon dijo:

    Tengo un proxmox en cluster que no levanta porque cman da error sabes alguna solucion

    • Hector Suarez Planas dijo:

      Saludos, Eriberto.

      Hay que ver qué fue lo que pasó. Recuerda que el file system usado en el clúster de Proxmox Ve se replica entre los nodos. Dicho “FS” no es más que un archivo ubicado en /var/lib/pve-cluster. Una falla en la sincronización y se forma la catástrofe.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *