Planifique y prevenga eventuales desastres

Jose Duran

¿Cómo los líderes de las empresas se preparan para las interrupciones y minimizan el impacto en los usuarios?

CIO

Los costos por tiempo de inactividad, la reputación de la compañía, la experiencia del cliente y la confianza, nunca han sido tan altos. Dada la naturaleza constante y conectada de las empresas de software, los usuarios han llegado a ser menos indulgentes y más volubles con su atención.

Una interrupción en un solo servicio puede afectar a todos sus consumidores. Una interferencia en una plataforma de arquitectura multi-tenant tiene un impacto exponencial, ya que perjudica a los abonados de todos los proveedores que ejecutan sus servicios en la plataforma.

Equilibrando la preparación para un evento de cisne negro contra sucesos menores de tiempo de inactividad

A medida que las entidades buscan diseñar sus soluciones de recuperación ante desastres, es fácil enfocarse únicamente en prever los grandes inconvenientes y las suspensiones. Estos son los incidentes de “cisne negro” que tienen un impacto increíblemente grande y casi diezmador en la disponibilidad de los servicios.

También: 7 consejos para desarrollar un plan ante desastres de datos

El acontecimiento puede ser amplio, es decir, puede extender el tiempo en que el servicio está fuera y la cantidad de datos perdidos. Sin importar que tan grandes son estos últimos, el golpe de las interrupciones de menor duración, pero frecuentes, no puede ser ignorado.

Las instituciones deben prestar atención para determinar, descubrir y evitar estas fallas más pequeñas que pueden ocurrir con mayor frecuencia. Estos pequeños tiempos de inactividad llegarían a acumularse en el transcurso de un año y anular por completo los objetivos y metas relacionadas con la disponibilidad del servicio.

Hay varias opciones accesibles para la recuperación de incidentes, desde soluciones de rehabilitación local, hasta el restablecimiento de problemas basado en la nube, el cual aprovecha las capacidades de infraestructura y plataforma ofrecidas por los principales operadores, como AWS, GCP y Microsoft Azure.

Costo de las pequeñas interrupciones

El valor de los cortes menores se puede acumular fácilmente. Las eventualidades frecuentes aumentan la probabilidad de que un mayor número de usuarios se vean afectados por el tiempo de inactividad. Además, la posibilidad de que un mismo individuo se vea perjudicado repetidamente también se eleva.

Dichas paradas constantes pueden erosionar la confianza en el servicio. Incluso si no se produce un abandono inmediato, la consecuencia de repetidas fallas puede ser algo a tener cuenta al momento de la renovación. El cliente puede optar por no expandir el tamaño del servicio o decidir no actualizar la contratación.

Las compañías de SaaS, que dependen de los ingresos recurrentes mensuales o anuales, son extremadamente susceptibles al impacto de los tiempos de paro frecuentes y de menor duración.

Capacidades clave para desarrollar resistencia

Las organizaciones que buscan desarrollar defensar contra las suspensiones, tanto mayores como menores, deben centrarse en crear y mantener las siguientes capacidades.

1. Copias de seguridad continuas

Todos los sistemas esenciales que ofrecen servicio de tráfico se deben respaldar continuamente. Además de estar diseñado de forma sosegada, los datos generados, actualizados y mantenidos por estos servicios deben ser protegidos constantemente en un sistema de recuperación de desastres local, centralizado o basado en la nube.

Las copias de seguridad deben ser tan incesantes como sea posible, sin afectar la calidad del servicio y el rendimiento del sistema. Al mismo tiempo, tienen que ser tanto incrementales como instantáneas para otorgar flexibilidad y capacidad para restablecerse de cualquier pausa. 

2. Monitoreo continuo

Todos los sistemas clave que brindan servicios de tráfico también necesitan ser monitoreados continuamente. Esto es fundamental para garantizar que las detenciones se detecten lo antes posible y que la rehabilitación de inconvenientes se ponga en marcha de inmediato.

Similar a la copia de seguridad, la monitorización debe implementarse en un sistema que no se vea damnificado por la misma interrupción que ha afectado al servicio principal. En paralelo, los sistemas de retroalimentación de los clientes también deben ser observados para crear informes sobre las pausas del servicio.

Tan pronto como los reportes comiencen a llegar o los sistemas de monitoreo notifiquen un alto, se deberá confirmar el suceso y poner en marcha los procedimientos de recuperación.

3. Tolerancia frente a fallos

Una vez que se ha detectado una eventualidad, se ha divulgado y corroborado, se debe arrancar un protocolo de migración que pueda activar servidores nuevos con la capacidad de continuar atendiendo el tráfico.

Esto se hace asegurándose que los servidores puedan tomar las funciones de los otros dañados. Los de conmutación por error deben configurarse para acceder a las copias de seguridad que contienen el estado y la información requerida para atender el tráfico.

No olvide ver: El uso de las TIC en la prevención de desastres

4. Recuperación

Una vez que finalice el suceso y los problemas subyacentes en el entorno de servicio primario han sido diagnosticados, fijados y confirmados, un proceso de restablecimiento debe revertir todos los servicios al entorno primario. Una vez que la conmutación por recuperación se haya ratificado con éxito, los servidores de reincorporación pueden ser devueltos y destruidos.

Conclusión

En una encuesta reciente , se reportó que solo el 37% de los consultados cumplía con sus objetivos de disponibilidad de servicio. También se informó que el 71% había experimentado una interrupción en los últimos 12 meses, y el 41% se enfrentó a una en los últimos 3 meses.

Esto demuestra que las detenciones no solo son frecuentes sino también esperadas, por lo que requieren una planificación y un diseño cuidadosos no solo para mitigarlas sino para garantizar una recuperación y restauración rápidas del servicio. Las compañías tienen varias opciones a su disposición que deben evaluar cuidadosamente y elegir la opción que mejor se adapte a sus necesidades, garantizando la agilidad requerida para detectar y hacer frente a las situaciones inesperadas.

Este artículo está clasificado como: , , , , ,

Comentarios

Para poder comentar debe iniciar su sesión:

INGRESAR