You are on page 1of 6

Alta disponibilidad

Alta disponibilidad (High availability) es un protocolo de diseo del sistema y su


implementacin asociada que asegura un cierto grado absoluto de continuidad
operacional durante un perodo de medicin dado. Disponibilidad se refiere a la
habilidad de la comunidad de usuarios para acceder al sistema, someter nuevos trabajos,
actualizar o alterar trabajos existentes o recoger los resultados de trabajos previos. Si un
usuario no puede acceder al sistema se dice que esta no disponible. El trmino tiempo
de inactividad (downtime) es usado para definir cuando el sistema no est disponible.

El objetivo general es maximizar el tiempo disponible de los sistemas en lnea, y en una


sola frase, tolerantes a fallas. Restricciones fuera del ambiente de TI hace que este reto
sea casi imposible de cumplir. Estas restricciones incluyen limitaciones de presupuesto,
fallas en los componentes, cdigo de software mal escrito, error humano, diseos
errneos, desastres naturales, y hasta cambios imprevisibles en los negocios como las
compras, adquisiciones, fusiones, y hasta cambios polticos. Estos son los factores que
trabajan en contra del ideal de 100% de disponibilidad.

Hay que determinar qu se entiende como alta disponibilidad, la cual cambia para cada
empresa. Si es un negocio que solo est abierto al pblico de 8 de la maana a 6 de la
tarde, y en este horario puede cumplir con todo el procesamiento de la informacin, la
disponibilidad durante este perodo se considera 100%. Por el contrario, una tienda web
que debe estar disponible las 24 horas del da, 7 das a la semana, tendr que disponer
de los sistemas de informacin durante el mismo perodo para alcanzar el 100% de
disponibilidad.

Hay varias estrategias que se pueden utilizar para maximizar la disponibilidad sin
quebrar econmicamente a la empresa.

REDUNDANCIA
Los fabricantes han estado diseando redundancia en sus productos en forma de fuentes
de poder redundantes, mltiples procesadores, memoria segmentada y discos
redundantes. Esto tambin se puede referir a sistemas de servidores corriendo en modo
de alerta en caliente en otra ubicacin. Se puede tambin configurar de la misma manera
los controladores de discos y de cintas con rutas paralelas, repartiendo la carga de la red
en dos lneas y proporcionando consolas alternas de control. En pocas palabras,
eliminando lo ms que se pueda, cualquier punto nico de falla que pueda interrumpir la
disponibilidad del servicio.

TIEMPO DE INACTIVIDAD

Tpicamente tiempo de inactividad planificado es un resultado del mantenimiento que es


perjudicial para la operacin del sistema y usualmente no puede ser evitado con la
configuracin del sistema actualmente instalada. Eventos que generan tiempos de
inactividad planificados quizs incluyen parches al software del sistema que requieran
un rearranque o cambios en la configuracin del sistema que toman efecto despus de
un rearranque. En general el tiempo de inactividad planificado es usualmente el
resultado de un evento lgico o de gestin iniciado.

Tiempos de inactividad no planificado surgen de algn evento fsico tales como fallos
en el hardware o anomalas ambientales. Ejemplos de eventos con tiempos de
inactividad no planificados incluyen fallos de potencia, fallos en los componentes de
CPU o RAM, una cada por recalentamiento, una ruptura lgica o fsica en las
conexiones de red, rupturas de seguridad catastrficas o fallos en el sistema operativo,
aplicaciones y middleware.

Muchos puestos computacionales excluyen tiempo de inactividad planificado de los


clculos de disponibilidad, asumiendo, correcta o incorrectamente, que el tiempo de
actividad no planificado tiene poco o ningn impacto sobre la comunidad de usuarios
computacionales. Excluyendo tiempo de inactividad planificado, muchos sistemas
pueden reclamar tener alta disponibilidad fenomenal, la cual da la ilusin de
disponibilidad continua. Sistemas que exhiben verdadera disponibilidad continua son
comparativamente raros y caros, y ellos tienen diseos cuidadosamente implementados
que eliminan cualquier punto de fallo y permiten que el hardware, la red, el sistema
operativo, middleware y actualizacin de aplicaciones, parches y reemplazos se hagan
en linea.

CLCULOS PORCENTUALES

Disponibilidad es usualmente expresada como un porcentaje del tiempo de


funcionamiento en un ao dado. En un ao dado, el nmero de minutos de tiempo de
inactividad no planeado es registrado para un sistema, el tiempo de inactividad no
planificado agregado es dividido por el nmero total de minutos en un ao
(aproximadamente 525.600) produciendo un porcentaje de tiempo de inactividad; el
complemento es el porcentaje de tiempo de funcionamiento el cual es lo que
denominamos como disponibilidad del sistema. Valores comunes de disponibilidad,
tpicamente enunciado como nmero de "nueves" para sistemas altamente disponibles
son:

99,9% = 43.8 minutos/mes o 8,76 horas/ao ("tres nueves")


99,99% = 4.38 minutos/mes o 52.6 minutos/ao ("cuatro nueves")
99,999% = 0.44 minutos/mes o 5.26 minutos/ao ("cinco nueves")

Es de hacer notar que tiempo de funcionamiento y disponibilidad no son sinnimos. Un


sistema puede estar en funcionamiento y no disponible como en el caso de un fallo de
red.
La siguiente tabla muestra el tiempo de inactividad que se permite para un determinado
porcentaje de disponibilidad, la presuncin de que el sistema se requiere para operar
continuamente. Acuerdos de nivel de servicio a menudo se refieren al mes de
inactividad con el fin de calcular los crditos de servicios para que coincida con los
ciclos de facturacin mensual.

MEDIDA E INTERPRETACIN

Claramente como la disponibilidad medida est sujeta a algn grado de interpretacin.


Un sistema que ha estado en funcionamiento por 365 das en un ao no bisiesto quiza ha
sido eclipsado por un fallo de red que duro 9 horas durante un periodo de uso pico; la
comunidad de usuarios ver el sistema como no disponible, mientras el administrador
del sistema reclamara el 100% de tiempo de funcionamiento. Sin embargo siguiendo
la verdadera definicin de disponibilidad, el sistema estar aproximadamente 99.897%
disponible (8751 horas de time out de las 8760 horas por ao no bisiesto).

Tambin sistemas experimentando problemas de rendimiento son frecuentemente


estimados como entera o parcialmente no disponibles por los usuarios mientras
administradores quizs tengan una diferente (y probablemente incorrecta, ciertamente
en el sentido del negocio) percepcin. Similarmente no disponibilidad de funciones de
aplicacin no seleccionadas quizs pasen inadvertidas para administradores sin embargo
podran ser devastadoras para usuarios una verdadera medida de disponibilidad es
integral.

Disponibilidad debe ser medida para ser determinada, idealmente con herramientas de
monitorizacin comprensivas ("instrumentacin") que son ellas mismas altamente
disponibles. Si hay una falta de instrumentacin, sistemas soportando un alto volumen
de procesamiento de transacciones a travs del dia y la noche tales como procesamiento
de tarjetas de credito o conmutadores telefnicos, son frecuentemente e inherentemente
mejor monitorizados, al menos por los mismos usuarios, que sistemas que experimentan
pausas peridicas en la demanda.
CONCEPTOS RELACIONADOS

Tiempo de recuperacin esta cercanamente relacionado con la disponibilidad, que es el


tiempo total requerido para un apagn planificado o el tiempo requerido para la
recuperacin completa de un apagn no planificado. Tiempo de recuperacin puede ser
infinito con ciertos diseos y fallos del sistema, recuperacin total es imposible. Uno de
tales ejemplos es un incendio o inundacin que destruye un centro de datos y sus
sistemas cuando no hay un centro de datos secundario para recuperacin frente a
desastres.

Otro concepto relacionado es disponibilidad de datos, que es el grado para el cual las
bases de datos y otros sistemas de almacenamiento de la informacin que registran y
reportan fielmente transacciones del sistema. Especialistas de gestin de la informacin
frecuentemente enfocan separadamente la disponibilidad de datos para determinar
perdida de datos aceptable o actual con varios eventos de fracasos. Algunos usuarios
pueden tolerar interrupciones en el servicio de aplicacin pero no perdida de datos

DISEO DE UN SISTEMA DE ALTA DISPONIBILIDAD

Paradogicamente, aadiendo ms componentes al sistema total puede socavar esfuerzos


para lograr alta disponibilidad. Esto es debido a que sistemas complejos tienen
inherentemente ms puntos de fallos potenciales y son ms difciles de implementar
correctamente. La mayora de los sistemas altamente disponibles extraen a un patrn de
diseo simple: un sistema fsico multipropsito simple de alta calidad con redundancia
interna comprensible ejecutando todas las funciones intedependientes emparejadas con
un segundo sistema en una localizacin fisca separada.

Este clsico patrn de diseo es comn entre instituciones financieras por ejemplo. La
industria de la informtica y las comunicaciones ha establecido el Servicio Forum de la
Disponibilidad acogera la creacin de productos de infraestructura de red, servicios y
sistemas de alta disponibilidad. El mismo principio de diseo bsico se aplica ms all
de la informtica en diversos campos como potencia nuclear, aeronautica y cuidados
mdicos..

REPUTACIN

La reputacin de los proveedores clave como servidores, almacenamiento, bases de


datos y equipos de redes juegan un papel principal en la bsqueda de la alta
disponibilidad. Hay varias maneras para verificar la reputacin como porcentaje de
participacin en el mercado, comportamiento histrico en clientes, y reportes de
analistas de industria
CONFIABILIDAD

La confiabilidad de los equipos y de los programas tambin se puede verificar por


referencias de clientes y analistas de industria. Adems se recomienda establecer un
monitoreo permanente a travs de la gente de operaciones, soporte y tcnicos del
proveedor, adems de comparar con otros departamentos de TI. Aunque pudiera parecer
que la informacin de los tcnicos del proveedor podra estar sesgada, en mi experiencia
conozco de la seriedad y franqueza de los tcnicos que son consientes que al conocer
esta informacin, mi plan de continuidad tiene mayor probabilidad de operar.

FACILIDAD DE REPARACIN

Este factor califica la facilidad relativa con la cual los responsables del servicio tcnico
pueden arreglar la falla. Dos mtricas comunes para medir esto es cuanto se demora en
hacer el trabajo de reparacin, y cad cuanto se debe repetir. En sistemas mas
sofisticados, se pueden establecer centros de diagnstico remoto que permite detectar
fallas, y montar medidas que la eviten.

RESTABLECIMIENTO

Se refiere a la habilidad para sobreponerse a una falla momentnea, de tal manera que
no haya impacto en la disponibilidad para el usuario final. Puede ser tan pequeo como
una pequea porcin de la memoria recuperndose de un error insignificante, o algo tan
grande como un sistema de servidores que decida invernar sin razn alguna, sin perdida
de informacin transaccional. El restablecimiento tambin incluye repetidos ensayos de
escritura y/o lectura a un disco o a una cinta, al igual que la retransmisin a travs de
lneas de redes.

ROBUSTEZ

Esta ltima caracterstica de alta disponibilidad describe el diseo general del proceso
de disponibilidad. Un proceso robusto resistir una variedad de ataques, tanto internos
como externos, que podran fcilmente interrumpir y daar la disponibilidad en un
ambiente ms dbil. Robustez implica un alto nivel de documentacin y entrenamiento
para absorber cambios tcnicos a las plataformas, productos, servicios y clientes;
cambios de personal cuando hay rotacin y expansin, y cambios en los negocios
cuando hay nuevos objetivos, adquisiciones, y fusiones.

El entendimiento de estas caractersticas ayudar a mantener un alto nivel de


disponibilidad de su infraestructura.

You might also like