Ir para seção

O que é alta disponibilidade?

Copiar URL

Alta disponibilidade é a capacidade de um sistema de TI de ser acessível e de confiança quase 100% do tempo, eliminando ou minimizando o downtime. Ela combina dois conceitos para determinar se um sistema de TI está cumprindo com o nível de desempenho operacional prometido: a) o serviço ou servidor deve estar acessível ou disponível quase 100% do tempo sem downtime; e b) esse serviço ou servidor deve funcionar de acordo com expectativas razoáveis durante um período estabelecido. A alta disponibilidade vai além de alcançar o contrato de nível de serviço (SLA) de uptime ou satisfazer as expectativas definidas entre o provedor do serviço e o cliente. Trata-se de ter um sistema verdadeiramente resiliente, confiável e funcional.

 

Com a adoção de serviços online e cargas de trabalho híbridas, cresceu a demanda por infraestruturas que sejam capazes de suportar o aumento das cargas de sistemas e que mantenham os padrões operacionais. Para sustentar uma alta disponibilidade, essas infraestruturas, normalmente chamadas de "sistemas de alta disponibilidade", devem alcançar resultados quantificáveis definidos, e não somente "funcionar melhor".

Uma das metas das soluções ou serviços que prometem alta disponibilidade é chegar aos cinco noves, ou seja, o sistema permanece em execução e totalmente funcional durante 99,999% do tempo. Normalmente, somente os sistemas críticos, como dos setores de saúde, governo e serviços financeiros, precisam obrigatoriamente desse nível de disponibilidade, por motivos de conformidade e concorrência. No entanto, muitas empresas e setores têm a necessidade de que os sistemas de alta disponibilidade mantenham 99,9% (ou até mesmo 99,99%) de uptime para oferecer acesso digital constante a pessoas que trabalham remotamente e clientes.

Para que uma infraestrutura tenha alta disponibilidade é necessário detectar e eliminar os pontos únicos de falha que poderiam aumentar o downtime do sistema e impedir que a empresa atinja as metas de desempenho. O ponto único de falha é um aspecto qualquer na infraestrutura capaz de deixar o sistema inteiro offline. Nos sistemas mais complexos, é possível que existam vários pontos únicos de falha.

As empresas também precisam levar em consideração os diferentes tipos de falhas que podem ocorrer em uma infraestrutura de TI moderna e complexa. Alguns exemplos são falhas de hardware, software (tanto no sistema operacional como nas aplicações em execução), serviço (como rede inacessível, latência ou degradação de desempenho/serviços de computação em nuvem) e externas (como uma queda de energia).

O primeiro passo a ser tomado para chegar à alta disponibilidade é determinar especificamente os resultados mais importantes que a empresa quer conquistar, com base nos principais serviços, requisitos regulatórios ou de conformidade e de carga de trabalho, benchmarks de desempenho, aplicações críticas e prioridades operacionais:

 

  • Quais são os requisitos de uptime para manter a conformidade regulatória e proporcionar uma boa experiência de usuário?
  • Como o ambiente está distribuído? Quais são os principais pontos de falha?
  • Qual é o desempenho necessário para a aplicação? Quais são os riscos ao atingir esse desempenho (por exemplo, alto tráfego de usuários ou cargas pesadas de gravação)?
  • Qual é o tipo de armazenamento usado?
  • Quais regulamentos estão relacionados ao acesso e à perda de dados?
  • Considerando os recursos de TI atuais, quais SLAs são possíveis de cumprir no caso de uma interrupção? Qual é a programação atual de manutenções planejadas e como isso vai afetar o uptime?
  • Existem planos para diferentes cenários de recuperação de desastres ou alterações nas operações empresariais?

Há várias métricas comuns que as equipes de TI usam para determinar se um ambiente ou arquitetura de alta disponibilidade está cumprindo os objetivos. Algumas são mais relevantes para uma determinada arquitetura do que outras, mas vale a pena avaliar todas para definir as expectativas em termos de desempenho:

  • Tempo médio entre falhas (MTBF): por quanto tempo o ambiente permanece em operação entre falhas de sistema.
  • Downtime médio: por quanto tempo um sistema permanece inativo (minutos de downtime) antes de ser recuperado ou substituído na topologia.
  • Objetivo de tempo de recuperação (RTO): o tempo total para concluir um reparo e colocar um sistema online novamente.
  • Objetivo de ponto de recuperação (RPO): o momento em que deverá ser possível recuperar os dados. Trata-se da janela de perda de dados. Por exemplo, se um determinado sistema depende de backups para acionar um outro sistema e esses backups são diários, pode haver 24 horas de dados perdidos no sistema recuperado. No entanto, quando o armazenamento é replicado ou compartilhado, a perda de dados pode ser de apenas alguns minutos ou menos.

Uma arquitetura com alta disponibilidade incorpora os princípios de cada camada do planejamento de continuidade, como monitoramento e automação. Isso torna o sistema, em geral, mais resiliente contra todos os tipos de falha, desde problemas pontuais até uma queda total. Além disso, o sistema pode permanecer em funcionamento mesmo durante as manutenções planejadas e outras interrupções do serviço.

Um plano de recuperação de desastres ou de continuidade deve incorporar abordagens para cada possível falha:

  • Antecipação de falhas específicas: para cada área, a equipe de arquitetura de TI precisa se certificar de que os sistemas são redundantes e de que há sistemas de backup disponíveis em caso de falha. A próxima etapa é automatizar os processos de failover e de detecção de falhas a fim de detectar automaticamente os sistemas inativos e transferir os serviços para o sistema de backup.
  • Gerenciamento proativo do desempenho: a tolerância a falhas vai cuidar de uma interrupção, mas não necessariamente da degradação do desempenho. É nesse momento que o balanceamento de carga e a escalabilidade são úteis. Nesse caso, a equipe de arquitetura de TI monitora o desempenho do sistema e usa vários outros para gerenciar as operações e solicitações de usuários. Os balanceadores de carga e gerenciadores de tráfego podem encaminhar o tráfego de maneira inteligente em tempo real com base em fatores como largura de banda, desempenho do sistema, usuário ou tipo de solicitação.
  • Administração de catástrofes: as falhas que atingem uma grande extensão ou a totalidade da infraestrutura (como a queda de um provedor de nuvem ou um desastre natural no local onde está o data center) são raras. No entanto, elas exigem uma abordagem mais abrangente do que as falhas de hardware/software. Além de colocar a infraestrutura novamente online, é necessário ter dados atualizados. Isso é possível de maneira síncrona com a replicação (com risco de perda de desempenho) ou de maneira assíncrona com os backups dos dados (com risco de perda de dados).

As arquiteturas com alta disponibilidade executam clusters de failover. Portanto, já contam com redundância e failover integrados, além de downtime zerado. Dentro do cluster, os nós são monitorados não apenas para fins de disponibilidade, mas também em termos de desempenho geral de aplicações, serviços e rede. Como o armazenamento é compartilhado, não há perda de dados quando um nó fica inativo. Todos os nós do cluster funcionam com a mesma fonte de dados. E ainda é possível usar o balanceamento de carga para gerenciar o tráfego e obter o melhor desempenho.

Além dessas características mais gerais, é possível criar clusters de alta disponibilidade para trabalhos especializados, dependendo das prioridades e atividades na infraestrutura de TI. Por exemplo, o Red Hat Enterprise Linux High Availability Add-On conta com quatro configurações padrão:

  • Alta disponibilidade: prioriza o uptime e a disponibilidade
  • Alto desempenho: prioriza a alta velocidade e as operações simultâneas 
  • Balanceamento de carga: prioriza a escalabilidade com melhor custo-benefício
  • Armazenamento: prioriza a resiliência no gerenciamento de dados

Na prática, os sistemas de alta disponibilidade incorporam aspectos desses quatro elementos.

A alta disponibilidade diz respeito à infraestrutura inteira. É necessário que ela seja mantida no gerenciamento de dados e do armazenamento em ambientes separados (físicos e na nuvem) e nos diferentes locais em que aplicações e serviços são executados. É por isso que uma plataforma comum e um ambiente operacional padrão formam uma configuração poderosa: a consistência persiste em qualquer ambiente de implantação.

O Red Hat Enterprise Linux oferece recursos e serviços extras em pacotes complementares que você pode incorporar ao seu sistema. O Red Hat Enterprise Linux High Availability Add-On cuida dos aspectos de rede, cluster e armazenamento na topologia.

Como a alta disponibilidade está intimamente ligada ao gerenciamento de dados, as implantações Red Hat Enterprise Linux para Microsoft SQL Server e SAP também incluem o Red Hat Enterprise Linux High Availability Add-On.