5 falhas que podem impactar o seu data center

Proteção contra falhas, Backup

5 FALHAS QUE PODEM IMPACTAR O SEU DATA CENTER

Posted by Bruna Spaniol on July 05 in Proteção

Quando falamos em falhas muitos pensam logo em desastre. Entretanto, como já abordamos no post “As dez perguntas mais comuns sobre proteção de dados” as falhas por catástrofes são responsáveis por apenas 2% das causas indisponibilidade dos dados, já falhas de componentes (49%), humanas (29%) e de software (13%)[1] são os principais motivos de perda de dados e indisponibilidade. Além desses motivos, o desempenho insuficiente também pode impactar negativamente seu data center. A grande pergunta é, como posso me proteger desses problemas?

Falhas Humanas

Esse tipo de falha pode causar problemas nos dados, seja por exclusão do mesmo, corrupção ou modificação. Além disso, falhas humanas também são responsáveis por erros na configuração dos componentes o que também podem causar falhas de desempenho.

O impacto e a severidade das consequências dos erros humanos podem ser reduzidos através de soluções tanto tecnológicas como de treinamento. No primeiro caso, é possível recuperar tanto os dados como as configurações corretas dos componentes utilizando soluções de backup, proteção de dados contínua, replicação local e snapshots. Dessa forma, essas soluções funcionam como um seguro de forma que se algum procedimento der errado seja possível voltar à configuração anterior ao incidente causado pelo erro humano.

A capacitação da equipe também é uma forma de evitar e prevenir erros humanos. Além disso, processos de TI e rotinas da equipe bem estruturadas diminuem os riscos de alterações inadequadas ou“gambiarras”, e simplificam o gerenciamento do data center.

Falhas de componentes do data center

Essas falhas podem estar diretamente relacionadas à disponibilidade do seu ambiente de TI. Elas podem ser causadas por problemas nos ativos, seja por queda de energia, quebra do ar-condicionado, bateria ou disco do storage. Não há como prever ou evitar a falha de um hardware, o que pode ser feito é prevenir que essa falha possa causar indisponibilidade ou perda de dados.

Uma solução de prevenção deve garantir a redundância dos componentes do data center, possuir detecção de falha e contingência automatizada.

Isso significa que se alguma falha ocorrer essa solução deve detectar e, automaticamente, ativar o componente redundante para que não haja parada do serviço ou perda dos dados. São exemplos de prevenção: cluster de servidores, empilhamento de switches, redundância de ar condicionado, RAID (exceto o RAID 0), etc.

Para evitar as falhas componentes também é necessário manter as garantias válidas e realizar rotinas de manutenção do Data Center.

Falhas de Software

Problemas com software podem dar muitas dores de cabeça em toda a empresa, pois, além de causar indisponibilidade nas aplicações, também podem corromper ou excluir dados. Essas falhas geralmente ocorrem por falta de manutenção, erros de programação e por incompatibilidade entre aplicações ou mesmo com hardware. Essas falhas podem ser a nível de sistema operacional ou a nível de aplicações.

Os softwares sofrem degradação com o tempo, isso ocorre porque o ambiente muda, a tecnologia evolui e as empresas precisam adequar os recursos às demandas operacionais e técnicas. Por causa disso, eles precisam ser atualizados de maneira que acrescente novas funcionalidades e se integre a tecnologias mais atuais. A falta dessas atualizações pode causar problemas como falta de desempenho e incompatibilidade com outras aplicações ou com o sistema operacional e indisponibilidade dos dados.

As atualizações também visam corrigir os erros de programação e falhas de segurança que podem causar grandes estragos além de expor a segurança dos dados de uma empresa. Por isso é necessário aplicar os patches e realizar as atualizações de segurança para manter seu ambiente seguro. É importante ressaltar que antes de realizar uma grande atualização no sistema é imprescindível fazê-la em um ambiente de homologação em horários que não impacte a produção.

Outro motivo de falta de software é a incompatibilidade entre aplicações que se relacionam

isso pode gerar não só indisponibilidade como também danificar o equipamento. Para evitar esse tipo de problema é necessário verificar nas matrizes de compatibilidade dos softwares para identificar quais equipamentos e outros softwares são interoperáveis com o que você pretende instalar. Além disso, é necessário verificar os requisitos de hardware para que consiga atender as necessidades da aplicação.

As falhas podem ocorrer a nível do sistema operacional. Neste caso elas podem remover tudo o que a máquina estava rodando no momento do problema e isso pode ser devastador para a produção, já que o serviço pode ficar completamente indisponível. Quando se fala de mais de um serviço rodando no mesmo servidor as consequências podem ser ainda maiores do que as falhas de aplicação. Isso ocorre porque as falhas nas aplicações são mais limitadas no escopo de seu estrago, pois esse tipo de falha talvez impacte apenas uma pessoa, ou pequeno grupo não crítico. Por outro lado, se a falha ocorrer no SO de um servidor que roda uma gama de aplicações clientes, as consequências podem atingir a várias aplicações e usuários.

Não é possível prevenir esse tipo problema, o que pode ser feito é remediá-lo, de maneira que seu impacto na produção e ou a perda de dados causada por ele seja mínima. Para isso, é necessário estar munido de soluções como backup, proteção de dados contínua e snapshots. Essas soluções reduzem o RPO e permitem recuperar os dados em um ponto no tempo pré-definido antes da ocorrência do problema.

Desempenho insuficiente

Muitas vezes o ambiente cresce, as aplicações evoluem, o número de usuários aumenta, entretanto, a infraestrutura continua a mesma desde que o negócio começou, ou seja, não cresce no mesmo ritmo. Esse cenário é típico de um ambiente com problemas de desempenho. Os problemas de desempenho podem causar indisponibilidade dos serviços. Isso ocorre porque quando o número de tarefas é maior do que a capacidade de processamento dos dados, essas tarefas ficam em filas, até que chega uma hora que a fila é tão grande que na percepção dos usuários é como se o sistema estivesse congelado.

Esse tipo de falha causa muitos transtornos e prejuízos financeiros às organizações, já que muitas vezes, um ambiente parado causa não só perda de produção como também de vendas, usuários e clientes insatisfeitos. Para resolver esse tipo de problema geralmente é necessário realizar investimento em infraestrutura de maneira que o provisionamento do data center seja escalável e permita o crescimento ao longo do tempo.

Catástrofe

Como já falamos, as falhas causadas por catástrofe são responsáveis por apenas 2% das causas indisponibilidade dos dados, entretanto quando elas acontecem causam grande estrago. As causas geralmente não controladas, muitas vezes se originam de questões da natureza como tempestades, furacões, terremotos, calor demasiado; também podem ser causadas por fogo, atentados terroristas, explosões, etc. Esse tipo de situação geralmente destrói por completo o data center e todos os dados que estão nele. A única forma de se proteger desse tipo de falha é a prevenção.

A prevenção é feita através de um plano de desastres. Estes planos devem incluir políticas de proteção e recuperação de dados de forma externa; dependendo das necessidades da organização, ter um ou vários sites redundantes denominados “site desastre”. Estes sites desastre tem a função de assumir o fornecimento dos serviços críticos caso o data center primário sofra paradas que impossibilitem a retomada da produção da organização de forma rápida de acordo com as necessidades do negócio. Cabe ressaltar que esses sites devem ser remotos ou geograficamente distantes do data center principal.

Como se proteger de falhas no data center

Evitar paradas não planejadas e perda de dados é uma tarefa diária que começa com o provisionamento adequado da infraestrutura para o negócio, utilizando estratégias de contingência e provendo disponibilidade ao data center. Entretanto, não basta ter um data center adequado e redundante se a equipe não está preparada para lidar com a complexidade da solução. O time de TI deve estar preparado não só para manter tudo funcionando como também para tomar decisões em caso de falhas.

A partir disso é possível concluir que evitar as falhas comuns e manter um nível de serviço adequado no dia-a-dia é mais importante, estatisticamente, do que em casos de desastres. Isso significa que é melhor ter um data center primário com alto nível de disponibilidade do que com dois com baixo nível. Lógico que a evolução plausível para quem tem um data center com nível de serviço ótimo é investir em uma solução de catástrofe, pois mesmo que a estatística seja baixa, ela ainda é um risco que deve ser levado em consideração. [1] Segundo estudos da Pepperdine University