Desduplicação

Por que a desduplicação na origem é tão importante para o ambiente virtual?

Os ambientes consolidados permitem expansão e escalabilidade do data center, mas também necessitam de uma solução eficiente de proteção de dados. Afinal, por mais que a consolidação traga mais segurança ao data center, através da simplicidade do gerenciamento, esses dados precisam ser copiados em dispositivos seguros, pois todas as informações do ambiente estão concentradas. Entretanto, realizar backup em data centers virtualizados pode ser um desafio, já que máquinas virtuais possuem grande volume de dados e utilizam ao máximo a capacidade do servidor. Tudo isso pode resultar em um backup lento que sobrecarrega a rede, causa latência do servidor e consome alto I/O da produção.

Veja como o Backup pode ser um desafio em ambientes virtualizados

blog-post-image

Isso não quer dizer que é impossível realizar o backup em ambientes consolidados, na verdade já existem soluções que superam esses desafios. Com a desduplicação na origem é possível solucionar os gargalos de backup através da eliminação de dados redundantes, antes de serem enviados pela rede ao dispositivo de backup. Isso reduz o uso do host físico, a quantidade de armazenamento utilizada e o tráfego na rede.

A virtualização é uma estratégia fundamental em qualquer ambiente de TI. Com ela é possível extrair todos os recursos físicos e provê-los de maneira rápida e eficiente às aplicações. Isso reduz tanto os custos de operação (como gastos de energia, espaço físico e tempo de manutenção) como custos de aquisição de novos equipamentos, pois com um servidor é possível ter várias máquinas virtuais. Mesmo com inúmeras vantagens, a virtualização tem uma grande limitação, o Backup.

Realizar backup tradicional em ambientes virtuais é uma tarefa árdua pois o volume de dados redundantes é alto, afinal são várias máquinas virtuais com sistemas operacionais e aplicações que rodam em um host físico. Então, a cada backup completo todas essas informações devem ser copiadas e transportadas pela rede até o dispositivo.

Mesmo em um cenário de política de backup incremental, salvar as alterações é algo custoso ao longo prazo. Isso acontece pois, por mais que essa política salve apenas os dados alterados em relação ao último backup realizado, esses dados modificados ainda serão em sua maior parte redundantes. Ou seja, essa TI deverá gastar espaço de armazenamento, tráfego de rede e processamento com dados duplicados. Ao longo do tempo esse volume de dados repetidos poderá ser maior do que o volume de dados da produção.

Por exemplo, é muito comum a criação de máquinas virtuais a partir de um modelo padrão (também chamado de Template ou Golden Copy). Vamos supor que um servidor físico tenha dez máquinas virtuais, sendo assim, possui dez sistemas operacionais e cada sistema contém arquivos e configurações que geralmente são similares. Portanto, a cada backup completo todas essas informações são copiadas, junto com os dados das aplicações, file server, etc. Nesse cenário, colocar em prática uma política de backup full semanal ou incremental diário é uma tarefa quase impossível.

Outro ponto crítico do backup relacionado a consolidação é que ao mesmo tempo em que várias máquinas virtuais estão produzindo e utilizando os recursos computacionais ao limite, o backup é processado no mesmo servidor físico. Isso acaba tornando tudo mais lento, aumenta a janela de backup, o Recovery Time Objective (RTO) e o Recovery Point Objective (RPO). Portanto, backup tradicional em ambientes virtualizados gera alto volume de dados no armazenamento, utiliza maior processamento do servidor e sobrecarrega a rede.

Como a desduplicação na origem resolve esse problema?

A desduplicação é uma tecnologia que elimina os dados redundantes e cria apenas uma cópia física no local de armazenamento. Os algoritmos dessa solução dividem o dado em blocos e dão uma identificação a cada bloco. Em seguida verificam se essas identidades já estão salvas no destino, caso alguma esteja, eles eliminam esses segmentos e inserem ponteiros na cópia única, caso não esteja, salvam no diretório. (veja como funciona a desduplicação)

A desduplicação na origem ocorre no ambiente em que o dado é criado, ou seja, todo o processo de eliminação de redundância é realizado antes de a cópia trafegar pela rede até o dispositivo de armazenamento. Essa tecnologia rastreia quais dados sofreram mudanças, no background, durante a produção. Assim, apenas os dados que foram alterados após o último backup sofrerão a desduplicação. Além disso, os algoritmos dessa solução analisam quais segmentos de dados são novos e eliminam o resto. Portanto, apenas os segmentos únicos de dados novos irão trafegar pela rede.

blog-post-image

A desvantagem da desduplicação na origem em relação aos outros tipos de desduplicação é que ela consome desempenho da produção. Essa desvantagem pode ser facilmente resolvida com um bom dimensionamento da infraestrutura. Além disso, as soluções atuais não impactam tanto o ambiente de produção. Na verdade, essas soluções conseguem até mesmo reduzir o I/O do Backup. Isso acontece porque apenas os dados alterados são desduplicados e uma pequena parte deles é trafegado pela rede até o armazenamento. Portanto, apesar de a desduplicação na origem ser processada no mesmo host físico que as máquinas virtuais, ela é uma tecnologia vantajosa, principalmente em países ou em lugares que a rede é lenta, cara ou sobrecarregada.

Enviar todo o montante de backup (dados únicos e redundantes) pela rede até o destino consome muitos recursos e atrasa a consolidação do data center. Chega uma hora em que o processo e o armazenamento do backup serão mais caros de se manter do que toda a infraestrutura virtualizada. A desduplicação na origem pode ser uma solução ao problema, já que tem alta eficiência em ambientes virtualizados, pois o volume de dados novos nesse ambiente é pequeno, ou seja, a maior parte dos dados são redundantes, que não precisam ser copiados e enviados até o destino.

Conclusão

A virtualização é uma das principais estratégias de TI por uma simples razão: o valor comercial. Um data center totalmente virtualizado eleva a simplicidade e a relação custo-benefício a novos patamares. Além disso, posiciona sua infraestrutura de TI de modo a dar suporte rápido aos recursos e à capacidade de expansão necessários para manter seus ambientes de TI ágeis e competitivos.

Os servidores virtualizados consolidam bem as cargas de trabalho de produção, mas os backups criam gargalos que sobrecarregam os recursos de armazenamento e de rede. Não é possível concretizar totalmente os benefícios da virtualização sem métodos de backup e replicação otimizados. Maximizar o ROI de ambientes virtualizados requer uma adaptação do conjunto de TI, o que envolve o backup.

Como vimos, a solução mais adequada para o backup em ambientes virtualizados é a desduplicação na origem. Essa tecnologia reduz drasticamente os custos de infraestrutura relacionados às demandas de mídia e rede, aumenta o desempenho do backup e cria uma eficácia que aumenta as taxas de consolidação dos aplicativos em muitos casos.