Partilhe nas Redes Sociais

Analytics e Big Data – Porque devemos repensar as infraestruturas de armazenamento

*Fernando Egido, country manager da Infinidat Iberia

Publicado em 14 Outubro 2021 | 104 Visualizações

Um dos princípios elementares das novas aplicações de Analytics e Big Data, e também uma das grandes preocupações dos CIO nos dias de hoje, é a otimização das infraestruturas de armazenamento de dados para suportar da melhor forma as novas abordagens no caminho da transformação digital.

Uma transformação digital que está a dirigir as empresas para modelos de negócio muito mais centrados em dados e tudo o que envolve a sua gestão.

Tendo isto em mente, a pergunta que se impõe é: o que é que se pode fazer, do ponto de vista de infraestruturas de armazenamento, para capacitar estas empresas ‘data-driven’ para chegar a esses modelos de negócio?

Cada vez mais, as empresas inovadoras estão a implementar aplicações de nova geração para aproveitar os dados de que disponibilizam e melhorar os processos de decisão com base em novos modelos analíticos, que utilizam Inteligência Artificial (IA) e Machine Learning (ML). Estamos a falar de aplicações que têm uma disponibilidade muito elevada – frequentemente em tempo real (AlwaysOn) – e que precisam de mais poder de computação e dados do que nunca. As infraestruturas de armazenamento tradicionais enfrentam um desafio histórico, não só para manter os sistemas com acesso constante a dados e a cumprir os requisitos de tempo de resposta; como, a isto, somam-se os requisitos de capacidade computacional inerentes às workloads impulsionada por IA e ML.

No passado, de forma a cumprir todos os requisitos de capacidade massiva e de performance de forma rentável, recorria-se a sistemas dedicados, o que levava a estratégicas de data-placement que utilizavam, por um lado, uma camada de front-end mais pequeno, mas com um melhor desempenho; e, por outro, um sistema de back-end muito maior, com uma estrutura de custos otimizada para uma capacidade massiva, mas não para a performance. As tecnologias de data-placement guardavam os dados operacionais nacamadade performance, enquanto colocavam os dados para análise num segundo nível, mais escalável e com um custo muito menor.

Apesar deste modelo ter sido o mais adequado quando os processos analíticos consistiam, sobretudo, em operações em lote, para o atual volume de trabalho originado pelo Big Data é necessário um acesso mais rápido e a um maior volume de dados. Dados esse que se devem manter no tier de performance. Naturalmente, o movimento de dados entre camadas penaliza o tempo necessário à execução dos processos.

Posto isto, como é que podemos desenhar uma infraestrutura de armazenamento de dados que cumpra todos estes requisitos? Se eu fosse um data architect de uma grande empresa, em primeiro lugar, desenharia uma arquitetura extremamente resiliente com uma capacidade de recuperação completa tanto para um sistema isolado, como para um de múltiplas configurações, incluindo disaster recovery. A infraestrutura teria de permitir um ecossistema de interconexões de alta performance, tais como o FC ou NVMe over Fabrics, de forma a que o desempenho não fosse penalizado por latências elevadas; e, por último, seria imprescindível existirem níveis de latência consistentes, abaixo do milissegundo, que dessem resposta tanto ao volume de trabalho habitual, como o de Business Intelligence impulsionado por IA/ML. A solução, no seu todo, teria de ser rapidamente escalável à escala petabyte.

Na prática, a maioria das soluções que existe atualmente não cumpre estes pressupostos, pelo que as empresas se veem obrigadas a trabalhar com diferentes sistemas para satisfazerem os seus requisitos de desempenho. De forma a dar resposta às necessidades atuais, é necessário inovar em alguns pontos-chave: lock management; capacidade para aceder rapidamente a qualquer tipo de dados através de estruturas trie; e algoritmos de localização que se adaptam dinamicamente às mudanças de carga de trabalho para manter o ritmo. Tudo isto através de uma abordagem multicamada e dentro de uma única plataforma.

Cumprir com estes requisitos de escalabilidade massiva deve levar não só considerações sobre a capacidade, como a um modelo de acesso direto a todo o armazenamento de dados, a partir de qualquer controlador do sistema (o que terá de ser redundante), sem ter de aceder a sistemas de armazenamento externos. Este tipo de modelo multicamada apoiado na cloud melhorará a sua proposta de valor, mas a plataforma deverá ser capaz de suportar de forma rentável vários petabytes de dados, a fim de manter tudo o que é mais importante acessível.

Se uma infraestrutura de armazenamento não cumpre com estes pressupostos, talvez faça sentido manter um modelo mais tradicional, com a gestão e manutenção de plataformas separadas. No entanto, facilmente se compreende que com estes novos modelos de consolidação da carga de trabalho e uma nova geração de Business Intelligence, não só se tem essa capacidade, como também traz vantagens económicas.

As novas arquiteturas de armazenamento abrem caminho para que se repense as abordagens mais tradicionais de análise de dados, especialmente se as camadas de ‘performance’ e ‘arquivo’ puderem estar integradas de forma rentável numa única plataforma. As aplicações podem aceder diretamente a uma quantidade muito maior de dados sem acrescentar latência ou complexidade ao movimento de dados entre diferentes sistemas de armazenamento. Para muitas workloads impulsionadas por Inteligência Artificial e Machine Learning, o aproveitamento de mais dados para análise gera um maior conhecimento e melhores decisões, e as aplicações que têm componentes em tempo real irão beneficiar de um acesso mais rápido aos dados.


Publicado em:

Opinião

Partilhe nas Redes Sociais

Artigos Relacionados