
Spanner e Iceberg: Dados de Lakehouse com Velocidade e Baixa Latência
Spanner Columnar Engine: Acelerando o Acesso a Dados de Iceberg Lakehouses
A linha entre bancos de dados operacionais e data lakehouses analíticos está se dissipando rapidamente. Com a crescente adoção de arquiteturas lakehouse sem ETL (Extract, Transform, Load), o desafio passa a ser não apenas armazenar dados em formatos abertos como Apache Iceberg, mas também servi-los com a baixa latência e alta velocidade exigidas por aplicações modernas e agentes de IA.
Empresas como a Palo Alto Networks, em busca de detecção de ameaças em tempo real, ou a Vodafone, otimizando fluxos de dados para melhor experiência do cliente, precisam servir insights pré-computados e modelos de IA em larga escala. Para atender a essa demanda, o Google Cloud anuncia o preview do Spanner columnar engine, permitindo servir dados de Iceberg lakehouses com a escalabilidade e a baixa latência do Spanner.
Unindo OLTP e Analytics: O Poder do Spanner Columnar Engine
Tradicionalmente, as organizações precisavam escolher entre o alto desempenho transacional de bancos de dados OLTP e a capacidade analítica de um data warehouse colunar. O Spanner columnar engine elimina essa dicotomia, unindo esses dois mundos em um único sistema horizontalmente escalável.
Este novo motor utiliza um mecanismo de armazenamento especializado para acelerar consultas analíticas, otimizando scans em até 200 vezes em dados operacionais vivos. Ao armazenar dados em formato colunar ao lado do armazenamento tradicional baseado em linhas, o Spanner executa consultas complexas automaticamente com execução vetorizada, processando lotes de dados simultaneamente. Crucialmente, esse ganho de performance é isolado das cargas de trabalho transacionais críticas, garantindo que aplicações voltadas ao cliente permaneçam responsivas.
Novas Funcionalidades Aprimorando a Experiência
Desde o anúncio inicial, o Spanner columnar engine recebeu aprimoramentos significativos para acelerar a performance e a usabilidade:
- Execução Vetorizada: Suporta scans colunares e agregações mais rápidas, processando dados de forma mais eficiente.
- Gerenciamento Automático de Consultas: O Spanner redireciona consultas analíticas de scan pesado para a representação colunar automaticamente, acelerando análises sem impactar workloads transacionais.
- Conversão de Dados Colunar Sob Demanda: Além da conversão automática, uma nova API de compactação principal acelera a transformação de dados não colunares existentes para o formato colunar.
Por Que Iceberg Precisa de uma Plataforma de Serviço Rápida
O Apache Iceberg consolidou-se como o padrão para arquiteturas lakehouse abertas, gerenciando eficientemente vastos conjuntos de dados em formatos abertos no armazenamento em nuvem. Contudo, lakehouses são primariamente otimizados para análises em larga escala, não para as consultas de “ponto” (point lookups) de sub-segundo e alta concorrência que aplicações em tempo real exigem.
É aqui que o Spanner se destaca. Ao mover dados curados e processados do seu lakehouse para o Spanner – um processo conhecido como reverse ETL – você transforma dados analíticos “frios” em dados operacionais “quentes”. O Spanner oferece a consistência global e alta disponibilidade que aplicações necessitam, tornando seus dados Iceberg acessíveis via APIs de baixa latência para tomada de decisão em tempo real e recursos de IA.
Benchmarking: Provando a Eficiência do Spanner Columnar Engine
Para demonstrar as novas capacidades de serviço do Spanner, um benchmark da indústria para análise web e dashboards em tempo real foi utilizado, cenários onde a baixa latência é fundamental.
Os resultados com um único nó Spanner evidenciam o poder do columnar engine:
|
Benchmark Query |
Spanner Columnar Engine Speedup |
|
Contagem simples de todos os registros |
46.3× |
|
Agregação básica com filtros |
32.7× |
|
Scan de alta seletividade |
46.7× |
|
Agregação global |
58.6× |
Esses resultados demonstram a aceleração de cargas de trabalho reais, mostrando que o Spanner pode processar consultas complexas e pesadas em scan em milissegundos. Isso o torna uma escolha ideal para alimentar dashboards em tempo real e funcionalidades voltadas ao usuário, capacitando o Spanner como um motor de alta performance para entregar resultados analíticos complexos na velocidade exigida pelas experiências digitais modernas.
Reverse ETL Universal: Servindo Dados de Todos os Lakehouses
O Spanner foi projetado para ser a camada de serviço para todo o seu ecossistema de dados. Seja qual for a localização do seu lakehouse, o Spanner está pronto para ser a solução de ponta.
Deixe um comentário