LLMs em Bancos de Dados: Rapidez e Economia com Modelos Proxy

19/05/2026

4 min

Desbloqueando o Potencial dos LLMs em Bancos de Dados: Mais Rápido e Barato

Bancos de dados modernos estão integrando funções de IA que interpretam linguagem natural, permitindo consultas antes inimagináveis. Perguntas como “Quais avaliações de produtos são negativas sobre durabilidade?” ou “Quais tickets de suporte ao cliente foram resolvidos com uma solução alternativa?” agora podem ser respondidas diretamente.

Essas novas funcionalidades de IA expandem os limites dos motores de consulta SQL, trazendo a compreensão semântica dos Large Language Models (LLMs) para seus dados. No entanto, o alto custo e a latência associados às invocações de LLMs (aumentando a latência em 10-100x e o custo em até 1000x) limitavam sua aplicabilidade em ambientes operacionais e analíticos de larga escala.

A Revolução dos Modelos Proxy: Otimização e Eficiência

Uma nova pesquisa do Google Cloud, apresentada na SIGMOD, introduz os modelos proxy como uma solução para esses desafios. Esses modelos são versões ultra-leves e otimizadas para custos, projetadas para consultas específicas (prompts) e ajustadas aos seus dados. Eles substituem a maioria das chamadas a LLMs durante a execução da consulta.

A ideia central por trás dos modelos proxy foi explorada anteriormente no trabalho sobre o Universal Query Engine (UQE) pela Google DeepMind. Essa abordagem permite que os modelos proxy sejam aplicados automaticamente em muitos cenários, às vezes sem perda de qualidade, com perda mínima, ou até mesmo com ganho de qualidade em alguns casos.

Plataformas como BigQuery e AlloyDB já implementam essa otimização através do recurso de modo otimizado para funções como AI.IF e AI.CLASSIFY, tornando a análise semântica mais acessível e eficiente.

Como os Modelos Proxy Alcançam Alta Precisão com Baixo Custo?

A eficácia dos modelos proxy reside na utilização de embeddings ricos dos dados. Geradores de embedding como os do Gemini convertem o texto em representações vetoriais que capturam o significado semântico. O custo e a latência são reduzidos drasticamente porque os embeddings são gerados uma única vez e reutilizados múltiplas vezes, amortizando o custo de processamento.

Os modelos proxy, como a regressão logística, executam rapidamente em CPUs, eliminando a necessidade de hardware especializado. Embora sejam uma técnica de aproximação e possam apresentar limitações em tarefas que exigem raciocínio complexo, eles se destacam na especialização para consultas e dados específicos.

A pesquisa demonstra que a performance preditiva dos modelos proxy pode variar de 90% a 116% em relação aos LLMs, dependendo do benchmark e da complexidade da tarefa.

O Processo de Implementação dos Modelos Proxy

O mecanismo por trás dos modelos proxy funciona de forma inteligente. Ao executar uma consulta com uma função AI.IF, por exemplo, o motor de consulta:

Cria um conjunto de amostras de treinamento a partir dos dados.
Utiliza um LLM para rotular essas amostras (sim/não) com base na consulta.
Treina um modelo proxy usando os rótulos gerados.
Avalia a qualidade do modelo proxy em um conjunto de teste.
Decide dinamicamente se usa o modelo proxy ou se recorre ao LLM para inferência, com base nos resultados da avaliação.

Este processo adaptativo garante que a precisão seja mantida, ao mesmo tempo que se beneficia da velocidade e da economia proporcionadas pelos modelos proxy sempre que possível.

Essa inovação representa um passo significativo para democratizar o uso de IA em análise de dados, tornando-a mais rápida, barata e escalável para uma gama mais ampla de aplicações.