Google Cloud Lidera Text-to-SQL com Novo Recorde

10/03/2026

5 min

Google Cloud Alcança Novo Patamar em Text-to-SQL no Benchmark BIRD

No dinâmico universo do desenvolvimento de agentes de IA, a linguagem natural se consolidou como a principal forma de interação. Essa evolução está intrinsecamente ligada à capacidade dos bancos de dados operacionais. Uma conversão mais precisa de texto para SQL (Text-to-SQL) funciona como um catalisador para a criação de agentes mais robustos e eficientes.

Essa habilidade de traduzir perguntas em linguagem natural para comandos SQL não só democratiza o acesso a dados, permitindo que usuários sem conhecimento técnico consultem informações de forma autônoma, mas também acelera a produtividade de analistas. Em um cenário onde as interações com usuários ocorrem cada vez mais via chat, as conversas se tornam o elo fundamental entre empresas e seus clientes.

Avanços e Desafios no Text-to-SQL

Em um post anterior, exploramos os desafios centrais do Text-to-SQL, como a gestão de contextos de negócio complexos, a ambiguidade na intenção do usuário e as nuances dos dialetos SQL. Abordamos também as técnicas gerais empregadas para superar essas barreiras.

Hoje, saímos da teoria para a prática. Temos o prazer de anunciar que o Google Cloud estabeleceu um novo recorde de performance no benchmark BIRD, na categoria Single Trained Model Track. Atingimos a pontuação de 76.13, superando todas as outras soluções de modelo único. Geralmente, quanto mais próxima a pontuação chega ao desempenho humano (92.96), mais desafiador se torna obter ganhos incrementais.

O BIRD (BIg Bench for LaRge-scale Database Grounded Text-to-SQL Evaluation) é um padrão da indústria para avaliação de soluções Text-to-SQL. Ele abrange mais de 12.500 pares únicos de perguntas e consultas SQL, distribuídos em 95 bancos de dados, totalizando 33 GB. A categoria Single Trained Model Track visa medir a capacidade intrínseca do modelo, restringindo o uso de pré-processamento complexo, recuperação ou frameworks de agentes que poderiam inflar a precisão. O sucesso nesta trilha reflete, portanto, um avanço na capacidade fundamental do modelo de gerar SQL.

Resultado do benchmark BIRD — Gemini alcança o 1º lugar no BIRD (Outubro de 2025)

Da Pesquisa a Produtos Líderes de Mercado

Esse salto em precisão na conversão de linguagem natural para SQL (NL2SQL) não é apenas uma conquista interna de pesquisa ou engenharia. Ele eleva fundamentalmente a experiência do cliente em diversos serviços de dados chave. Nossa pesquisa de ponta nesta área nos permite criar produtos líderes de mercado, que os clientes utilizam para ativar seus dados com IA generativa.

Considere a capacidade de linguagem natural do AlloyDB AI. Esta ferramenta permite aos usuários finais consultarem os dados operacionais mais recentes usando linguagem natural. Empresas como a Hughes, da Echostar Corporation, dependem do NL2SQL do AlloyDB para tarefas críticas, como análise de chamadas. Diversos outros players dos setores de varejo, tecnologia e indústria integram essa funcionalidade em suas aplicações voltadas ao cliente. Com um NL2SQL próximo de 100% de precisão, os clientes ganham a confiança para construir e implantar aplicações em produção que dependem de acesso a dados em tempo real.

Os benefícios do NL2SQL se estendem à análise, como exemplificado pela análise conversacional no BigQuery. Este serviço permite que usuários de negócios e analistas de dados explorem informações, gerem relatórios e extraiam inteligência de negócios de vastos conjuntos de dados históricos utilizando linguagem natural. A introdução de uma experiência de chat multi-turno, combinada com um motor NL2SQL de alta precisão, os ajuda a tomar decisões informadas com a confiança de que as respostas das aplicações baseadas em BigQuery são consistentemente exatas.

Por fim, os desenvolvedores encontram novas eficiências. Eles há muito tempo confiam no Google Code Assist (GCA) para geração de código, auxiliando no desenvolvimento de aplicações para bancos de dados como Spanner, AlloyDB e Cloud SQL Studio. Com a disponibilidade de NL2SQL mais preciso, os desenvolvedores poderão usar assistência de codificação por IA para gerar também código SQL.

BIRD: Um Campo de Provas para a Capacidade do Modelo

O benchmark BIRD é um dos mais utilizados no campo Text-to-SQL. Ele vai além de consultas simples em tabelas únicas, abordando desafios do mundo real que nossos modelos precisam lidar. Isso inclui raciocínio sobre esquemas muito grandes, tratamento de valores ambíguos e incorporação de conhecimento de negócios externo. Crucialmente, o BIRD mede um padrão crítico: a precisão verificada por execução. Isso significa que uma consulta não é considerada ‘correta’ apenas por parecer certa; ela deve também ser executada com sucesso e retornar os dados corretos.

Nós visamos especificamente a categoria Single Trained Model Track porque ela nos permite isolar e medir a capacidade central do modelo em resolver a tarefa de Text-to-SQL (em vez de um conjunto, ou seja, um sistema com múltiplos componentes como modelos paralelos, reclassificadores, etc.). Essa distinção é fundamental, pois a precisão do Text-to-SQL pode ser aprimorada com técnicas como recuperação dinâmica few-shot ou pré-processamento de esquema. Esta trilha reflete o verdadeiro poder de raciocínio do modelo. Ao focar em uma solução de modelo único, estes resultados do BIRD demonstram que o aprimoramento do modelo central cria uma base mais forte para os sistemas construídos sobre ele.

Nosso Método: Especializando o Modelo

Alcançar uma pontuação de ponta não ocorre apenas pelo uso de um modelo base poderoso. A chave é especializar o modelo. Desenvolvemos uma receita projetada para transformar o modelo de um raciocinador de propósito geral em um especialista altamente especializado em geração de SQL.

Esta receita consistiu em três fases críticas aplicadas antes da inferência:

Filtragem rigorosa de dados: Garantir que o modelo aprenda com um conjunto de dados impecável, um “padrão ouro”.
Aprendizado multi-tarefa: Ensinar o modelo não apenas a traduzir, mas a entender as sub-tarefas implícitas necessárias para escrever uma consulta SQL correta.
Otimização de esquema e prompt: Ajustar a forma como o modelo recebe informações sobre o esquema do banco de dados e as instruções da consulta para maximizar a clareza e a eficiência.

Esses avanços no Text-to-SQL, impulsionados por inovações como as demonstradas no benchmark BIRD, estão redefinindo a forma como interagimos com os dados, tornando-os mais acessíveis e úteis para todos.