國產 Agent 進入 "NL2SQL 全球最難榜單 " 前三。
7 月 4 日,據國際權威評測基準 BIRD-Bench 官網消息,騰訊云自研的數據分析智能體 TCDataAgent 斬獲全球第三的成績,超越 IBM、Meta 等眾多國際廠商,同時也是目前國內在該榜單上排名最高的排名。
來源:BIRD-Bench 官網
BIRD-Bench 以其嚴苛性被譽為 "NL2SQL 全球最難榜單 "。它不僅要求系統將自然語言問題(如 " 找出未通過質檢的訂單 ")準確翻譯成 SQL 語句,更要求生成的 SQL 在真實、龐大且含 " 臟數據 " 的企業級數據庫上執行結果精準且運行高效,對模型的深層語義理解和數據庫真實內容感知能力提出了極高挑戰。
在這個以真實業務數據庫為基礎的測試中,覆蓋金融、醫療、體育等 37 個行業場景,數據庫總容量達 33GB,查詢問題超過 1 萬條。TCDataAgent 在官方不公開數據集的封閉測試環境下,最終獲得了 75.74 分,位居全球第三, 國內第一。
相比于傳統 NL2SQL 方案往往只能依賴有限信息 " 猜測 " 用戶意圖,易因數據結構復雜或語義模糊出錯。TCDataAgent 登榜的技術創新來源于引入了數據庫約束驗證機制,能夠自動識別并修正 SQL 中潛在的結構性或語義性錯誤(如錯誤連接、冗余條件)。
更重要的是,它緊密結合數據庫的真實內容對生成的 SQL 進行優化,顯著提升了用戶意圖識別的準確率和翻譯結果的可靠性。值得一提的是,TCDataAgent 還引入了后訓練(post-training)技術,通過優先篩選并復用效果最優的 SQL 樣本進行模型迭代訓練,有效提升了訓練樣本的質量和模型學習的穩定性。
騰訊云 TCDataAgent 在 NL2SQL 領域的技術研究成果也獲得了國際學術界的認可,相關論文已被今年的數據庫領域頂級國際會議 VLDB 接收。論文中的實驗表明,TCDataAgent 的 " 數據庫內容感知 " 核心技術模塊,可以無縫集成到其他 NL2SQL 系統中,最高能將查詢執行準確率提升 18.3%,并在多個主流方法上實現了超過 5% 的性能提升。
作為騰訊云新一代企業級智能分析 Agent,TCDataAgent 致力于讓用戶直接使用自然語言對結構化和非結構化數據進行復雜的數據查詢、報表生成和趨勢分析等任務,目前已開啟內測。