国产一级色_蜜桃αv_伊人www_99久久婷婷国产综合精品电影_大陆毛片_国产精品久久久久久久久久免费看

關于ZAKER 合作
雷鋒網 16小時前

關于 Agent 的非共識與真金白銀

雷峰網訊 自 2024 年底 Anthropic 發布 MCP,將 AI 與 API 連接,人造大腦從此便有了"手腳"。從 AutoGPT、Manus 到各類垂直的新Agent產品,短短月余間智能體百花齊放,諸多創業公司走完了從技術突破到產品落地的長路。昨日還是科幻故事中的幻影,今天便已觸手可及。

產品與生態碰撞,期望與信心交織,2025年終被冠以"Agent 元年"之稱。

2025年6月14日,雷峰網、AI科技評論 GAIR Live 品牌舉辦了一場主題為"Agent 元年已至,我們會有自己的智能助理嗎"的線上圓桌沙龍。

圓桌主持人為明勢創投合伙人夏令,并邀請了 AutoAgents.ai 創始人兼 CEO 楊勁松、Pokee.ai 創始人朱哲清、ANP 開源技術社區發起人常高偉、艾語智能創始人張天樂,一起進行了一場深度討論。

Agent 產品成為創業公司新寵,百花齊放之際,如何真正落地?從不同市場對 Agent 的需求出發,主持人夏令與四位嘉賓探討了 Agent 的前沿技術、模型效用提升與評估方案,以及 SaaS 生態之下 Agent 產品戰略方向。

創業總伴隨著創新,四位嘉賓在對談中還分享了各自從 day one 便開始堅持的非共識。事易時移,其中有些今天仍在經受行業的審視,也有些慢慢變成了共識,Agent 技術的脈絡就藏于其中。

Agent 商業化問題成為本次圓桌的關注焦點,幾位嘉賓分別提出了獨到見解。朱哲清指出,Agent 在很大程度上是讓 SaaS 生態更加集成化,在軟件工具高度標準化的海外市場,Agent 產品與 SaaS 相輔相成。

"我們暢想的未來,是任何 business 和專業用戶的 workflow 都可以被 Pokee.ai 完全取代,最終不管是生成還是執行,都真正做到在沒有human in the loop 的情況下,也可以端到端地完成任務。"

AutoAgents.ai 的商業化思路另辟蹊徑,"賣鏟子"、"定場景"兩步走。楊勁松認為,新技術出現的早期總會出現對相應基礎設施的需求,當頭部企業將技術應用于具體業務,就可以一窺潛在價值更大的場景。循著這一思路,AutoAgents.ai 在尋找那些 Agent 能夠提效五至十倍的場景。

"這些場景一定可以做出不一樣的東西。"張天樂則表示,Agent 商業化最核心的問題是交付結果,艾語智能追求讓客戶在傳統作業方式和他們的方案之間無縫切換。"甲方需要的是你幫他解決問題,而不是你用 AI 幫他解決問題。"

Agent 協作同為今年熱門話題,MCP、A2A 始于海外,先后掀起 Agent 協議熱潮。作為 ANP 開源技術社區發起人,常高偉看法冷靜:"協議受制于基模能力,沒有非常好用的智能體,智能體間的連接需求也就不會特別多。"

雖然落地為時尚早,但探索技術和構建影響力已經可以提上日程。ANP 正與標準化組織和開源社區合作構建 Agent 協議生態,積極在各個開源框架中尋找一席之地。

以下是此次圓桌討論的精彩分享,AI 科技評論進行了不改原意的編輯整理:

百花齊放之后,Agent 如何落地

夏令:非常高興這次沙龍有機會與大家一起探討 Agent 這個當前最熱的話題之一。我們今天請到了四位非常重量級的嘉賓,雖然大家同在 Agent 賽道,但是深耕于不同的市場,做著不同的業務。所以相信這樣的一次對話,不管是對于聽眾還是我自己理解整個 Agent 賽道及其后續的發展,都會有非常大的幫助。

請大家先做一個自我介紹吧,作為主持人我先開個頭。我是明勢創投的合伙人夏令,我們基金成立于 2014 年,是一支專注在科技賽道的早期 VC。在過去的十年里,我們很有幸地成為了國內一批技術驅動的頭部公司的早期投資人。比如我們是理想汽車最早的機構投資人,一路陪伴它從成立到上市。在汽車電動化、智能化的趨勢中,我們投資了二三十家公司,有四五家都是天使輪,后續包括裕太微、知行科技等企業成功在國內的科創板和港股上市。也是因為對汽車智能化的密切跟進,我們在 21 年就比較早地關注到了 Transformer 和端到端數據驅動這波 AI 變化的新趨勢,所以在 21 年底 22 年初的時候,我們就投資了 AI 六小龍之一 MiniMax。

我們是比較早地進入 AI 投資賽道的基金,23 年國內 AI 應用逐步起量之后,我們也積極布局了一批國內的 AI 應用公司。其中有一些大家可能已經比較熟悉了,比如文生圖領域的 LiblibAI,秘塔和造夢次元。此外還有今天的嘉賓之一,做法律垂直行業的艾語智能,這些都是我們早期投資的代表性項目。我們明勢會非常認真、積極地推動 AI Agent 相關賽道的投資,很高興今天能夠跟各位一起交流。

下面請各位嘉賓逐次來做一下介紹,我們先從楊總這邊開始。楊總是 AutoAgents.ai 的創始人和 CEO。

楊勁松:謝謝夏總。直播間的各位聽眾們好,我是 AutoAgents.ai 創始人楊勁松,我們是一家 23 年 6 月份成立的 Agent Native 公司,三位創始成員都來自阿里巴巴達摩院,之前是通義團隊的同事。我們希望解決大語言模型在企業落地應用的挑戰,目前定位在企業級 Agent 這樣一個應用基礎設施賽道。雖然現在有很多開源的 Agent 工具,但我們認為既然大語言模型是用來降低技術門檻的,那我們希望 Agent 構建和使用的門檻也可以更低,而不需要用戶再去學習一整套相關技術。

我們目前的用戶主要以大型企業為主,比如國家電網、三桶油,或者是一些比較頭部的企業。對我們來說,對產品最大的要求是 Agent 要真正做到落地、可用,而非僅僅作為一個玩具。這對 Agent 執行長鏈條任務時的精準度,以及數據安全、權限控制提出了更高的要求,這也是我們的主業。同時我們基于自己的 Agent 技術,也會和行業頭部玩家合作,以合營的方式切入垂直場景,這會是我們接下來落地 Agent 的思路。目前我們通過技術驅動工程造價審計,用 Agent 直接交付審計項目結果,在這個賽道取得了比較好的效果。

夏令:好的。前段時間看了好幾篇對朱總的采訪,能看出您對于目前要做的事情非常有野心,能不能為我們介紹一下 Pokee.ai?

朱哲清:大家好,我叫 Bill。我們 Pokee.ai 是去年 10 月份剛剛成立的公司,主要目標是希望通過強化學習把 Agent 可以使用的工具拓展到整個互聯網的范圍,最終不再需要額外訓練或者是集成的 overhead。我們目前已經有一個單一 Agent 可以集成上萬個不同工具,并且在各種不同的垂直場景里執行任務,未來一個月左右就會開始真正的公測。

Pokee.ai 團隊的大多數成員都來自 Meta,我創業之前也在 Meta 負責應用強化學習團隊,帶了很多 Meta 內部的大型項目,比如 RL 在廣告、推薦系統的落地,以及 Meta 的 RL 平臺開源項目。我從本科就開始做 RL 的理論和落地,在這個方向已經研究了快十年,我認為這一波 Agent 對 RL 的依賴性會持續提升。未來 Pokee.ai 也會在這個方向上有更深入的繼承和發展。

夏令:我去年也跟 Bill 總深入探討過 RL。現在大家都在講,AI 進入了下半場,RL 也會變得越來越重要。常總是 ANP 開源社區的負責人,現在做的事情也非常有意思,請您也為聽眾們介紹一下。

常高偉:好的。大家好,我是 ANP 開源技術社區的發起人。我們并不是一家商業化的公司,而是一個開放、中立、非營利性的技術社區。我們的目標是成為智能體互聯網時代的 HTTP,而 ANP 是我們開發的一個智能體通信協議,和 MCP、A2A 比較類似。但是我們做得比較早,大概在去年三四月份就開啟了 ANP 項目,比 MCP 早了大概半年時間,比 A2A 早大概一年時間。

我們的愿景是定義智能體的聯系方式。我們一直認為,協議是智能體連接最高效的方式,也是 AI 原生的連接方式。ANP 社區現在有 200 左右開發者,大部分來自于國內的大廠,還有一線的 AI 從業者。另外我們社群現在大概有1100多人,在 W3C 成立了一個社區組,這是 W3C 中唯一面向智能體協議的社區組,華為、谷歌、字節、螞蟻、微軟、中國移動,還有北大、上交大、MIT 等好幾個大學都是我們社區組的成員。我們最終的目標,是構建一個更加開放的互聯網,我們認為只有開放的互聯網才是最適合釋放 AI 的生產力的。

夏令:好的,謝謝。在 Agent Infra 這一層,智能體與工具之間的通信也是構建 Agent 必不可少的環節,一會可以請常總和我們重點分享一下。最后請艾語智能的創始人、CEO,張天樂總為我們介紹一下艾語的情況。

張天樂:謝謝夏總又投我們,又邀請我們參加這次的活動。首先我們的定位是做法律 Agent,這個場景下中美的情況有很大差異。我們認為法律 Agent 在中國市場的落地,應該更多地聚焦在細分市場以及復雜場景里,直接交付結果。我們現在選擇了兩個落地的應用場景,一是針對網貸逾期客戶提起 AI 立案之后的調解服務,目前這塊業務已經與 40 多家金融機構進行了合作。二是知識產權侵權行為的發現和追索。

我自己的 background 是在復旦讀計算機,算是已經做了三代 AI。我最早在 MSRA 做圖像識別,16 年我們做了神經網絡,就開始應用在信貸的風控上,現在又開始做法律 Agent。這一輪 AI 興起的時候我特別激動,因為我看到了它和前兩代 AI 之間的巨大差異,并且 AI 真的走向了智能。另外我們一直在創業,一家公司做到了 Pre IPO,還有兩家賣掉了,算是 AI 老兵和持續的創業者。再次感謝夏令總的邀請,很高興能跟大家做深入的交流。

夏令:感謝四位嘉賓對自己和公司業務情況的介紹。我們可以看到大家聚焦于 Agent 賽道不同的業務和環節,每一家都很有代表性。比如說 Bill 總這邊,Pokee.ai 的定位是什么?您對于 toC 的通用 Agent 有什么看法,可能的機會在哪?以及大家最關心的問題,和 Manus 相比我們的特色是什么?這些問題希望可以聽到您進一步的分享。

朱哲清:好的。首先我們不是一家單純 toC 的公司,而且大多數的 use case 都不是 toC。我們目前公開發布的 demo 更側重于 to professional 的能力,同時有一些 enterprise 客戶現在已經開始通過我們背后的 API 和 SDK 和我們做集成了。

我們暢想的未來,是任何 business 和專業用戶的 workflow 都可以被 Pokee.ai 的 API call 或者 SDK 的集成完全取代。比如對于企業來說,原來從 market research(市場調研)到 reporting(報告生成),到 slide sheet(PPT 和 Excel)的集成和制作,再到 marketing content(營銷內容),甚至于最后發布到各種社交媒體網站上的這一整套工作流,都可以由一個 prompt 加一個 API call 完成。不一定要用前端來完成整個操作,我們的目標是提供一個基礎的 Agent 平臺,使任何開發者或者 professionals 可以在不需要自己手動集成工具和 promoting 的情況下,就能夠完成一個非常復雜的工作流的構建以及執行。最終不管是生成還是執行,都真正做到在沒有 human-in-the-loop 的情況下,也可以端到端地完成任務。

相比之下,Manus 的定位更多地偏向一款 consumer facing 的產品。而我們的目標并非完全 toC,而是希望取代互聯網上所有冗長的、人的工作流,構建一個完全自動化的互聯網世界。

夏令:對于 Manus 這種 toC 的產品來講,完成任務的過程中其實是 Agent 自己做 plan。而 Pokee.ai 希望能夠解決更多個性化的任務,而不僅僅聚焦在某一個場景、某一類客戶,所以考慮到場景和客戶的差異性,我們選擇提供一個平臺,支持企業用戶構建適合自己的 workflow,然后讓 Agent 具備任務規劃和完成任務的能力。不知道這種理解是不是正確。

朱哲清:是的。Pokee.ai 和 Manus 有一個很大的區分點,那就是我們所集成的能力應該遠超現在市面上的大多數Agent。我們集成的工具幾乎包括了海外的所有社交媒體、文檔工具和 chat 工具,比如 WhatsApp、Messenger、Slack 等等,所以我們所能夠執行的場景是非常多的,而且這些執行場景就是目前企業和商業用戶最需要的工作流中的瓶頸。比如說你是一個個人用戶或者商業用戶,即使你有了 ChatGPT、Manus 和各種各樣的生成式 Agent,在你完成所有生成任務后,把內容 deploy 到相應平臺上這個環節還是需要人來做。這是目前幾乎所有 Agent 閉環當中缺失的一部分,而我們可以替人做到這一點。

夏令:明白。我們知道北美有非常多的創業公司會選擇特定的垂直場景耕耘,比如 SDR 是銷售的一個小環節,都有非常多的 AI 創業公司在深入,提供相應的 AI 產品。現在和過去的區別,不過是從 SaaS 變成了 toB 的 Agent。您覺得 Pokee.ai 做的事情和這些產品之間是什么樣的關系?

朱哲清:首先是 SDR(銷售開發代表)場景下,比如 Artisan、ElevenX 或者 Hyperbound 這些公司,它們非常聚焦于一個垂類,而且幾乎不需要任何的工具集成。它們只需要能發 Email,有 video chat 這種功能就可以了,有些甚至不能讀取Email。大多數這類 Agent 公司還沒有完全用 MCP 來 build up,很多時候都是手動完成 integration 以后,再用LLM 處理,去看這個進來的 text 是什么樣的 intention,然后去找對應的 function,手動 construct function call,然后再去 call 那個 function。不需要 authentication(認證)的集成還好一點,如果你需要 authentication 集成,比如 Google Workspace、Microsoft ecosystem,這些東西對于所有企業來說都是特別頭疼的事情。

我們的不同就在于,任何 Developer 或者 Business 都可以把那層最復雜的 integration 和工具調用全部 shield 掉,不再需要操心這一部分。你只需要知道自己想干什么,把這個 prompt 輸進來,Pokee.ai 都可以幫你解決。之前一個時代,是各種 language model 或者 vision model 通過 API prompting 去完成生成,而我們現在希望通過prompt 完成從生成到執行的整個閉環。您剛才提到的 AI marketing 這種垂類 Agent,未來如果要做得更復雜、真正打通端到端的話,他們可以 build on top of us。

我舉個例子。AI SDR 現在可以收發郵件、看 calendar,但如果用戶想寫進 CRM 怎么辦?如果要構建一個 database 怎么辦?要做 analysis 怎么辦?不可能每一家 AiSDR 都手動去構建自己的 database和 analysis system,這些系統都有現有的解決方案,他們只需要 call Pokee.ai,說我已經完成了 inbound,得到了這些信息,你幫我寫入 database,做個分析,最后寫一個 report 給到某一個 employee。這些東西完全可以通過一個 prompt 來完成,所以從 ecosystem 的角度來說,我們給這些公司提供了一個 unify 的、to usage 的 solution。

夏令:好的。Bill 總這邊主要從美國市場的角度來看,構想一個 Agent 產品如何在企業里落地,再逐步走向面向企業的定制化 Agent 平臺。不同創業公司的切入視角不一樣,所在國家的需求場景也不一樣。楊總做的是面向國內市場的 Agent,也是要在不同行業、不同崗位落地。您能不能來講一講,同樣是做 toB 的 Agent 平臺,相較于 Pokee.ai 或者 Glean,咱們的思路是什么樣的?從落地的情況來看,中國企業更需要什么樣的 Agent 產品或者 Agent 平臺?

楊勁松:好嘞。首先澄清一下,我們其實也是面向全球的,也有一批海外客戶。我們作為創業者都是技術背景,但從用戶視角來看,他們并不關注產品底層到底是 MCP 還是什么,關鍵還是能解決什么問題。目前 Agent 產品在國內有比較明確的擴散路徑,掏錢的以國央企業、大企業為主,小企業更多還是嘗鮮,真正投入生產的相對還比較少。我們最開始就選擇這個方向切入,原因就是大企業能夠投入比較大的資金預算把事情跑通,然后建立自己的競爭力。未來每個企業都會圍繞自己的核心生產業務去打造一系列大模型或者 Agent,我們的定位就是企業級 Agent 構建平臺。其實產品具體叫什么名字,只是技術上的定位,從企業的角度來說,他們想要的是自身生產價值鏈上的每一個環節都可以更高效,或者以更低的成本實現。我們的邏輯就是解決這些核心訴求,客戶會比較關心我們具體集成哪些工具、什么方案最高效或者成本最低。

我想先講一下我們和 Glean 這類產品的區別。Glean 最開始是做企業內搜,我們認為內搜確實很重要,但是對于企業更重要的是業務的精準執行,也就是如何基于企業內部已有的上下文,把業務流程完整地執行下來,這是我們比較強調的功能。我們判斷未來 Agent 要在企業內部做到相對可用的話,需要先完成端到端的優化,就是從底層的模型到中間層的工具,以及上層的業務和數據,都要實現比較好的整合,最終才會有比較好的效果。

比如剛才說到,我們在和一些行業頭部公司做垂直場景。對于底層的模型,我們就會基于特定領域進行微調,讓它能夠在這個領域里做更好的任務規劃和場景應用。然后在工具這一層,每個行業都有一些典型的工具,僅僅把工具和模型進行簡單的連接是不夠的。這里有很多的挑戰要解決,有一些是通過接口,還有一些可能要添加數據,對模型做上下文嵌入式的輔助,讓它能夠更好地應用工具。朱總那個方案,我們覺得也是一個思路。但是對接企業的時候,如果按照 OpenAI 那套 RFT 的思路,企業每增加一個工具,訓練成本都會增加一個量級,所以我認為這對于大部分行業都不會特別適用。

我們現在針對供應鏈通過上下文嵌入進行工具整合,做到了完全可用,再往上就到了數據和業務場景。對于這個部分,我反倒覺得垂直行業里的價值會更大。因為在工具層面大家會慢慢趨同,你的技術能領先半年可能就已經很不錯了,更大的差距源于在供應層面能不能基于客戶的業務或者用戶使用 Agent 的結果,產生一些可以建立飛輪的數據。因此我們比較關心的是盡量讓 Agent 投入生產,然后基于用戶使用過程中的反饋,尤其是對于規劃層面的反饋數據優化底層模型。這種端到端的優化會和拿腳手架搓出來的東西有非常明顯的區別。

我們最終的目標是可以在若干個垂直場景里構建這個領域的最強 Agent,現在我們在特別細分的小場景下已經可以直接交付結果,但是對于天花板更高的垂直場景,這其實需要一個漸進的過程。我們會基于工具和數據不斷迭代,逼近這個目標。一旦我們在一個垂直場景里構建了垂類最強 Agent,讓它擁有超過人類專家的水平,同時又達到了比較好的規模的話,基本上就可以把這個垂直場景比較大的價值吃掉了。這是我們的思路。

夏令:好的。我們來到天樂總這邊。同樣是做 toB 的 Agent,天樂總又和前面兩家顯著不同,我們艾語智能并不是服務于更細分的一個行業或若干場景,而是變成了新型的律所。您能不能也為我們介紹一下,跟海外做法律服務的 Agent 公司相比,特別是大家比較熟悉的 Harvey,艾語智能有什么不同?

張天樂:我覺得在整個行業里,Harvey 是一家特別值得我們學習和了解的公司。他們是 OpenAI 在 22 年投資的,到現在也就兩年多時間,但是最新估值可能已經到 50 億了。Harvey 從 day one 就特別強調用 LLM 而非上一代 AI 技術解決法律問題,而且完成的效果非常好。它早期的切入點就是為律所和律師提供法律服務工具,比如訴狀的生成、法律文書的識別等等。我們看過 Harvey 很多視頻的 demo,從結果角度來說,生成質量確實非常好。但是客觀來講,我認為生成效果好的根源在于 LLM 技術和法律行業的匹配程度高,在復雜文本場景下 LLM 的生成效果天然地就會更好。所以今天我也會建議大家,選擇大于努力,這是我在公司說得最多的一句話。而且大家要盡量快速地看到效果再落地,所以可以多嘗試一些法律+AI 的方向。

去年整個美國市場,法律 AI 的投資總額是 21 億美金。從單個公司的估值最高,以及投資數量和規模來說,可以證明法律或者復雜文本和 LLM 技術的匹配程度確實非常高。但是中國和美國市場的情況差異非常大。比如美國律師的收入大概是每年 10 萬到 15 萬美金,而中國律師可能只有兩三萬美金,付費能力和付費意愿有很大差異。所以我們在落地一個商業模式的時候,一定要客觀地考慮到中國的國情。另外兩個市場對 AI 的認知和付費能力不一樣,那一樣的東西是什么?是對法律服務的需求。所以我們選擇直接針對律師或者律所的甲方,比如我們現在面向金融機構,交付法律服務的結果。我們認為這樣更觸及法律服務的本質,而且長期來看模型能力會越來越強,交付結果是有可能實現的,所以選擇這樣一條切入路徑。

我們創業 13 年了,每次創業都會選擇一個新的市場,或者傳統服務沒有服務好的市場切入。這種選擇背后的邏輯是,我們認為一個行業更緊迫、更缺乏好的服務的需求,更應該被 AI 解決。所以我們這次切入市場,就選擇了一個傳統律師服務不了的事情,就是線上的無抵押網絡信貸。這些客戶的單筆金額都太小了,律師做 50 萬、 100 萬的案子都覺得麻煩,而我們做的都是一兩萬的。我們的客戶可以完全通過 AI 線上提起立案、跟進流程、制定更長的分期還款計劃,然后用機器跟進分期結果。大家總說國內的市場卷,我們覺得避免卷最好的方式,就是去做一件新的事情。快速地切進去,沒有人競爭,也就不卷了。另外我們在公司經常討論一個問題,就是技術平權。AI 的發展速度很快,技術透明度也很高,在這個過程中對我們來說更本質的問題是什么?我覺得應該更關注商業模式本身。用戶最本質的需求是一個更好的結果,所以我們在選擇切入路徑的時候,選擇直接交付結果。

站在整個創業的角度來看,首先我非常反對不關注海外。我認為美國的 AI 落地是有先進性的,應該去關注他們在技術上面到底解決了什么樣的問題。但是中美的商業環境差異又是極大的,一定要選擇適合中國的商業落地方法。大家總說卷,我能給大家最貼心的建議就是創新,做一件不一樣的事情,然后去交付結果。

我想分享一個 Harvey CEO 今年 3 月份的訪談。他們是一個非常典型的 by license 或者 by SaaS 的商業模式,但是他們 CEO 在今年 3 月份的訪談中提到,未來他們會開拓更復雜的一些場景,比如并購投資,并且按照效果來 take rate。很多時候我們看到的其它機構的商業模式,大部分是昨天的商業模式。Harvey 是 23 年開始落地的,你 23 年讓我去交付結果,我覺得我也做不到,因為 LLM 本身的能力就不夠。但是長期來看,隨著模型的能力變強,Agent 的能力變強,更重要的還是從商業的角度看客戶需要什么,以及選擇一個傳統方案沒有服務好的市場。所以我想說,大家不要做存量市場,要盡量做新增的市場,并且伴隨著技術能力的提升,往交付結果的方向調整。我們從 day one 就逼著公司必須交付結果,用這樣的方式往前推進。這在中國可能是更好、更適合的落地方式。

夏令:天樂總講得還是很詳細的。艾語這家公司服務的不是律所,它自己就是一個新型律所,所以它交付的是結果。下面這個問題想請常總談一談。我覺得從 3 月份開始,MCP 在國內外就非常火,后來 Google 也推出了自己的 A2A。咱們的 ANP 解決的也是智能體之間的交互問題,從切入方向和特點上,大家有什么區別,您能不能簡要地說一下。

常高偉:好的。A2A 是今年 4 月初發布的一個協議,因為谷歌的體量和影響力是非常大的,所以它發布之后,把整個行業又在智能體協議上帶火了一把。我們和 A2A 其實有很多相似點。首先我們解決的問題是一樣的,都是為了解決智能體的協作問題。除此之外,我們和谷歌有一個共同的認知,那就是 MCP 可能并不太適合用于智能體之間的連接和協作。智能體的連接協作,應該是個 P2P 架構,但 MCP 可能是 CS 架構。我們和 A2A 還有一個相同點,就是我們在很多技術上也是相似的。比如在智能體的發現和描述上,我們用的是類似的技術,不過我們做得比谷歌更早。

我們和 A2A 在不同點上也蠻多的,最大的不同點就是出發點不一樣。我們希望解決的問題是,智能體在一個不可信的互聯網環境中怎么進行協作。而谷歌雖然并沒有在官網中明說,但是從技術、生態以及谷歌 CEO 的訪談中都可以看出,A2A 的出發點是解決智能體在企業之間以及企業內部的協作。谷歌 CEO 前段時間有個訪談,他認為智能體最早應該會在企業內部落地。另外從生態來說,谷歌有 50 家公司,這 50 家公司全部是做 B 端業務的。最后我們回到技術本身,A2A 這種交互模式并不太適合在互聯網上協作,因為它是一個任務分包的模式。

什么叫任務分包呢?就相當于我把一個大任務分成了若干小任務,然后讓遠端的智能體來處理。在互聯網中,這種模式天然地具有很高的個人隱私泄露風險。比如說我要訂個酒店,我必須告訴遠端智能體我喜歡什么、不喜歡什么,那我的隱私就通過任務的上下文被泄露了。在這一點上,我們的交互方式和 MCP 有點類似。我們把遠端信息拉到本地進行處理和決策,這樣就不需要把隱私信息交給其他人。

除此之外,我們和 A2A 還有一個最大的不同點,就是身份。剛才朱總介紹過,一個智能體要連接到谷歌、Meta 是非常非常難的。這涉及到智能體協議非常非常核心的問題,那就是智能體的身份。智能體之間要進行通信,首先要解決的問題就是我是誰和你是誰。我們在研究過程中發現,MCP 和 A2A 并沒有完全解決這個問題。比如 A2A ,他們用了一個帶外的方案,所謂帶外是指用其它途徑、協議來解決身份問題。比如我有個身份中心,智能體每次和另外一個智能體交互的時候,就去身份中心拿一個令牌,然后通過 A2A 協議把令牌傳過去。這個方案非常有意思,我認為用在在企業內部是非常不錯的,但是在互聯網當中可能不太適用。因為互聯網中沒有一個大的身份中心可以解決身份問題,而且用在互聯網中,這個方案的成本還是有點高。

可以說身份就是我們在技術上區別于 MCP 和 A2A 最大的地方。MCP 用的其實是一個中心化的身份,而我們用的是 DID 身份,類似于去中心化身份的技術。不過和區塊鏈還不一樣,我們使用的是 Web 技術,類似于 Email,一個郵箱可以和互聯網中所有的郵箱進行互通。比如說你有 163 的郵箱,那你不需要再去申請 QQ 賬號或者 Gmail 賬號,就能和 QQ 郵箱或者 Gmail 郵箱互通。這是我們做的最大的創新。張總剛才的話我非常認可,要想不卷就得做創新的東西。

Agent 創業,從非共識出發

夏令:創業是必須要創新的,同時作為創業者,也必須要有自己堅持的非共識。下面一個問題,我想請大家談談,如果說我們現在有一個堅持的非共識,那會是什么。我們這次的順序反過來,請常總先講。

常高偉:在去年三四月份的時候,我們就堅定了一個非共識,那就是智能體之間要協作,協議肯定是最高效、最原生的方式。智能體最擅長處理的就是直接的、底層的數據,而承載這些數據最好的方式就是協議,這是我們堅持的第一個非共識。這一點目前也在慢慢變成行業的準共識。

另外一個非共識就是智能體互聯網。我們認為 Agentic web 就是智能體化的 Web,這是互聯網的未來。當未來的互聯網中有越來越多的智能體,現在的互聯網結構會發生一些非常大的改變。現在有很多互聯網平臺,比如微信、淘寶、拼多多,未來是否真的有必要存在?如果我有一個個人助手,企業也有一個智能體,那么我的個人助手是否可以通過協議直接連接到企業的智能體,幫我完成預訂酒店、點外賣、買衣服這些操作?我認為未來,互聯網的連接方式會從以平臺為中心的封閉的生態,回歸到以協議為中心的開放連接,這是我們現在堅持的另一個非共識。

可以說這是我們現在堅持的一個最大的非共識。現在整個行業中,看到這個非共識的人可能并不是特別多,認可的人也不是特別多。但是前段時間,微軟的一場發布會就提到了一個叫 Agentic web 的概念,他們也認為未來的互聯網應該是一個開放的互聯網。

張天樂:我想談兩個非共識。去年 o1 出來之后我想了很多,我覺得 o1 出來代表著 AI 進入了下一個階段,當時整個行業覺得 AI 能做的事情已經很多了,創業的機會也變多了。但是我個人覺得,o1 對于人類整體來說是一件受益的事情,但是對于創業公司來說,其實機會減少了,未來有很多場景可能會直接通過大模型或者更通用的 Agent 實現。所以我覺得從 o1 出來之后,大家應該更多地思考一些商業上面的事情,比如什么場景是適合的、要如何切入。我會覺得這個場景是復雜文書和復雜流程,另外一定要選擇更難的場景,深入地做,這樣才會更有價值。這是在商業上,我們堅持的第一個非共識。

另外我最近找了很多論文的一作,和他們討論了一個問題。對于 AI,很多時候我們盯著怎么讓大模型變得越來越聰明這個問題,特別是 DeepSeek 出現以后,大家通過 RL 讓模型的推理能力和邏輯性持續地變強。但是現實世界的任務需要兩件事,第一件是聰明,第二件是有經驗,這兩件事本質上并不一樣。聰明更像是從一個高中生變成愛因斯坦,但是有經驗,更像是在作業過程中有非常詳細的標準,在遇到 corner case 的時候有指導我們應該如何去做的百科全書。

我覺得在技術路徑上,未來的趨勢是讓模型的推理能力變得越來越強,但是我們在實際應用過程中會想,我們真的需要一個愛因斯坦來幫我們完成律師的所有工作嗎?其實是不需要的。我們需要的是一個受過非常良好教育的法律專業智能體,它在日常工作過程中會變得越來越有經驗,能夠總結出如何把工作變得高效的方案,在遇到 corner case 的時候能找到更好的方法。所以我們現在會覺得,還是要找到一些方法讓模型變得更有經驗,而不是單純地變得更聰明,并且在有經驗這條路徑上可以做到自學習和自優化。而且我們認為讓模型變得有經驗和變聰明是 totally different,變聰明可能是在參數層面上要做很多優化,但是變得有經驗,嚴格意義上來說不應該改變模型本身,而是有一個非常 detail 的百科全書外掛式的經驗,然后讓模型充分地使用。這是我想說的第二個非共識,就是我認為在 AI 應用落地之后,可能有經驗會比更聰明更有價值。

夏令:天樂總這個觀點跟 OpenAI 的姚順雨的觀點比較像,就是說我們已經把模型訓練得可以在奧賽拿金牌了,但是它卻還記不好賬。那楊總,接下來想聽您談談。

楊勁松:我想分享一個我們自己也踩過的坑,也是目前行業里比較非共識的一點。我們最開始追求 Agent 在底層技術和理論上的創新,比如說所謂的多智能體協作。但我們在實踐的過程中會發現,對于一項之前由人類完成的工作,比如說寫一個軟件,按照我們人類的分工把 Agent 也分成產品經理、UI 設計師或者開發者這么幾個角色,這種做法在模型能力達到一定水平之后,效果可能并沒有那么明顯了,反而可能限制 Agent 的發揮。

我們有另外一個思路提升模型的工作效果,就是想辦法讓模型更多次地動用智力。人在完成一項任務的時候,大腦會工作非常多次,可能我說這一句話大腦會轉三四次,做一個工作大腦會運作幾百上千次。對于模型,我們現在也通過提高工作密度和不同維度的對抗來提升它的效果,說白了就是讓模型從不同角度反復地對同一個工作內容進行加工,來提升輸出結果的質量,這樣效果反而會比角色分工更好。

由這個思路延伸,這里還有一個效率問題。主流 Agent 系統是串行結構,消耗時間是要乘上去的,同時有些任務的幻覺和錯誤會被放大。用我們現在的思路,如果有一個共享的 working memory,然后多路地、對抗地去完成任務,最后的質量就會比較好。這算是一個小小的非共識。

朱哲清:其實我去年年底的時候跟很多投資人聊,大家都覺得 Pokee.ai 這個方向根本不能做,但它現在已經慢慢變成了共識,所以非共識這件事很難說。

我想沿著天樂總剛剛說的,從產品邏輯來講,聰明跟經驗從理論上來說就是 generality vs adapt to like a specific field(通用性vs特定性),也就是說只是訓練方式的區別。它們可能是完全一模一樣的模型,當這個模型的 generalization capability(通用能力) 非常強的情況下,它可能是一個完全通用的模型,當你需要將它 adapt 到法律這個領域,你可能需要順序 overfit 到只有法律方面的知識,把剩下的知識屏蔽掉。

我覺得大多數的套殼應用,或者說大多數 vertical(垂直領域)的公司,其實都需要走這么一步。通用 Agent 本身的核心訓練數據是讓它對于語言、數學和邏輯具有基本概念,也就是形成 A 和 B 是不能能夠推到 C 這么一個簡單的邏輯鏈,然后通過 autoregressive 加 RL 的方式來幫助它構建這樣一個邏輯鏈。

要把這種邏輯鏈轉化到一些特有的領域里,其實是需要做一些 fine tuning 的,這就是天樂總所說的有經驗。但是我覺得單純讓模型本身有經驗可能是不夠的。因為有大量的法律文獻,你不可能指望一個模型把它完全記下來,還保證不出現任何幻覺。國內的法律體系全都是條例,可能會相對好記,但海外的判例法體系會導致 retrieval(檢索)能力變得非常非常重要。未來的經驗可能在很大程度上來自于 retrieval 能力,而 retrieval 單靠 RAG 可能還解決不了。

RAG 的核心問題在于,我需要通過 similarity metric(相似性度量)這種固定關系,從 retrieval 的 seed 或者 prompt 里找到一個巨大的 groups 里相關的文字或者圖片。這個尋找的過程可能不是一個固定的 a 對 b 的關系,而可能是一個非常復雜的,甚至于是推理的關系。我之前給很多投資人舉過一個例子。大家都在問,為什么不能直接用 RAG 來解決最簡單的推薦系統的問題?假設一個人想去夏威夷旅游,那他需要購買的東西是非常多樣化的,他可能需要簡單的泳衣、泳褲,也有可能想去登山、想去潛水、想去坐直升機。每一樣東西都會跟夏威夷有關,但是你沒有辦法通過一個單一的 distance metric(距離度量)來找到所有內容。當你只有一個單一的 distance metric 的時候,你找到的東西都是類似的,所以這當中就要有一個推理的過程。我覺得特別是在企業環境和特有領域下,未來的 Agent 要在這個方面花大功夫。也就是它的 retrieval 過程不只是簡單地找相似性,而是要帶著推理去做 retrieval,這是很難的。

張天樂:之前我也跟夏總討論過這個問題。我從 day one 就覺得 RAG 這個方式局限性極高,是一個非常過渡的方案。我想分享一下我們覺得什么是經驗。首先基于法律這個場景,條款內容其實是很少的一部分,美國的判例還多一些,國內的條款我們的模型已經可以解決得非常好了。但是在作業過程中,我們覺得還有大量業務經驗性的信息需要挖掘出來。什么叫業務上的經驗?我給您舉個例子。比如我們會涉及到開庭,中國的法院是有些有線上開庭設備,有些沒有,那我們有一條經驗就是,遇到沒有線上開庭設備的法院,我們的成本就高,所以我們可能會少接這個法院的案件。還有些案件,法院是上午開會,下午打電話,那我們就會等下午再跟法院聯系。

所以你會發現,其實我們在去年做對了一件事情,就是做垂直細分領域應該從 day one 就開始做 evaluation。實際上我們每天要對所有的結果做 evaluation,而且我們現在在 evaluation 這件事情上是 freely 的,更多地交給模型,它們會自己挖掘出來更多的信息。在一個細分的場景里,整個組織在作業過程中提高的就是這些小細節。實際上我們每天產生的經驗是極多、極零散的,而且比人類組織的效率高很多。我一天能開多少會,模型能開多少會?模型一天能總結 700 條經驗,但是想要讓這 700 條經驗通過 RL 或者 post train 的方式再訓練進模型,我覺得這是不 work 的。

所以我們覺得,可能通過一些更松散的結構,一定要和模型本身的訓練解耦合,才能保證每天產生大量的經驗。而且這些經驗有可能今天 work,明天就不 work,然后所以我們還會快速地刪減。我一直在公司內部說,它特別像是用一個聰明的模型翻百科全書,這個匹配過程肯定不是個 RAG,而是一個復雜的、邏輯性的匹配過程,然后再去提煉出來。無非是效率低一點,那效率低一點就搞并發嘛,把壓力都給阿里云。我們就是每天晚上跑并發,每天用阿里的夜場 API,一到晚上就開始調模型,把這些東西全部歸納好,白天再去用。我們大概是這個思路。

朱哲清:強化學習有兩個目的,第一是目標驅動的模型推理,第二個其實算非共識,就是在 generalization capability 方面,用 RL 做出來的推理模型要比常規的 control base planning(基于控制的規劃)方案訓練出來的更強。RL 的泛化性其實就是在現有的所有技術之內做一個規劃性模型,它能達到的泛化性是最強的。目標驅動的推理和在規劃層面上更強的泛化性,這兩件事情是現在在大模型上取得成功的核心。那從這兩點來說,大模型就不應該去嘗試 memorize(記憶)任何東西。用 RL 來達到 memorization 的唯一方式是,只有把這個東西一模一樣地搬出來了,才能給它 reward。但這件事情本身就是錯的,因為我的目標是在非常繁雜、不同的 input 情況下,能夠推理出我想要的結果,而不是一模一樣地照搬原來已經有的東西。這種東西應該用 autoregressive 的 Pre-training 來完成。如果在 Pre-training 的情況下已經完成不了了,你再倒逼這個模型嘗試 overfit 到能夠把原始的經驗原封不動輸出,它就會損失大量的這個模型本身的能力,這是一件本末倒置的事情。大模型真正應該要做到的事情,是在經驗層面上只要給到這個 prompt,它能夠把 prompt 所對應的內容給找出來,我們不需要它能夠從零開始做這件事情,這是不 make sense 的。

楊勁松:對。我稍微補充一句,其實把經驗再訓進模型這個問題,現在在實踐上有一種解法,我們現在叫所謂的 Agentic RAG,實際上就是有點推理性質的 RAG。它并不是去廣泛地做搜索,而是先基于業務邏輯做一些推理,然后把相關的經驗拉回來,給模型提升效果。

朱哲清:是的,這是一個非常火的 research topic。但是這個東西用 RL 來做非常麻煩,因為它的整個 action space for state space(狀態空間的動作空間)是完全 dynamic。在原來的情況下,你是用一個有限 context window(上下文窗口)的文本作為 context 來做一個 state,然后去做 decision making,這整個過程相對比較 tractable(可控)。如果用一個完全 open space 的corpus(語料庫),或者一個巨大的內部 graph,想辦法用 RL 來解其實是個非常復雜的問題,所以目前還沒有什么特別好的 RL 的 Agentic RAG 解決方案,更多的是拿已經用 RL 訓練完的 reasoning model 加一個簡單的 chain of thought,一步一步去找哪些部分是相關的,然后進行 reasoning 的過程。

我再補充另外一個 anecdote(趣聞),對天樂總可能會有點幫助。其實美國有好多家做法律的公司,他們有類似的經驗,就是某個地方的地檢和某些地方的法院,對于某一種案例有什么樣的偏好,他們自己有一個幾乎像是數據庫一樣的東西。他們收集好這個數據庫以后,在決策要到某個地檢和法院去提交這個案子的時候,就可以有選擇性。這跟你所得到的經驗完全一致,就是說很多經驗沒辦法從一個 offline 的數據庫,或者從哪些數據里面拿到,都需要在實際的實踐過程當中得到。

張天樂:其實經驗的數學表達很簡單,我們就兩列,一列叫 trigger,一列叫 action,說白了就是遇到什么事該怎么干。我們正在構建一個底層的、非常簡潔的經驗數據庫,最后會發現整個公司下面就是一個超級模型,有一堆 action,叫立案的工具,相當于手和腳,然后還有一個巨大的、非常 detail 的百科全書,告訴模型遇到什么事該怎么辦。所以我們會覺得,我們最終的形態可能是一個超級腦子有一堆 action,然后還有一個大百科全書。這個大百科全書其實才是核心,它需要能夠持續地優化和挖掘經驗。

更好的模型效用,更好的效用評估

夏令:現在大家用 RL 實現更好的 planning,然后做泛化,同時大家也在探討,實際落地的過程中到底怎么樣把經驗拿過來,讓這個模型真的有效。所以下一個問題也想請教大家,我們現在是怎么評估模型效用的,以及如何讓效用真正發揮出來,這塊有沒有值得分享的經驗?我們請 Bill 總先開始。

朱哲清:我們公司在這個地方是有一些 secret sause 的,因為如果完全靠 self-training 和 self-learning,完全沒有 self-evaluation 方式的話,這個東西完全 intractable。我可以分享一些比較簡單的事情,首先是至少在目前的 function calling 層面上,普通的 LLM 在 evaluation 的能力上已經非常好了,大家可以依賴普通 LLM 對于本身就單一 function calling 的能力進行簡單的 violation,這是可以做到的。我舉個例子,比如說你要構建一個 Agent workflow,當一個工具被調用以后,你想知道它是不是調用正確,其實是可以讓 LLM 自己去看一眼的,這其實就是個非常簡單的 semi-automatic check,而且 stability 已經非常高了。

除此之外,我覺得在 evaluation 過程中很重要的一點在于,當你調用工具的時候,并不只是調用本身重要,調用完成以后那個結果也很重要,但這個結果很難 evaluate。我舉個例子,比如我要調用工具寫一個 Google doc,但那個 Google doc 寫完以后只返回給你一個link,你也不知道里面是什么,所以你要去 evaluate 整個端到端的流程,可能包括整個規劃是不是正確、是不是調用了正確的工具、是不是調用了正確 API 的 parameters、完成 parameters 的結果是不是正確,這一系列都需要它自己的 evaluation。最后那一步甚至于是最難的,因為當你把這個東西寫入以后,就沒有辦法再修改,調出來看看到底寫沒寫對。你可能需要手動寫一些東西才能把它做好,而這一步能做對,是整個 Agent workflow 能端到端地打通的一個關鍵。不管是走垂直路線還是走通用路線,這個東西都是值得大家注意的。

夏令:非常好。楊總這邊也在做非常多的實際落地,也特別想聽聽您對于模型評估和效用有什么看法。

楊勁松:我們的評估其實更多地面向用戶場景,所以實際上不能說它是一個標準化東西,而是偏向 customer specific 的評估方式。我們自己進行評估,主要圍繞通用能力,比如 Agent 的準確度。但在客戶層面,我們會基于應用場景下客戶的項目范圍,確定 Agent 的核心任務和主鏈路,通過所謂客戶提供的方式把任務常見的數據進行整理,包括它的輸入和準確答案。然后我們會有一個自動化工具來進行評估,類似于你來答題我來查的思路。

不同客戶的關注維度也不一樣,比如有的是準確度,模型可以不回答,但只要回答就必須是準確的。也有的客戶要模型把整個推理過程進行展現,他們自己做判斷和確認。所以評估也要根據場景需求做不同的設定,我們的自動化評估工具會針對每一類場景做調整和改動,收集到對應的測試 case。從迭代產品的角度來說,有一些常規的 case 會在每一次迭代以后用于驗證。我們根據執行任務的鏈路長短,對驗證問題也做了分層,嘗試讓它不斷提升,達到更可用的狀態。如果模型在某一個場景上有了突破,我們就會發布一些新的能力。

張天樂:我對這個事情還挺有感觸的。首先我們為什么要評估模型?還是希望模型變得會越來越好,交付的結果越來越好。但是在實踐過程中,我想給大家的一個建議是,先想人類法則,再想 AI 法則。這是啥意思呢?我給大家舉一個場景,

我們有一個用 AI 在微信里跟借款人溝通分期還款的過程,在這件事情上,話術在提升到一定程度以后對效果的增益就很小了。最后我們的解決方案就是把借款人拉到一個群里,群里好幾個角色,有人唱紅臉,有人唱白臉。比如有人會說,哥你要不就還錢吧,別因為這個事再把房子給查封了。然后另外一個 Agent 可能就是律師的角色,就說反正我們一直在推流程,你愛還不還。所以我想分享的事情是什么呢?就是尤其在創業這件事情上,大家不要一味地追求 AI,天天做 evaluation 讓它在話術上做得有多好,一定要去想想商業模式或者其它維度上,還有沒有創新可做。

第二件事情是,其實我們在 day one 的時候就很難采用傳統方案,比如先確定一個結果,然后去做 evaluation,再去完成。法律服務不像數學或者 coding 問題一樣,是有一個準確結果的。早期我們確實沒有找到特別好的方法,但是現在我們會把完整的信息更 freely 地全部交給模型,然后也不做過多的干預,讓它根據借款人歷史的溝通記錄、微信記錄、法院信息,自己評估怎么做更好。

在這個過程里我們也找到了很多 Aha Moment。比如說我們內部會區分 good case、bad case,有一種情況是借款人分期 12 期,還了 10 期就不還了,那這到底是一個 good case 還是 bad case?這個問題上模型給出的結果就特別好,它說如果分期的金額很少,還了 10 期,后面 2 期不還了,那借款人可能是惡意的,這就是一個 bad case。但如果每期的金額很大,借款人還了 10 期,那已經挺不容易了,這就應該是一個 good case。所以在這整個流程里,我們會覺得還是要更少地 control,然后把更多、更全面的信息扔給模型,這樣可能會有相對好的結果。

夏令:明白。常總做的是智能體之間的通信,本質是為了讓智能體之間能夠協作起來。從協作成本和效率這個角度來講,您這邊有沒有比較好的評估方法,或者您看到了什么問題?

常高偉:我們在評估方面的研究暫時并不多,目前更關心的還是連接和通信的效率。比如兩個智能體在協作的時候需要收發數據,那么雙方對數據理解的一致性要如何才能更高,以及智能體是否能夠直接地、低成本地連接到其它智能體,這些是我們目前更關心的問題。

Agent 商業化前途何在

夏令:Agent 的商業化這個問題,相信也是大家都非常關心的。大家能夠感受到,在中國做 toB 的 SaaS 工具,其實是非常有挑戰的。優質的客戶少,客單價小,市場環境也不是特別友好。所以我想請楊總和天樂總重點分享一下,因為兩位都是做 to B的,如何在中國這個 toB 環境下,讓 Agent 取得比較好的商業化效果?從商業模式來講,如何和客戶形成比較好的合作關系?從價值層面來講,如何創造客戶愿意付費的價值?我們請楊總先來談談。

楊勁松:我首先簡單介紹一下我們商業化的成果。我們做到了一年大概千萬左右的收入,今年大概會有四五倍的增長,所以我認為 Agent 商業化這件事情還是可以做的,這是基本的背景。具體來講,大家對 Agent 市場的判斷基本上是十倍于云的體量。以前 SaaS 很難做大,可能是因為市場規模就相對較小,但 Agent 的市場規模是比以前更大的。

從具體的商業化思路來講,不確定我們對大家有沒有借鑒意義。我們的想法是在一項新技術出現的早期,有一個市場是所謂的賣鏟子。對于 Agent 來說,Agent 基礎設施或者構建 Agent 需要的一套工具鏈,就是鏟子的需求,我們在商業化早期主要就是做這塊市場。雖然那個時候已經有了很多的開源工具,但是我們差異化的點在于,一家相對嚴肅的企業如果所有核心應用都通過開源工具去構建,他們可能是不太好接受的。所以我們就面向他們對鏟子的需求,通過這個過程,再挖掘可以靠交付結果收費的應用場景。如果你的工具沒有被客戶用起來,其實這些應用場景是很難自己找到的。

自己拿著鏟子找垂直場景、驗證可行性,其一是速度比較慢,其二是時間窗口比較短。我們的做法是先賣出去一批鏟子,等若干大的企業、行業用起來,就觀察到存在部分場景 Agent 已經可以部分地做到端到端,或者在人的輔助下能實現效率五倍到十倍的提升,這些場景是一定可以做出一些不一樣的東西的。所以我們的商業化思路就是,第一步賣鏟子,鏟子進入行業以后會定義出來垂直場景,我們就聚焦在這幾個點上用結果計收。

我們現在切入了一個場景,就是通過 Agent 進行審計。這是一個非常細分的市場,最頭部審計公司的市場占有率有只有 1%。為什么這么分散?因為這個行業高度依賴人工專家親自去到現場,做很多的 paperwork。這些專家很值錢,一個審計項目報價大幾十萬是很常見的,利潤率也很高。在這個場景里,Agent 可以創造的價值就是原本需要全部由人完成的 paperwork,我們通過 Agent 完成大部分的中間結果,人只起到驗證性,或者最終簽字蓋章的作用。從提升效率的角度來說,我們算下來相當于節省了 10 倍以上的人力。這種場景是很有可能按照結果計收的。如果提升只有百分之十幾或者二十幾,那很難按結果計收,但如果有 10 倍的提升,你甚至可以直接進入這個行業,做一個新玩家。鏟子是一個基礎,我們的思路就是識別這些場景,然后切入。

夏令:明白。我自己經歷過之前國內那一波 SaaS 的商業化,所以 23 年下半年的時候我也比較感觸,toB 要在中國落地的話,很多用戶就是更愿意為結果,而不是為效率工具買單。可能在一段時間內,國內的 toB 服務領域還會是這樣。

我們都比較認可,商業化最好的方式是交付結果,讓用戶為結果買單。這個問題也想和天樂總探討一下,那就是這個路徑會不會變相地成為一種人力外包業務?從您的經驗來看,Agent 交付結果和傳統的人力外包,在商業上有哪些顯著的不同?以及可以規避以前的哪些問題?

張天樂:我覺得我們比較幸運的一點是,我們算是做了三代 AI。最早在微軟做圖像識別,后來做卷積神經網絡的那一套東西。我認為今天的商業模式一定是跟著 AI 的,要和當前的技術強相關。幾年前沒有大模型的時候,我覺得 AI 還是只有工具屬性,中國的 SaaS 生態也不夠好。但是今天我們看到 Agent 和 LLM 的能力已經大幅增強了,這種時候就更應該在結果上選擇一種自然的商業化方式。

第二點,我們在交付結果的時候是不是像以前的人力外包公司一樣,這個問題我想分成兩個維度來談。首先對于甲方,我們盡量讓自己看起來和傳統方案是一樣的,讓他們的切換成本最低。尤其是跟金融機構談合作的時候,我們不怎么強調 AI,這對他們來說不重要,重要的是我們能交付結果。我們會非常關注甲方能不能在傳統作業方式和我們的方案之間無縫切換,甲方需要的是你幫他解決問題,而不是你用 AI 幫他解決問題。實實在在地解決問題,這是最核心的。

其次,我們覺得 AI 最好的模式不是 Chatbot。早期 OpenAI 的 Chatbot 完全限制了 AI 的能力,o1 出現之后,我們認為 AI 最強的能力是 planning,所以去年我們就一直在做 planning,這是我們做對了的事情。但做得不對的事情是,我們沒把 planning 做透,沒有在整個作業過程里把 planning 的能力充分發揮出來。我們目前的基礎方案是,有一個 planning 能力非常強的 Agent 進行整個案件和任務流程的規劃,把每天的日程、跟各方的溝通內容形成 task。我們內部嚴格意義上都是 task 交互,機器一直在下達 task,Agent 和人也是拿著 task 工作,這樣人和機器就能在一個體系里更好地執行。

我們認為最終的結果應該是 Agent 把人替代掉,但是這個過程的中間狀態很重要,因為組織不可能完全沒有人,也不可能 day one 就一下子把人全換成機器。我們現在用機器進行規劃,然后盡量平滑掉人和機器之間的差異性,就是為了慢慢降低人的占比。但我們也不是要做純粹的無人化,因為我們在這個過程中發現有很多崗位,其實沒辦法用 Agent 替代。比如我最開始覺得郵寄文件這項工作好像很容易被替代,但是后來發現這個崗位的工作其實非常麻煩,他不光需要從 call EMS,還需要修打印機、換紙,是挺難替代的。我們公司最應該被替代的就是我。所以我覺得人機混同,然后直接交付結果,這就是最好的組織形態。

Agents 生態如何建立

夏令:下面希望跟大家探討一下生態問題,這方面主要想請 Bill 總和常總談談。首先 Bill 總的重點還是服務海外的企業級客戶,相比于中國客戶,美國企業的信息化程度和 SaaS 滲透率是相當高的。我們之前看過一些調查,很多美國企業會購買三四十個不同的 SaaS 工具,Agent 進入企業之后也不會把這些 SaaS 全部替換掉,而是成為生態的一部分。所以我們的產品要怎么融入企業生態以及海外的 Agent 生態,Bill 總有沒有初步的設想?

朱哲清:我一直有這么一個觀點,不知道大家會不會同意,那就是在海外,SaaS 和 Agent 之間是沒有沖突的。Agent 在很大程度上是把 SaaS 的生態做得更加集成化,原來企業可能需要對各個 SaaS 單獨集成,然后讓員工熟悉怎么使用這些工具。未來如果由 Agent 集成所有的 SaaS 工具,這就變成了一個 single prompt 的問題,員工只要知道怎么 prompt,就可以調用所有的 SaaS 工具,這可能是 Agent 在海外生態的優勢。

我對國內的生態不是很熟悉,但是據我了解,國內很多時候是外包公司直接進入某個公司 build 一個 solution,然后這家公司直接使用,最后每一家公司都做了自己的集成,但是沒有統一的接口。這就導致即使有了 Agent,Agent 還是要從零開始重復構建功能,Agent 在一家公司串聯以后,沒辦法在另一家公司也能串聯。海外生態可以保證大多數公司的 SaaS 服務體系都類似,一個 Agent 在 A 公司成立,那它在 B 公司大概率也成立,這是我目前看到的海內外生態的最大區別。

我舉個簡單的例子,海外幾乎所有公司都在用 JIRA 作為 SaaS management tool。如果說到 sales,那幾乎所有公司都在用 Salesforce 的 CRM。所有公司 financial 的 bills 都是通過 Bill.com、NetSuite 或者 SAP 來完成。這一系列工具全部都是標準化的,只要你的 Agent 知道怎么調用這些工具,就可以把整個工作流全都串起來。但據我了解,除非可以把所有集成公司全部打通,讓大家都用一套接口,否則這件事情在國內很難完成。

張天樂:現在國內的很多技術方案是做一套 RPA,嘚嘚點完,然后交付結果。

夏令:楊總對這塊是不是比較有經驗?

楊勁松:我們現在可以看到一個變化,那就是各個大廠都在試圖建立自己的 MCP 協議聯盟,這會倒逼 SaaS 廠商,至少頭部 SaaS 廠商開放自己的核心能力。這樣不管是哪一家,最后肯定會有一個 Agent 入口來調配這些工具。但是在這個事情發生之前,至少目前國內生態還是非常封閉的,和海外生態會相差幾個量級。

朱哲清:是的。我們在海外集成了很多工具,雖然有些工具也挺難集成,需要很多 approve process,但我們還是把它打通了。其實去年年底我們嘗試了解過國內生態,但是后來直接放棄了,因為這件事情不太可能由我們完成。

楊勁松:其實我覺得 RPA 思路可能會稍微弱一點,如果純粹從打通生態的角度來說,現在有一種基于多模態模型的方案可能會更通用,也會更快。其實對于海外生態,我有一點很好奇,就是像 Zapia 這種集成了幾千個工具的產品,進去之后主要的優勢是什么?

朱哲清:從 MCP 的角度來說,現在市面上有超過 15, 000 個 MCP,其中可用的不到 200 個,大多數都是 complete trash。即便是那兩百個我們 evaluate 出來已經可用的 MCP,它們的 input 和 output 也是跟整個 context 完全無法銜接的。也就是說,這些工具是基于以前非 AI native 的 API 做出來的。所以首先,構建一個相對比較 AI native 的工具鏈就很重要。

第二點是工具調用的問題。Zapia 集成了將近 8, 000 個工具,但是如果仔細去看,會發現它在每一個平臺上的集成都很有限,比如說 Facebook page,它只有兩三個 function,可以 post 一個 text,可以 fetch 一些 comments。但是真正的 Agent workflow,是當一家公司有 marketing 的需求,它可以橫跨整個媒體矩陣發帖,監控所有的comments、likes、轉發,然后再基于所有的 comments、likes、轉發實時觀察、決策哪些值得回復。如果有必要的話,這個 Agent 還應該可以發 Email 給我,讓我找真人去回復,或者發一個 coupon 出去。這種級別的 Agent workflow 才是真正的企業級需求,但是目前 Zapier 完全沒有辦法做到,所以它的集成都非常 high level。

然后第三點是構建方式。它目前的構建方式是 fixed workflows,也就是某個 function 的 output 和下一個 function 的 input 必須是固定的關系。如果你要把整個 workflow 稍微改一改,那就得從頭開始構建整個workflow,這也是一個巨大的包袱。我們在做 Pokee.ai 的時候,希望把這些問題都規避掉,做到這一點的前提是整個規劃過程得靠模型能力完成。而拿模型能力直接從零開始 plan 一個二十幾步的 workflow 是不現實的,所以我們建了一個自己的 foundation model,把 planning 和工具調用過程變成我們自己的模型的任務。當這個最難的部分去掉之后,語言模型唯一的任務就變成了理解用戶需求。

夏令:好的。下面一個問題想請教常總,就是智能體之間的通信應該也非常依賴生態。您目前在做開源社區,從構建 Agent 之間的通信和協作的角度來講,您對打造生態有什么想法和見解?

常高偉:我先回應一下朱總剛才的觀點。首先我們也比較認可當前的協議整體可能還處于早期階段,智能體之間的連接和協作還不是特別強烈的需求。第二我們也非常認可 AI native 的連接,我認為在現有的系統上可能有辦法解決,但是會比較困難。未來有沒有可能有其它系統,比如企業軟件或者我們使用的軟件慢慢智能體化之后,出現更多 AI 原生的連接,這個時候可能會有更簡單的解決方案。我特別看好這個方向,我們也正在做這樣的嘗試。

555

回到生態的問題上,我們在通過幾個不同的渠道構建生態。第一個渠道是通過標準化組織打造影響力,比如我們現在和 W3C 合作還蠻多的,我們在里面也成了一個智能體協議相關的社區組,有很多國內外的大廠都在里面。我認為現階段要談落地的話,可能還比較早期,但是在影響力和技術的探索上,確實已經可以著手去做了。我們能看到其他的標準化組織也在做這樣的事情,比如 IETF、思科、IEEE,大家都在考慮智能體協議應該怎么做。

另一個渠道是開源社區。目前我們一方面在自己做開源項目,圍繞我們的協議開發一些軟件,讓這個協議更加好用。同時我們也會和其他開源社區合作,做一些開源框架的設計,觀察我們的協議怎么更好地融入他們的開源框架里。未來,我們希望自己的協議能夠支持大部分的開源框架。

我們認為目前智能體協議最大的瓶頸,可能在于基模能力的限制,也就是還沒有一個非常好用的智能體,所以智能體之間的連接需求也不是特別多。但我認為這個瓶頸遲早是能夠突破的,所以我們更關心的是和標準化組織以及開源社區的溝通和合作。在國內以及國外,我們都在推進這方面的事情。

長上下文與動態記憶,Agent 走向未來

夏令:不同業務場景對 Agent 技術的突破也有不一樣的期待。下一個問題,想請大家分享一下最期待的 Agent 技術突破分別是什么。我們從常總開始。

常高偉:我們用最先進的模型測試協議調用能力,發現它們對協議的理解能力已經非常強了,調用的準確度也非常高,在 95% 以上。對我們來說,目前最大的問題就是耗時太長,成本也比較高。

訪問速度問題比如用 ANP 協議定酒店,我告訴 Agent 我想找西湖周邊的酒店,它會幫我找二十幾家,并且查看未來一個月的時間里這家酒店的房源,找到之后再預定下單。這一整套操作下來需要 5~6 分鐘,時間還是非常長的,所以我們現在比較關心的就是智能體的反應速度什么時候能提高。另外還有成本,我認為這個問題和協議非常相關。因為不管使用哪種協議,對上下文的消耗都是非常非常大的。如果成本降不下來,就會成為阻礙協議落地的關鍵點。

夏令:好的。天樂總最期待哪塊技術的突破?

張天樂:首先我認為,未來我們公司的狀態是一個很聰明的 Agent 去調度一堆 action 的工具,目前 action 對于我們是一個工程問題,只要花時間就能解決得相對好,但是在經驗上,我剛才也提到從 day one 開始我就覺得 RAG 機制不本質。我最近在看 memory 相關的論文,想找到做信息 retrieval 更有效的方式。我覺得 memory 有一個很重要的邏輯在于遺忘,人是會忘掉一些東西的,模型應該有一本百科全書,但百科全書里面也有一些 rubbish。我們希望構建一層 memory,把匹配的效率、retrieval 效率和正確率大幅提升,并且實現自動地記憶和遺忘,甚至還要修正。

夏令:明白。楊總您最關心的是什么?

楊勁松:有兩塊。首先是張總剛剛提到的 memory,我也覺得其實目前行業里并沒有做得特別好的相關實踐。第二塊是上下文。目前的 Agent 對于大部分復雜任務,可能工作一段時間之后上下文就斷掉了,需要通過一些工程化手段來恢復斷點,然后再繼續,這種模式限制了很多 Agent 完成復雜、長鏈路、高價值任務的可能性。動態記憶可能是這個問題的解法之一,這兩項技術具有相關性。

夏令:這里我想插一句。對于 OpenAI 和 DeepSeek 來說,它們都是 128K 的上下文長度。從目前來看,大概什么數值的 long context 對您來說可能是夠用的?

楊勁松:首先這 128K 其實大部分都是輸入的 context,輸出的長度會小很多。我們覺得首先最好能先到百萬級別,但肯定是越長越好。我覺得更重要的是能不能出現一種新的機制,讓上下文不再是一個瓶頸,而是可以從模型側不斷拓展。我看到有些項目在底層做 memory 的基礎設施,這可能是一種方法。但是我們看現在的 Coding Agent,Sonnet 因為上下文更長,任務質量就會好很多,用動態記憶的話,其實上下文在中間就斷掉了,那任務質量一下就降低了。

夏令:是的。這還不是單純的上下文長度問題,背后還涉及到成本。另外上下文長了之后,海底撈針,我們還要考慮命中率的問題。

楊勁松:是的。

夏令:朱總最近在硅谷,您比較關注和期待的技術前沿是哪一塊?

朱哲清:其實現在有很多東西都在并行發展,其中很多可能和我們今天聊的沒有太大關系,但既然大家都講到了 memory 跟 context,那我再補充一點。在別的訪談中,我提到過自己一個叫 large concept model(大型概念模型)的 line of research(研究方向),意思就是在生成的時候,并不是以 token by token generation 的方式,而是以 concept embedding(概念嵌入)的方式去做 autoregressive generation。然后會有一個 decoder,把 concept embedding decode 成一段或者一句話,這樣就可以把整個 retrieval 以及生成的過程,當然還有上下文長度給極致地壓縮。這是因為對語義理解來說,我們并不需要每個 token 或者每一個詞都展示出來,才能知道語義是什么,很多時候模糊的語義就足以用來完成所有的 inference 以及問答了。

另外從生成速度以及成本來說,diffusion model text(擴散模型文本生成)可能是一個值得大家關注的方向,原因在于它的生成不再是以一個完全 token level autoregressive 的方式,而是在整個 text 的整個 output corpus level(語料庫級輸出)進行 autoregressive generation。這樣一來,它生成所需的 information 就更少,compression(壓縮)更多,整體的效率也會提高。我覺得如果這兩條線未來能有比較大的突破,那生成的 context 以及 speed 都會有比較大的進展。

夏令:下面是今天的最后一個問題。因為大家都在創業,也都很關注這個行業里其它技術和產品的進展,可不可以每人分享一個自己最近的 Aha Moment?我們從 Bill 總這邊開始。

朱哲清:這還真問倒我了。我覺得最近出來的產品同質化比較嚴重,還真沒有什么特別的 Aha Moment。

夏令:那技術上有沒有一些 paper 讓你印象很深刻?

朱哲清:要說最近的 paper 還真有幾篇。首先是 RL 相關,特別是跟 RL fine tuning 相關的 paper。最近有一篇 paper 說 random reward function(隨機獎勵函數)也可以幫助一個 RL base solution 找到更優的 policy。

其實很多年前就有一篇文章說,當你拿同一個 RL 算法做 30 次實驗,至少可以得到 5~6 次實驗結果是 state-of-the-art,剩下的實驗都是 complete trash,這篇 paper 也有點類似的感覺。RL 算法的穩定度本身就不夠,在進入 LLM 時代之前就是這樣。現在我們拿了很多我們認為可能已經是做到了最好的 RL 算法放進 LLM,然后大家用各種各樣的 hack 嘗試得到更好的 LLM 放進 production,但其實這整個背后的理論以及 RL 算法體系的構建都還不是很成熟,這是值得大家關注的一點。

在 LLM 這個生態系統中,RL 未來的發展空間是非常非常大的,而大家對技術的了解又很不夠。比如當年 GRPO 出來的時候,大家都覺得它是更好的RL算法,但事實上它是一個從 PPO 退化而來的 RL算法,所以我覺得這當中的 gap 以及可以探索的方向是非常非常多的。

夏令:好的。楊總這邊有沒有什么可以分享的?

楊勁松:我就講一個產品上讓我比較驚艷的點,它來自一款我們可能已經有點忽視的產品,就是 ChatGPT。它在去年晚些時候上線了一個記憶能力,給了我所謂的 Aha Moment。我之前用 ChatGPT 做了很多對外演講稿的潤色,做這件事情的時候我會把 OKR 給它,所以它基本上對我這個人的畫像已經熟悉到了恐怖的程度,比如它知道我是從哪所學校畢業的,目前在做什么方向的創業,以及我們創業的定位和打法。今天我們討論的幾個問題,如果我讓它站在我的角度思考,然后給我一個大概的 context,那他輸出的 bullet point 會和我自己的想法差別非常小,這是一個我覺得非常可怕的體驗。

雖然就產品本身我們沒有看到它任何界面上的調整和變化,但是從用戶體驗和粘性來講,我肯定不會再去找什么 Claude 或者是 Gemini。我們之間的記憶已經被拆解到它的思考里面了,那它的效果肯定是更好的。如果未來我們的產品,也可以把過往和用戶交流中有價值的信息融入服務,產生粘性,那也會是挺可怕的一件事情。

夏令:這個我也有同感。ChatGPT 也準確地知道我是一個投科技的風險投資人,還說什么我人生路演 PPT 的標題應該寫"投資未來:從神經網絡到孕育新生",這個彩虹屁真是可以。天樂總最近有沒有感受到一些 Aha Moment?

張天樂:我不是恭維啊,Pokee.ai 這個產品對我來說算是一個 Aha Moment。

朱哲清:謝謝謝謝,有點震驚到我了。

張天樂:確實是這樣。Manus 出來之后我特別認真地學了好幾天,我覺得它確實把我們以前想到的一些事情非常好地工程化了,但是后續我個人覺得沒有特別多新意。你們發布 Pokee.ai 的時候談到了一個問題,就是未來會有很多的 tools 讓我們在日常場景調用。我當時想了一下,我們的 tools 現在可能沒有那么多,但是長期來看確實會越來越多,那當我們真的到了有大量 tools 的時候,如何能夠有效地調用。我覺得用 RL 的方式去解決,這個還挺有意思的。

另外一個 Aha Moment 是在我個人的興趣方面,就是文生 3D。有一個產品叫 AdamCAD,是一家美國公司做的。我最早是做圖形學的,那時候我們做高性能計算,我覺得文生 3D 的價值非常大。如果我們有足夠多非常好的 3D model,那就可以把整個世界 construct 出來。我覺得它是在結構性地碾壓今天很多應用,還挺有意思的。

夏令:好的。常總最近有什么 Aha Moment?

常高偉:我這個不是最近,應該是在一兩個月之前。我們在調協議的時候是讓模型驅動協議的生成,收到響應之后也不會用代碼來處理,而是直接把響應給到模型。在這個調聯的過程當中我們發現了一個非常有意思的現象,一直到那天晚上都很激動。就是模型第一次發起請求的時候,對協議的理解有問題,發送給另一端的時候少帶了一個城市的字段。另一端發現之后,就直接返回了錯誤,告訴它你沒有帶城市,所以這次請求是失敗的。我當時在看日志,我本來以為模型到這就會把這次流程結束掉,結果模型沒有結束。我們沒想到這個模型又把請求修改了一下,修改成功之后又發送過去,然后第二次請求就成功了,這整個流程居然走完了。

夏令:它在自我迭代。

常高偉:是的,自我迭代。雖然我們通過分析也能夠明白這件事情,但是真正看到它這樣做的時候,感覺是很不一樣的。我認為包括我們現在在用的很多軟件在內,未來可能都不需要太多代碼,完全可以把復雜度內化到模型里,我們給它幾個工具,再讓它學習怎么收發協議就夠了。模型未來有可能可以自己慢慢學習,未來的智能體有可能就是模型加工具能力。比如說內存有沒有可能也變成一個可調用的工具,智能體自己就可以學會寫內存,非常有可能。這是最近一兩個月讓我非常興奮的一點,我認為它對軟件形態也會有很大的改變。

朱哲清:內存和硬件調用這件事情,其實微軟、高通、英特爾內部都在做。未來硬件的調用會由 Agent 來完成這件事情,可能已經變成了一個共識,在硬件廠商里是一件非常 common 的事情。我認識一些硬件廠商的 VP,他們希望能夠盡可能把硬件上的軟件極簡化,使得整個硬件更可控。

夏令:Agent 確實應該能成為 OS,因為 OS 本身的功能就包括更好地兼容和調用不同的硬件或硬件模塊。

朱哲清:對對。

夏令:今天聽了大家兩個小時的分享,我覺得收獲還是非常大的。我們各位嘉賓的觀點從 AI 的技術框架到落地應用,以及未發展的趨勢,都有相互關聯的脈絡,很開心能夠和大家一起交流。因為時間關系,今天線上聽眾的提問就只抽取一個問題,我們看到這個提問是留給常總的。這位聽眾希望進一步了解一下,ANP 或者 A2A 跟 MCP 的區別是什么,它們分別更適合應用于什么樣的場景?這塊能不能請常總再為我們進行一下補充?

常高偉:好的。我們先回到問題本身。首先我們一直認為,MCP 在設計之初是為了解決模型連接工具和連接資源的問題,假設你在 GitHub 上有一個代碼倉庫,或者在谷歌上有個文檔,這個時候用 MCP 進行連接是最合適的方案。而 A2A 和 ANP 的是用于連接智能體的,假如未來我們每個人都有一個智能助理,那這個時候我要給夏總發消息,我想直接找到夏總,夏總也想直接找到我,那 A2A 或者 ANP 就是更加合適的方式。一個是智能體之間的協議,一個是智能體和工具、資源之間的協議,這是它們最大的差異。

夏令:謝謝常總。今天非常感謝大家的時間,也再次感謝雷峰網和 AI 科技評論主辦的這次活動。也希望后續能夠在線下有更多時間跟大家交流,共建這樣一個屬于 AI Agent 的全新的創業時代。謝謝大家。

雷峰網文章

相關標簽
雷峰網

雷峰網

讀懂智能&未來

訂閱

覺得文章不錯,微信掃描分享好友

掃碼分享

熱門推薦

查看更多內容
主站蜘蛛池模板: 欧美精品一二三区 | 97在线观看| 视频在线一区二区 | 91影库| 国产在线精品一区二区 | 亚洲资源在线 | 美女张开腿露出尿口 | 一区二区免费高清视频 | 国产高清av免费观看 | 免费小视频在线观看 | 另类 综合 日韩 欧美 亚洲 | 婷婷色国产偷v国产偷v小说 | 人干人操 | 六月色婷| 欧美在线视频网站 | 亚洲精品一区中文字幕乱码 | 久久成人午夜 | 日韩精品中文字幕一区二区三区 | 久久精品国产一区二区电影 | 成人一区二区三区在线观看 | 成人精品一区二区三区中文字幕 | 日韩精品在线一区 | 欧美黄色片在线观看 | 天天天天天操 | 羞羞视频在线观看网站 | av日韩一区 | 精品久久久久久18免费网站 | 欧美一级二级视频 | 国产一区二区观看 | 久久久久久黄 | 天堂一区二区三区 | 亚洲一区二区在线视频 | 青青草原精品99久久精品66 | 中文字幕av一区 | 99精品国产一区二区三区 | 手机在线不卡av | 狠狠躁18三区二区一区 | www.亚洲一区二区 | 一级二级三级在线观看 | av中文在线| 国产一区二区美女 |