国产一级色_蜜桃αv_伊人www_99久久婷婷国产综合精品电影_大陆毛片_国产精品久久久久久久久久免费看

關于ZAKER 合作
硅星人 59分鐘前

高考數學 142 分,多學科推理 MMMU 跑分 76.0 直逼人類專家,Skywork R1V 3.0 用強化學習探索跨學科推理

在電影《銀翼殺手 2049》中,虛擬伴侶 Joi 能通過全息投影與現實世界無縫互動。她能感知主角 K 的情緒為他挑選音樂,也能理解 K 的指令,將自己的形象投放到城市的廣告牌上,與他同步體驗雨中漫步。她不僅在看和聽,更在理解 K 所處的復雜環境和他的潛在需求,并作出恰當且充滿人情味的反應。

這種科幻場景要走入現實,AI 需要跨越的,并非只是單純的數據量或算力。有趣的是,現實中的突破路徑和科幻設想有所不同,研究者們發現,真正的關鍵在于通過 GRPO(Group Relative Policy Optimization)這樣的強化學習算法,讓 AI 像人類一樣通過試錯來學習,自己找到整合不同信息的最佳策略。

這種方法恰好針對了當前 AI 的一個要害,也就是如何讓多模態能力從信息拼接升級為真正的融合理解。傳統方法就像給 AI 一本厚厚的說明書,告訴它每種情況的標準答案。而強化學習則更像給了 AI 一個實驗室,讓它通過不斷嘗試來發現規律,當某個推理路徑能更好地解決問題時,就給予高分獎勵,從而強化這種思考方式。

昆侖萬維最新開源的 Skywork R1V 3.0,就是這一探索路徑下的產物。它最核心的思路,就是借助強化學習,將在數學等領域學到的嚴謹推理能力,遷移并泛化到物理、化學、醫學乃至更廣泛的現實世界問題中,試圖讓 AI 離那個理想中的 Joi 更近一步。

目前,昆侖萬維已全面開源 Skywork R1V 3.0 的所有資源,旨在推動多模態推理社區的進一步發展:

模型權重

技術報告:xxx(待補充)

代碼倉庫

從 " 偏科生 " 到 " 六邊形戰士 ",尋找能力的平衡點

如何評價一個 AI 模型的好壞?在今天,只看它在某個單項上跑分有多高,可能已經不夠了。更重要的,是看它的能力曲線是否平滑,在面對五花八門的問題時,表現是否足夠穩定。

在這方面,R1V 3.0 交出了一份很有意思的答卷。它在一個名為 MMMU 的權威評測上,取得了 76.0 分的成績 。這個分數距離人類初級專家的平均水平(76.2 分)只有一步之遙 ,同時也超過了一些知名的閉源模型,比如 Claude 3.7 Sonnet 的 75.0 分和 GPT-4.5 的 74.4 分 。

MMMU 之所以重要,是因為它不像傳統的單科競賽,更像一場包含理工、人文、醫學、藝術等多個領域的 " 跨學科高考 " 。能在這里拿到高分,背后透露出的信息是,這個模型的能力不偏科,知識結構相對均衡。這或許是讓 AI 智能的 " 鋸齒 " 變得更平滑、更可靠的一種體現。

當然,均衡不代表平庸。在物理、邏輯和數學等更考驗硬核推理能力的評測中,它同樣拿下了多個開源模型的最佳成績 。

硬核理工科,是騾子是馬拉出來遛遛

跑分終究是跑分。想知道一個模型是真學霸還是紙老虎,得拉出來實戰遛遛。我們直接上題,看看它在不同場景下的真實表現。

在 2025 年高考數學新一卷的測試中,R1V 3.0 取得了 142 分的成績,達到了開源多模態推理模型的最優結果,其表現已逼近多款業界領先的閉源模型水平:

具體的解題效率上,我們向模型展示了一道高考物理選擇題,R1V 3.0 不僅能給出正確答案,而且明顯 " 想得更快、更明白 " 了。它的解題思維鏈比上一代大幅縮短,比如從 4 千降至 7 百 tokens,推理速度提升了約 6 倍。

R1V 3.0

如果說高中題只是開胃菜,那大學的電路分析題就是正餐了。我們給它一道有一定分析深度的英文大學電路理論分析題 ,它能準確識別題目中 "unit ramp"(單位斜坡電壓)的含義,嚴格依據基爾霍夫電壓定律列出微分方程,并用積分因子法系統地求解,推導邏輯自洽、過程條理清晰 。這證明了它的推理能力確實有深度。

接下來,我們來看一道具有一定分析深度的英語版的大學電路理論分析題。從中可以看出,即便是這樣具有挑戰性的大學層次題目,R1V 3.0 依然能夠準確給出解答。

Consider applying a unit ramp voltage source to a series RL circuit as shown in . Compute the voltages with zero initial condition for L = 0.1H;

文史醫,AI 的 " 知識盲區 " 還是 " 舒適區 "?

跳出數理化,在更廣闊的知識領域里又如何?我們向模型提問:" 在下圖中,P 波代表 ___________,QRS 段表示 ___________,T 波代表 _____________。"

面對心電圖,它能頭頭是道地講出 P 波、QRS 段和 T 波各自的生理意義,就像個醫學院的學生在做課堂報告 。

而面對一位有 20 年肝硬化病史的患者的 CT 影像,它也能結合病史和影像學特點,推理出 " 肝細胞癌 " 的最可能診斷,并列出其他可能性以供鑒別 。

從冰冷的醫學影像,切換到充滿溫度的人文藝術,它也能 hold 住。它能認出《清明上河圖》,并對其藝術風格、歷史背景和深遠影響進行分析 。

還能通過一個唐代女樂俑的服飾、妝容和姿態,準確判斷其所屬朝代、社會階層,并結合 " 墓葬明器 " 的概念分析其文化意義 。

生活大冒險,如何應對 " 非標 " 難題

最后,來看一些更開放、更接近生活的 " 非標 " 問題。比如這個高難度的 " 看圖猜地方 " 游戲:我們要求模型根據一張圖片里的建筑、植被、標識牌等線索,推斷出其所在的大洲、國家、城市乃至經緯度 。R1V 3.0 展現出了極強的綜合認知能力,通過層層推理,最終成功鎖定了地點 。

還有一個更生活化的問題:" 我買一千瓶這個飲料,中獎的錢的期望是多少?" 。模型需要先通過視覺看懂瓶蓋上的中獎規則,再運用數學能力進行概率計算 。

而最考驗 " 網感 " 的梗圖理解,它也沒掉鏈子。面對一張涉及人物表情和雙關語的梗圖(Meme)圖片,它能準確識別出其中的幽默感,并解釋這種幽默來源于對 "models" 一詞在技術和日常語境中不同含義的誤解 。

通往穩健推理的后訓練路徑

模型表現這么好,背后用了什么巧妙的技術?Skywork R1V 3.0 的技術路徑很有意思,它沒有依賴海量數據和算力硬堆,而是把重點放在了模型的后訓練階段,更像一場精細的調優 。

這條路徑始于能力的嫁接與強化。團隊基于 R1V 2.0 做冷啟動,讓模型一出生就具備不錯的多模態推理基礎 。隨后引入 GRPO 強化學習算法,對模型進行深度激發,讓強大的文本推理能力成功嫁接到多模態任務上 。值得一提的是,這個過程借助 GRPO 強化學習算法,實現高效泛化,僅用了約 1.2 萬條高質量監督微調樣本和 1.3 萬條強化學習樣本,就實現了多學科推理能力的顯著提升 。

有了初步的能力,如何確保它不是在機械地模仿?為了解決這個問題,團隊引入了一套獨特的關鍵熵驅動驗證機制。他們發現,真正會推理的模型,在思考的關鍵節點會表現出較高的不確定性,代表著思維在發散;而只會模仿的模型則非常確定 。這個機制就像一個思考質檢員,能高效地識別出哪些模型版本是真正學會了推理,而不是在機械地模仿風格 。

解決了推理的真偽問題,還有一個挑戰是知識的均衡。由于強化學習階段的訓練數據以數學問題為主,模型的能力會有些偏科 。為此,團隊在強化學習之后,專門引入了一個針對連接器,也就是連接視覺和語言的橋梁,的微調步驟 。這一步有效地平衡了模型的知識結構,讓它在保持理科優勢的同時,也補上了文史、藝術等領域的短板,成了一個更全面的通才 。

結語

從最開始那個可能看不懂 Meme 的 AI,到最后這個更均衡、更穩健的模型版本,Skywork R1V 3.0 的迭代過程,本身就在試圖解決當前 AI 最棘手的幾個問題。它證明了,在行業普遍追求更高、更快、更強的同時,通過精細的后訓練調優,讓 AI 想得更穩、更可靠,是一條同樣重要且可行的路。

這背后是對 " 可靠性 " 的追求。尤其在 2025 年,當 AI 開始被更嚴肅地探討用于醫療診斷、金融合規等高風險領域時,可靠性已經從一個加分項變成了必選項。未來的 AI 競爭,可能不再只是參數和分數的比拼,更是看誰的系統在關鍵時刻更值得信賴。一個真正可用的 AI,需要具備某種程度的 " 認知謙遜 ":知道自己的能力邊界,并在不確定時,懂得把決策交還給人類。

而昆侖萬維選擇將 Skywork R1V 3.0 完全開放的做法,本身就體現了這種對可靠性和透明性的追求。實際上,這也不是一次孤立的行動,而是其構建以推理能力為主線的技術體系的一部分,此前他們已陸續開源了 Skywork-OR1 文本推理模型和 SkyReels-V1 視頻生成模型等多個項目。這種系統性的開源,以及將技術細節、探索發現都展示給社區的做法,讓人們能夠更好地檢驗和理解模型,這恰恰是通往信任的關鍵一步。

歸根結底,技術的發展終究要回歸到具體的人和具體的問題上,這可能比宏大的敘事要走得更遠。

相關標簽
ai

相關閱讀

最新評論

沒有更多評論了
主站蜘蛛池模板: 久久久久国产一区二区三区四区 | 特级a欧美做爰片毛片 | 国产精品成人69xxx免费视频 | 亚洲日韩第一页 | 亚洲国产成人精品久久久国产成人一区 | 欧美日韩亚洲一区 | 欧美精品一区二区在线观看 | 精品一区二区久久 | 黑人精品欧美一区二区蜜桃 | 日韩一区二区三区在线 | 精品欧美乱码久久久久久 | 久热精品在线观看视频 | 日韩亚洲一区二区 | 日韩中文在线视频 | 国产区精品在线观看 | www国产亚洲精品久久网站 | 一区二区三区在线 | 成人久久18免费网站麻豆 | 精品视频久久久久久 | 成人一区av偷拍 | 精品国产一区二区国模嫣然 | 亚洲第一福利网 | www.久久艹| 欧美精品一区二区三区视频 | 国产精品99久久久久久久久久久久 | 四虎影院久久 | 久久久www成人免费无遮挡大片 | 久久久久久久久国产精品 | 欧美日韩国产高清 | 日韩久久精品视频 | 久久久久久免费观看 | 性欧美hd| 婷婷综合激情 | 国产精品99久久久精品免费观看 | 中文字幕日韩一区 | 免费视频一区二区 | 久久久精品久久久 | caoporn免费在线视频 | 亚洲精品大片 | 亚洲精品一区二区三区四区高清 | 国产成人精品一区二区三区在线观看 |