国产一级色_蜜桃αv_伊人www_99久久婷婷国产综合精品电影_大陆毛片_国产精品久久久久久久久久免费看

關于ZAKER 合作
虎嗅APP 10分鐘前

大模型套殼往事

本文來自微信公眾號:直面 AI,作者:李炤鋒,題圖來自:AI 生成

華為盤古大模型涉嫌套殼阿里云 Qwen 大模型的風波,再次將模型 " 原研 " 與 " 套殼 " 的討論擺上了臺面。

回溯三年前,在 ChatGPT 剛剛開啟大模型航海時代時,那時候的套殼還停留在小作坊山寨 ChatGPT 的階段。調用 ChatGPT 的 API,接口再包上一層 " 中文 UI",就能在微信群里按調用次數賣會員。那一年,套殼成了很多人通往 AI 財富故事的第一張船票。

同時,開始自主研發大模型的公司里,也不乏對 ChatGPT 的借力。這些企業雖然有著自研的模型架構,但在微調階段或多或少利用了 ChatGPT 或 GPT-4 等對話模型生成的數據來做微調。這些合成語料,既保證了數據的多樣性,又是經過 OpenAI 對齊后的高質量數據。借力 ChatGPT 可以說是行業內公開的秘密。

從 2023 年開始,大模型賽道進入開源時代,借助開源框架進行模型訓練,成為了很多創業團隊的選擇。越來越多的團隊公開自己的研究成果,推動技術的交流與迭代,也讓套殼開發成為了更普遍的行為。隨意之而的,爭議性的套殼事件也逐漸增多,各種涉嫌套殼的事件屢次沖上熱搜,隨后又被相關方解釋澄清。

國內大模型行業也在 " 套 " 與 " 被套 " 中,輪番向前發展著。

一、GPT 火爆的那一年:山寨 API 和造數據

回顧 AI 的進化史,今天我們看到各類大模型都源自同一個鼻祖—— 2017 年 Google Brain 團隊發布的 Transformer 神經網絡架構。Transformer 的原始架構和核心包括編碼器(Encoder)與解碼器(Decoder),其中,編碼器負責理解輸入文本,解碼器負責生成輸出文本。

如今,在大型語言模型領域依然采用三大主流 Transformer 架構:Decoderonly(如 GPT 系列)、EncoderDecoder(如 T5)和 Encoderonly(如 BERT)。不過,最受關注和應用最廣泛的,是以 Decoderonly 為核心的 GPT 式架構,并不斷衍生出各種變體。

2022 年 11 月,基于 GPT3.5,OpenAI 推出 ChatGPT,發布后短時間內獲取數千萬用戶,讓 LLM 正式登上公眾舞臺,也將 GPT 架構推為主流 AI 架構。隨著 ChatGPT 打響大模型時代第一槍,各大廠商紛紛涌入大模型研發賽道。由于 ChatGPT 無法直接接入國內用戶,一些小作坊也看到了套殼的牟利前景。

2022 年底開始,許多山寨 ChatGPT 在互聯網上涌現,此時的套殼基本不涉及任何二次開發,很多開發者直接包裝一下 API 就拿出來賣錢。

2022 年底至 2023 年,國內涌現數百個 ChatGPT 鏡像站,包括名噪一時的 "ChatGPT 在線 " 公眾號,運營者拿到 OpenAI API,再在前端加價售賣。這種低劣的套殼手段很快就被監管部門發現,"ChatGPT 在線 " 背后的上海熵云網絡科技有限公司,就因涉嫌仿冒 ChatGPT 被罰 6 萬元,成為首例 "ChatGPT 套殼 " 行政處罰。

另一方面,在同期發布的其他模型中,時常出現一些 "GPT 味 " 的回復,這些模型背后的企業也遭受了套殼質疑。

2023 年 5 月,曾有網友發現,訊飛星火大模型在有些問答中會出現 " 我是由 OpenAI 開發的 " 等內容,由此一則關于 " 訊飛星火大模型被質疑‘套殼 ChatGPT ’ " 的消息傳播開來。

這種情況并非個例,甚至 2024 年發布的 DeepSeek V3 也曾爆雷,有用戶反映其在測試中出現異常,模型自稱是 OpenAI 的 ChatGPT。相關企業對這類情況的解釋為,這可能是由于訓練數據中混入了大量 ChatGPT 生成的內容,導致模型 " 身份混淆 "。

互聯網公開信息中 AI 內容日漸增多造成的數據污染,確實是可能造成這些 "GPT 味 " 對話的原因。但另一種可能是,模型研發團隊在微調訓練過程中,主動使用了通過 ChatGPT 等 OpenAI 旗下模型構造的數據集,也就是所謂的 " 數據蒸餾 "。

數據蒸餾是大模型訓練中一種高效低成本的知識遷移方式,這里的邏輯就像是用一個強大的 " 老師模型 "(如 GPT-4)生成大量高質量問答數據,而后將這些數據喂給一個 " 學生模型 " 去學習。

事實上,在 GPT -3 之后,OpenAI 就徹底轉向了閉源,所以對于想要自研大模型的競爭對手而言,并無法在基礎架構層面套殼 OpenAI 的產品。這些企業或多或少也在模型技術上有一定積累,在架構層面紛紛推出自家的研究成果,但如果想要保證訓練質量,從更強的模型產品那里以借力的方式獲取數據無疑是一種捷徑。

雖然借力 ChatGPT/GPT-4 生成訓練數據是業內公開的秘密,但一直以來鮮有被披露的案例,直到那起著名的 " 字節抄作業 " 事件。2023 年 12 月,外媒 The Verge 報道稱,字節跳動利用微軟的 OpenAI API 賬戶生成數據來訓練自己的人工智能模型,這種行為實際上已經違反了微軟和 OpenAI 的使用條款。在此消息被披露不久,據傳 OpenAI 暫停了字節跳動的賬戶。

字節跳動方面隨后表示,這一事件是技術團隊在進行早期模型探索時,有部分工程師將 GPT 的 API 服務應用于實驗性項目研究中。該模型僅為測試,沒有計劃上線,也從未對外使用。按照字節跳動的說法,其對于 OpenAI 模型的使用是在使用條例發布之前。

對此,來自國內某頭部 AI 企業算法部門的葉知秋向直面 AI 表示,業內的普遍認知是,數據蒸餾不應該被認為是套殼。" 數據蒸餾只是一個手段,通過一個能力足夠強的模型產出數據,對于垂直領域(的另一個模型)去做加訓。"

加訓(Continual Training)是一種常見的提升模型性能的方法。通過在新數據上繼續訓練模型,可以使其更好地適應新的任務和領域。" 如果利用數據蒸餾做加訓算套殼,那這個技術就不該被允許。" 葉知秋解釋道。

2025 年的今天,大模型開發市場日漸成熟,直接調用 API" 山寨套殼 " 的模型產品已逐漸消失。在應用層面,隨著 AI Agent 領域的快速迭代,調用 API 落地的 AI 工具已經成為常態,如 Manus 這類通用 AI Agent 逐步進入市場,AI 應用層面的套殼已經成為了一種常見的技術手段。

而在大模型開發領域,隨著開源時代的到來,模型開發領域的套殼,又陷入了新一輪的爭論。

二、開源大模型時代:你用我用大家用

進入 2023 年,許多廠商選擇開源方式公布模型方案,用以刺激開發者群體對模型 / 模型應用的迭代。隨著 Meta 在 2023 年 7 月開源 LLaMA 2,標志著 AI 行業也進入開源時代。在這之后,先后有十余款國產模型通過微調 LLaMA 2 完成上線。同時,利用開源模型架構進行二次開發,也成為了新的套殼爭議點。

2023 年 7 月,百川智能 CEO 王小川回應了外界對旗下開源模型 Baichuan-7B 套殼 LLaMA 的質疑。他提到,LLaMA 2 技術報告里大概有 9 個技術創新點,其中有 6 個在百川智能正在研發的模型里已經做到。" 在跟 LLaMA 2 對比的時候,我們在技術的思考里不是簡單的抄襲借鑒,我們是有自己的思考的。"

就在幾個月后,國內 AI 圈迎來了另一場更洶涌的套殼風波。2023 年 11 月,原阿里技術副總裁、深度學習框架 Caffe 發明者賈揚清在朋友圈中稱,某家套殼模型的做法是 " 把代碼里面的名字從 LLaMA 改成了他們的名字,然后換了幾個變量名。" 事后證實,該信息直指零一萬物旗下的 Yi-34B 模型,開源時代的套殼爭議被搬到臺面上。

一時間,關于零一萬物是否違反了 LLaMA 的開源協議,在各大技術社區引發了激烈的爭論。隨后,Hugging Face 工程師 Arthur Zucker 下場對這一事件發表了看法。他認為,LLaMA 的開源協議主要限制了模型權重,而不是模型架構,所以零一萬物的 Yi-34B 并未違反開源協議。

事實上,利用開源模型架構只是打造新模型的第一步,零一萬物在對 Yi-34B 訓練過程的說明中也作出了解釋:模型訓練過程好比做菜,架構只是決定了做菜的原材料和大致步驟……其投注了大部分精力在訓練方法、數據配比、數據工程、細節參數、baby sitting(訓練過程監測)技巧等方面的調整。

對于 AI 行業而言,推動技術開源化的意義之一是停止 " 重復造輪子 "。從零研發一款全新的模型架構,并跑通預訓練流程需要耗費大量成本,頭部企業開源可以減少資源浪費,新入局的團隊通過套殼得以快速投入到模型技術迭代和應用場景中。百度 CEO 李彥宏就曾表示:" 重新做一個 ChatGPT 沒有多大意義?;谡Z言大模型開發應用機會很大,但沒有必要再重新發明一遍輪子。"

2023~2024 年,AI 行業掀起一場 " 百模大戰 ",其中的國產大模型大約 10% 的模型是基座模型,90% 的模型是在開源模型基礎上加入特定數據集做微調的行業模型、垂直模型。套殼幫助大量中小團隊站在巨人的肩膀上,專注于特定領域的工程化和應用探索。

如今,在 Hugging Face 上按 " 熱度 " 排序檢索,以文本模型為例,DeepSeek R1/V3、LLaMA3.2/3.3、Qwen2.5 以及來自法國的 Mistral 系列模型均位居前列,這些開源模型的下載量在幾十萬到上百萬不等。這表明開源極大地促進了行業的進化。目前,Hugging Face 平臺上共有超過 150 萬個模型,其中絕大多數是用戶基于開源架構的衍生產物—— sft 微調版本、LoRA 微調版本等。

另一方面,隨著 LoRA 與 QLoRA 等輕量化微調方案面世,定向微調模型的成本也在不斷下降,為中小型團隊進行模型開發提供了有利基礎。麥肯錫在今年 5 月的一份調查顯示,92% 的企業借助對開源大模型的微調提高了 24%~37% 的業務效率。

2023 年以來,模型開發門檻因開源不斷降低,在迎來百模齊放的良好生態之余,也浮現出一些渾水摸魚的惡劣套殼行為。

2024 年 5 月,斯坦福大學的一個研究團隊發布了一個名為 LLaMA3V 的模型,號稱只要 500 美元(約人民幣 3650 元)就能訓練出一個 SOTA 多模態模型,效果比肩 GPT-4V。

但隨后有網友發現,LLaMA3V 與中國企業面壁智能在當月發布的 8B 多模態開源小模型 MiniCPM-LLaMA3-V 2.59(面壁小鋼炮)高度重合。在實錘套殼抄襲后,該團隊隨后刪庫跑路。該事件一方面反映出,國產模型憑借其優異性能也成為了被套殼的對象;同時,也再一次引發了業界對開源時代套殼合規邊界的思考。

對于 AI 行業而言,廠商通過開源以協作的方式可以對模型進行完善與優化,加速推動問題解決與技術創新。由于協作的工作模式和開放的源代碼,開源大模型的代碼具有更高的透明度,并且在社區的監督下,公開透明的代碼能更容易進行勘誤。

" 透明度 " 是促進開源社區交流進步的關鍵,而這需要二次開發的團隊和所有從業者共同維系。在 LLaMA3V 的案例中,斯坦福方面的研究團隊只是對 MiniCPM-LLaMA3-V 2.59 進行了一些重新格式化,并把圖像切片、分詞器、重采樣器等變量重命名。

原封不動地拿過來,并且作為自己的學術成果發布,相比起套殼,這更像是徹頭徹尾的抄襲。

所以,套殼的道德邊界,究竟是什么呢?

三、" 套殼 " 和 " 自研 " 的矛盾體

" 如果一個團隊沒有以原生模型的名義發表,就不能叫套殼,應該叫模型的再應用。" 談及套殼的定義,葉知秋這樣說道。在加入大廠項目之前,葉知秋曾參與過一些創業公司的開源項目。他判斷,業內有實力造基礎模型的企業只會越來越少,加速利用開源技術是行業發展的必然," 畢竟核心技術上,只有那幾家公司有。"

葉知秋口中的 " 核心技術 ",指的是從零研發模型基礎架構,并落實預訓練流程的能力。相關報道顯示,國內目前有完整自研預訓練框架的大模型公司數量較少,僅有 5 家左右。能 " 造輪 " 的企業屈指可數,對此葉知秋的解釋是:" 一些企業也有實力投入基礎模型研究,但他們要考慮做這件事的收益。"

" 演化和加訓,嚴格來說和套殼是兩碼事。" 葉知秋表示,像 LLaMA 這樣的開源架構已經為業內熟知且熟用,很多成果都是在這一架構的基礎上演化而來的。但同時他也強調,套殼合規與否在于冠名問題,利用開源技術就需要在技術文檔中做出明確說明," 如果你是在一個已經開源的模型上進行加訓,那就要在冠名和文檔中體現這一點。"

對于如何理解大模型非法套殼,知識產權法領域的法律界人士秦朝向直面 AI 分享了他的看法。他表示,一些惡劣的 " 套殼 " 行為雖然在社會輿論上引發很多反響,在法律視角上卻是另一回事。如何區分套殼和抄襲的界限、如何證明因為套殼行為導致了不當獲利、如何證明具體的獲利額度,這些問題都存在著一定的舉證難度。" 目前來說,這一類事情還處于一個灰色地帶。"

秦朝進一步解釋,所謂 " 借鑒 " 就是很難區分性質的套殼,一些開發者可能 " 借鑒 " 了不止一家企業,然后宣稱是自研產品。除非是簡單粗暴的純套殼,不然很難去界定這一行為的惡劣程度。" 而且大模型賽道發展速度極快,走法律流程下來可能要兩三年,到那時技術都更新換代了。"

在技術圈語境下,自研是套殼的反義詞。在葉知秋看來,如果一個模型團隊宣稱自己是全程端到端自研,勢必會吸引業內同行審視的目光,未公開的套殼行為很難真正被掩蓋。" 一個開源的模型,其實一切信息都有跡可循,就是看業內人去不去挖掘而已。"

葉知秋進一步解釋道,模型原研廠商都會在大模型組件中留下一些 " 標簽 ",當研發團隊在發布論文時,這些 " 標簽 " 就會被用以證明其采用了創新技術。因為一旦團隊宣稱這款模型是自研,那就需要說明,這款新的模型基于傳統模型有什么不一樣的地方。" 如果沒有,那大家必然會問,你的模型的架構是從哪來的?"

對于一些企業而言,套殼和自研的取舍,也往往伴隨著成果產出的壓力。另一位資深算法從業者向直面 AI 表示,借鑒架構 / 方案在業內并不稀奇,因為很多團隊需要盡快解決 0 到 1 的問題。" 在保留技術底線基礎上,能有成果產出是最重要的。"

針對這一現象,葉知秋表示,一些頭部企業雖然在其他領域實力雄厚,但在模型領域,可能在底層的訓練邏輯上缺少經驗和積累。對這些企業而言,充分利用開源技術套殼,可以更快完成從數據層面到模型層面的積淀。" 像一些企業在某一領域的‘垂類’大模型,其實都有‘套殼’的成分在。"

" 通過‘套殼’去做自己的開發,還是非常低成本高價值的。" 作為從業者,葉知秋十分肯定開源為行業帶來的積極影響。他認為,長期來看,單一企業很難在模型能力上建立壁壘,開源有助于整個行業的進步,實現更高的效率、更低的成本,去打造更多的模型能力。

關于開源時代的套殼爭議,葉知秋表示,這些爭議本質上還是跟企業的宣傳口徑有關," 用開源技術不丟人,前提是企業不要宣傳是自研。"

(文中葉知秋、秦朝為化名)

本文來自微信公眾號:直面 AI,作者:李炤鋒

相關標簽
主站蜘蛛池模板: 午夜久久久| 午夜国产 | 99re6在线视频 | a级网站 | 亚洲毛片在线 | 欧美一区二 | 国产精品视频综合 | 日韩精品av一区二区三区 | 夜夜骚| 中文字幕在线一区二区三区 | a在线v| 成人av免费| 欧美精品在线播放 | 99在线免费观看视频 | 国产精品久久久久久久免费大片 | 欧美成人aaa级毛片在线视频 | 毛片av免费看 | 二区欧美 | 五月天婷婷综合 | 精品国产乱码久久久久久蜜退臀 | 国产国产精品久久久久 | 国产精品一区二区久久久久 | 久久av一区| 久久久成人一区二区免费影院 | 亚洲精选久久 | 日韩精品免费一区 | 国产精品久久久亚洲 | 麻豆亚洲 | 伊人春色成人 | 在线亚洲一区二区 | 国产在线视频一区 | 天天操天天操 | 欧美综合久久久 | 亚洲福利在线视频 | 波多野结衣中文字幕一区二区三区 | 欧美精品在欧美一区二区少妇 | 欧美一区二区三区四区视频 | 国产精品日产欧美久久久久 | 久草热在线 | 一区二区在线不卡 | 欧美精品一区二区在线观看 |