關(guān)于DeepSeek的十條謠言
時(shí)間:25-02-06 來源:尚晉的思考
關(guān)于DeepSeek的十條謠言
關(guān)于DeepSeek的十條謠言
最近DeepSeek靠著V3和R1兩個(gè)模型徹底破了圈,從美國(guó)總統(tǒng)到平民百姓人人都在討論DeepSeek,而這些討論里充斥著各種誤解和謠言,本文截取了一些最離譜的誤解和謠言逐一分析和澄清一遍。
一:DeepSeek宣稱自己一共只花了550萬美元
DeepSeek從來沒說過自己訓(xùn)練R1模型只花了550萬美元,這個(gè)誤會(huì)的出處是DeepSeek V3的報(bào)告:
在預(yù)訓(xùn)練階段,DeepSeek-V3模型每處理一萬億token僅需消耗18萬H800 GPU小時(shí)。基于我們搭載2048張H800 GPU的集群計(jì)算,這一階段的訓(xùn)練時(shí)間僅需3.7天。整個(gè)預(yù)訓(xùn)練階段總計(jì)消耗266.4萬GPU小時(shí),耗時(shí)不足兩個(gè)月。結(jié)合上下文長(zhǎng)度擴(kuò)展所需的11.9萬GPU小時(shí)以及后期訓(xùn)練的0.5萬GPU小時(shí),DeepSeek-V3模型的完整訓(xùn)練流程總成本僅為278.8萬GPU小時(shí)。若以每H800 GPU小時(shí)2美元的租賃價(jià)格計(jì)算,我們的總訓(xùn)練成本僅為557.6萬美元。
實(shí)際上DeepSeek宣稱的是V3最終版本的訓(xùn)練階段只花了2048個(gè)H800一共1315個(gè)小時(shí),如果按照H800 2刀一小時(shí)的租金的話,總計(jì)需要557.6萬美元。這是一個(gè)學(xué)術(shù)Paper比較標(biāo)準(zhǔn)的內(nèi)容,是為了證明V3的訓(xùn)練成本大概是同級(jí)別的模型的十分之一。
這五百多萬顯然不包含人才薪資、購買的硬件、前期實(shí)驗(yàn)、數(shù)據(jù)準(zhǔn)備等等各種成本,結(jié)果中美的記者、大V和網(wǎng)友們卻誤以為DeepSeek說自己從創(chuàng)建開始一共只花了五百萬美元,還為這事吵的不可開交,還有人去計(jì)算幻方從成立開始一共花了多少錢來“辟謠”,讓人啼笑皆非。
二:DeepSeek有五萬張H100
這條謠言出自Scale AI的創(chuàng)始人亞歷山大·王的一次采訪,然后馬斯克在X上評(píng)論說”很顯然是“。
這謠言顯然是”利益相關(guān)“和”大內(nèi)宣”,因?yàn)?span>Scale AI的業(yè)務(wù)就是標(biāo)注數(shù)據(jù),DeepSeek R1證明了標(biāo)注數(shù)據(jù)沒那么有用,而馬斯克的xAI是真的買了幾萬張H100,卻毛都沒訓(xùn)出來,還不如直接甩鍋給拜登政府管控不力,一舉兩得。實(shí)際上,幻方在招人時(shí)經(jīng)常炫耀自己的GPU多,但真實(shí)的數(shù)字大概就在1萬多張,而且主力還是A100和H800。五萬張H100純屬子虛烏有。
三:DeepSeek是OpenAI的套殼
DeepSeek V3回答時(shí)經(jīng)常誤認(rèn)為自己的是OpenAI的GPT系列模型,然后被不懂行的網(wǎng)友拿來作為DeepSeek是套殼的佐證。DeepSeek顯然不是套殼gpt,最直接的證據(jù)就是DeepSeek是開源的而OpenAI是閉源的,不信的人可以自己買一套H800部署一套或者用國(guó)外fireworks/together.ai平臺(tái)自己部署的開源版本。而R1出來之后這個(gè)謠言也可以不攻自破了,因?yàn)?span>R1的說話風(fēng)格和o1差別太大了,絕對(duì)不可能套殼,具體可以看看我之前的分享。
DeepSeek認(rèn)為自己是OpenAI GPT的原因可能是兩點(diǎn):1. 模型訓(xùn)練的數(shù)據(jù)來自互聯(lián)網(wǎng),而GPT生成的內(nèi)容已經(jīng)污染了互聯(lián)網(wǎng)的語料。 2. DeepSeek是用gpt來合成部分訓(xùn)練數(shù)據(jù),這部分恰好包含了很多關(guān)于gpt身份認(rèn)知的信息。而DeepSeek團(tuán)隊(duì)后訓(xùn)練又做的很隨意,對(duì)于這件事也并不是很在乎,所以才出現(xiàn)DeepSeek誤認(rèn)為自己是OpenAI的回答。
四:DeepSeek R1完全是蒸餾/照抄的OpenAI o1
蒸餾這條評(píng)論還是有一定真實(shí)性在里面的,但不太準(zhǔn)確。DeepSeek V3在訓(xùn)練過程中大概率用gpt合成了一部分?jǐn)?shù)據(jù)(這也是今天OpenAI和微軟宣稱調(diào)查DeepSeek的原因),但R1絕對(duì)不是蒸餾的o1,因?yàn)?span>o1根本不返回思維鏈過程,而且R1的paper中也詳細(xì)解釋了其訓(xùn)練過程,除了冷啟動(dòng)階段需要幾千條外,根本不需要太多思維鏈數(shù)據(jù),思維鏈能力是RL訓(xùn)練中涌現(xiàn)出來的。
另外一個(gè)謠言是“OpenAI o1的訓(xùn)練方法是公開的,DeepSeek只需要照抄就行”。然而OpenAI的技術(shù)是完全封閉的,之前大家猜測(cè)o1的RL方法也是以PRM和MCTS為主,DeepSeek用的ORM是靠自己的實(shí)驗(yàn)證明有效的,OpenAI的研究員也在X上同意DeepSeek獨(dú)立發(fā)現(xiàn)了可行的RL方法。
五:DeepSeek是個(gè)小模型,可以在個(gè)人電腦跑起來
看到很多《本地運(yùn)行DeepSeek R1》的教程,一些美股評(píng)論員也說DeepSeek是小模型+小數(shù)據(jù)的勝利。這是完全錯(cuò)誤的,首先DeepSeek V3/R1模型本身是671B的超大模型,是開源模型里最大的之一,而且也用了14T的數(shù)據(jù)訓(xùn)練,絕對(duì)算不上”小數(shù)據(jù)“。
而本地電腦能跑的7B到72B的模型實(shí)際是用DeepSeek R1微調(diào)出來的Qwen和Llama模型,是DeepSeek團(tuán)隊(duì)為了驗(yàn)證蒸餾的效果做的。很多人本地跑了這些蒸餾模型,發(fā)現(xiàn)效果不好,然后誤以為是DeepSeek R1模型不好。這些本地模型不是DeepSeek R1,這些蒸餾模型的”智商“是受到原本基座模型的限制的,R1只是教會(huì)了它們思考,所以效果一定是遠(yuǎn)不如R1的。
六:DeepSeek是幻方這幾個(gè)月包裝出來割韭菜的
最近也看到一些質(zhì)疑DeepSeek的言論說一個(gè)從來沒聽過的公司忽然這么牛逼,一定是幻方花了大筆營(yíng)銷費(fèi)用包裝出來割股民韭菜的。還有人拿著DeepSeek公司工商信息里參保人數(shù)只有4個(gè)人說他們是皮包公司。實(shí)際上DeepSeek在2023年年中就開始了大模型研究,且一直在開源模型中處于領(lǐng)先地位,在圈子里一直以技術(shù)創(chuàng)新聞名,包括國(guó)內(nèi)的第一個(gè)MoE模型DeepSeek-MoE,DeepSeek V2打響大模型價(jià)格戰(zhàn),國(guó)內(nèi)的第一個(gè)推理模型R1-Lite等等,只是最近的V3和R1才破圈而已。
七:DeepSeek是幻方的業(yè)余項(xiàng)目
這個(gè)更多是網(wǎng)友的玩梗被信以為真了,實(shí)際上相比于量化,DeepSeek更像是幻方的主營(yíng)業(yè)務(wù)了,起碼對(duì)于梁文鋒來說是這樣:一是梁總在大模型業(yè)務(wù)上親力親為,一直和DeepSeek團(tuán)隊(duì)一起呆在北京辦公室,二是內(nèi)部量化團(tuán)隊(duì)有在抱怨梁總不管量化業(yè)務(wù),導(dǎo)致自營(yíng)盤子賺的錢不如往年。
還有說幻方靠做空英偉達(dá)賺錢,其實(shí)這次火出圈和導(dǎo)致美股暴跌對(duì)DeepSeek團(tuán)隊(duì)來說也是意外,他們的風(fēng)格一直是模型訓(xùn)著訓(xùn)著發(fā)現(xiàn)差不多了就發(fā)出來,其實(shí)V3后訓(xùn)練也做得很隨意,主要是為了展示訓(xùn)練效率上的學(xué)術(shù)成果,估計(jì)他們自己也沒有想到竟然火出圈了。
八:DeepSeek產(chǎn)品不好用,所以模型很垃圾
很多人因?yàn)?span>DeepSeek APP拒絕回答、回答很慢、識(shí)圖不準(zhǔn)、信息滯后等等原因認(rèn)為DeepSeek模型能力很差。實(shí)際上上面的這些問題都不是模型能力的問題,比如識(shí)圖不準(zhǔn)是因?yàn)槎嗄B(tài)只是通過OCR而不是模型,System Prompt沒有給出當(dāng)前日期等等。其實(shí)是因?yàn)?span>DeepSeek產(chǎn)品做的比較敷衍,畢竟APP只是為了給懂行的人展示自己模型能力,DeepSeek唯一的目標(biāo)就是AGI,而不是通過服務(wù)用戶而盈利。想用好產(chǎn)品的人建議去用豆包,雖然字節(jié)的模型能力不是最牛逼的,但是論產(chǎn)品體驗(yàn)沒人比得過豆包。
九:DeepSeek是國(guó)內(nèi)第一個(gè)頂級(jí)模型
很多人以為中國(guó)AI之前一直落后美國(guó)很多年,DeepSeek忽然憑空就追上來了,實(shí)際上中國(guó)的大模型一直處于第一梯隊(duì),尤其是開源領(lǐng)域:阿里巴巴的千問Qwen系列一直是開源模型的并列第一,它的14B和32B模型一直是本地部署模型的首選,MiniMax前幾天開源的01模型是世界上最大的線性注意力模型,還有像MiniCPM、RWKV這樣的精品端側(cè)小模型等等。
還有在多模態(tài)領(lǐng)域,視頻生成有快手的可靈(比Sora早半年發(fā)布)和MiniMax的海螺,語音有字節(jié)的端到端語音模型,實(shí)際上即使沒有DeepSeek,中美AI的差距一直在幾個(gè)月之內(nèi),在某些細(xì)分領(lǐng)域我們還是領(lǐng)先的,完全沒有一些人說的五到十年那么夸張。
十:DeepSeek已經(jīng)吊打OpenAI了
這條就屬于吹的有點(diǎn)過頭了,實(shí)際上DeepSeek做到的是通過局部創(chuàng)新,以極低的成本實(shí)現(xiàn)接近OpenAI頂級(jí)模型的水平,不論是FP8、MLA還是MTP、ORM都更類似于“術(shù)”的創(chuàng)新而非“道”的創(chuàng)新,目前0到1的范式的創(chuàng)新還是由OpenAI去引導(dǎo)的,這不是中美之間的差距而是OpenAI與其他公司的差距,美國(guó)的Google、Meta、Anthropic目前也是在追著OpenAI的腳步。不過隨著技術(shù)差距逐漸被拉平,憑借著后發(fā)優(yōu)勢(shì)和人才儲(chǔ)備,中國(guó)團(tuán)隊(duì)將有希望引領(lǐng)下一波AI的范式創(chuàng)新。
摘自-尚晉的思考
| 上一篇 | 下一篇 |
|---|---|
| 外媒拆解DeepSeek制勝秘籍!OpenAI CEO終于認(rèn)... | 沒有上一篇 |