成人欧美一区二区,亚洲最大色综合成人av,精品乱子伦一区二区三区

新聞中心

News

聯(lián)系我們

電話：86-755-82910368

傳真：86-755-82910673

郵箱：sail-group@sail-group.com.cn

郵編：518001

精彩視頻

Wonderful video
投訴與咨詢

Complaints and advice
人才招聘

Recruitment

首頁- 新聞中心- 熱點(diǎn)分析

關(guān)于DeepSeek的十條謠言

時(shí)間：25-02-06 來源：尚晉的思考

關(guān)于DeepSeek的十條謠言

最近DeepSeek靠著V3和R1兩個(gè)模型徹底破了圈，從美國(guó)總統(tǒng)到平民百姓人人都在討論DeepSeek，而這些討論里充斥著各種誤解和謠言，本文截取了一些最離譜的誤解和謠言逐一分析和澄清一遍。

一：DeepSeek宣稱自己一共只花了550萬美元

DeepSeek從來沒說過自己訓(xùn)練R1模型只花了550萬美元，這個(gè)誤會(huì)的出處是DeepSeek V3的報(bào)告：

在預(yù)訓(xùn)練階段，DeepSeek-V3模型每處理一萬億token僅需消耗18萬H800 GPU小時(shí)。基于我們搭載2048張H800 GPU的集群計(jì)算，這一階段的訓(xùn)練時(shí)間僅需3.7天。整個(gè)預(yù)訓(xùn)練階段總計(jì)消耗266.4萬GPU小時(shí)，耗時(shí)不足兩個(gè)月。結(jié)合上下文長(zhǎng)度擴(kuò)展所需的11.9萬GPU小時(shí)以及后期訓(xùn)練的0.5萬GPU小時(shí)，DeepSeek-V3模型的完整訓(xùn)練流程總成本僅為278.8萬GPU小時(shí)。若以每H800 GPU小時(shí)2美元的租賃價(jià)格計(jì)算，我們的總訓(xùn)練成本僅為557.6萬美元。

實(shí)際上DeepSeek宣稱的是V3最終版本的訓(xùn)練階段只花了2048個(gè)H800一共1315個(gè)小時(shí)，如果按照H800 2刀一小時(shí)的租金的話，總計(jì)需要557.6萬美元。這是一個(gè)學(xué)術(shù)Paper比較標(biāo)準(zhǔn)的內(nèi)容，是為了證明V3的訓(xùn)練成本大概是同級(jí)別的模型的十分之一。

這五百多萬顯然不包含人才薪資、購買的硬件、前期實(shí)驗(yàn)、數(shù)據(jù)準(zhǔn)備等等各種成本，結(jié)果中美的記者、大V和網(wǎng)友們卻誤以為DeepSeek說自己從創(chuàng)建開始一共只花了五百萬美元，還為這事吵的不可開交，還有人去計(jì)算幻方從成立開始一共花了多少錢來“辟謠”，讓人啼笑皆非。

二：DeepSeek有五萬張H100

這條謠言出自Scale AI的創(chuàng)始人亞歷山大·王的一次采訪，然后馬斯克在X上評(píng)論說”很顯然是“。

這謠言顯然是”利益相關(guān)“和”大內(nèi)宣”，因?yàn)?span>Scale AI的業(yè)務(wù)就是標(biāo)注數(shù)據(jù)，DeepSeek R1證明了標(biāo)注數(shù)據(jù)沒那么有用，而馬斯克的xAI是真的買了幾萬張H100，卻毛都沒訓(xùn)出來，還不如直接甩鍋給拜登政府管控不力，一舉兩得。實(shí)際上，幻方在招人時(shí)經(jīng)常炫耀自己的GPU多，但真實(shí)的數(shù)字大概就在1萬多張，而且主力還是A100和H800。五萬張H100純屬子虛烏有。

三：DeepSeek是OpenAI的套殼

DeepSeek V3回答時(shí)經(jīng)常誤認(rèn)為自己的是OpenAI的GPT系列模型，然后被不懂行的網(wǎng)友拿來作為DeepSeek是套殼的佐證。DeepSeek顯然不是套殼gpt，最直接的證據(jù)就是DeepSeek是開源的而OpenAI是閉源的，不信的人可以自己買一套H800部署一套或者用國(guó)外fireworks/together.ai平臺(tái)自己部署的開源版本。而R1出來之后這個(gè)謠言也可以不攻自破了，因?yàn)?span>R1的說話風(fēng)格和o1差別太大了，絕對(duì)不可能套殼，具體可以看看我之前的分享。

DeepSeek認(rèn)為自己是OpenAI GPT的原因可能是兩點(diǎn)：1. 模型訓(xùn)練的數(shù)據(jù)來自互聯(lián)網(wǎng)，而GPT生成的內(nèi)容已經(jīng)污染了互聯(lián)網(wǎng)的語料。 2. DeepSeek是用gpt來合成部分訓(xùn)練數(shù)據(jù)，這部分恰好包含了很多關(guān)于gpt身份認(rèn)知的信息。而DeepSeek團(tuán)隊(duì)后訓(xùn)練又做的很隨意，對(duì)于這件事也并不是很在乎，所以才出現(xiàn)DeepSeek誤認(rèn)為自己是OpenAI的回答。

四：DeepSeek R1完全是蒸餾/照抄的OpenAI o1

蒸餾這條評(píng)論還是有一定真實(shí)性在里面的，但不太準(zhǔn)確。DeepSeek V3在訓(xùn)練過程中大概率用gpt合成了一部分?jǐn)?shù)據(jù)（這也是今天OpenAI和微軟宣稱調(diào)查DeepSeek的原因），但R1絕對(duì)不是蒸餾的o1，因?yàn)?span>o1根本不返回思維鏈過程，而且R1的paper中也詳細(xì)解釋了其訓(xùn)練過程，除了冷啟動(dòng)階段需要幾千條外，根本不需要太多思維鏈數(shù)據(jù)，思維鏈能力是RL訓(xùn)練中涌現(xiàn)出來的。

另外一個(gè)謠言是“OpenAI o1的訓(xùn)練方法是公開的，DeepSeek只需要照抄就行”。然而OpenAI的技術(shù)是完全封閉的，之前大家猜測(cè)o1的RL方法也是以PRM和MCTS為主，DeepSeek用的ORM是靠自己的實(shí)驗(yàn)證明有效的，OpenAI的研究員也在X上同意DeepSeek獨(dú)立發(fā)現(xiàn)了可行的RL方法。

五：DeepSeek是個(gè)小模型，可以在個(gè)人電腦跑起來

看到很多《本地運(yùn)行DeepSeek R1》的教程，一些美股評(píng)論員也說DeepSeek是小模型+小數(shù)據(jù)的勝利。這是完全錯(cuò)誤的，首先DeepSeek V3/R1模型本身是671B的超大模型，是開源模型里最大的之一，而且也用了14T的數(shù)據(jù)訓(xùn)練，絕對(duì)算不上”小數(shù)據(jù)“。

而本地電腦能跑的7B到72B的模型實(shí)際是用DeepSeek R1微調(diào)出來的Qwen和Llama模型，是DeepSeek團(tuán)隊(duì)為了驗(yàn)證蒸餾的效果做的。很多人本地跑了這些蒸餾模型，發(fā)現(xiàn)效果不好，然后誤以為是DeepSeek R1模型不好。這些本地模型不是DeepSeek R1，這些蒸餾模型的”智商“是受到原本基座模型的限制的，R1只是教會(huì)了它們思考，所以效果一定是遠(yuǎn)不如R1的。

六：DeepSeek是幻方這幾個(gè)月包裝出來割韭菜的

最近也看到一些質(zhì)疑DeepSeek的言論說一個(gè)從來沒聽過的公司忽然這么牛逼，一定是幻方花了大筆營(yíng)銷費(fèi)用包裝出來割股民韭菜的。還有人拿著DeepSeek公司工商信息里參保人數(shù)只有4個(gè)人說他們是皮包公司。實(shí)際上DeepSeek在2023年年中就開始了大模型研究，且一直在開源模型中處于領(lǐng)先地位，在圈子里一直以技術(shù)創(chuàng)新聞名，包括國(guó)內(nèi)的第一個(gè)MoE模型DeepSeek-MoE，DeepSeek V2打響大模型價(jià)格戰(zhàn)，國(guó)內(nèi)的第一個(gè)推理模型R1-Lite等等，只是最近的V3和R1才破圈而已。

七：DeepSeek是幻方的業(yè)余項(xiàng)目

這個(gè)更多是網(wǎng)友的玩梗被信以為真了，實(shí)際上相比于量化，DeepSeek更像是幻方的主營(yíng)業(yè)務(wù)了，起碼對(duì)于梁文鋒來說是這樣：一是梁總在大模型業(yè)務(wù)上親力親為，一直和DeepSeek團(tuán)隊(duì)一起呆在北京辦公室，二是內(nèi)部量化團(tuán)隊(duì)有在抱怨梁總不管量化業(yè)務(wù)，導(dǎo)致自營(yíng)盤子賺的錢不如往年。

還有說幻方靠做空英偉達(dá)賺錢，其實(shí)這次火出圈和導(dǎo)致美股暴跌對(duì)DeepSeek團(tuán)隊(duì)來說也是意外，他們的風(fēng)格一直是模型訓(xùn)著訓(xùn)著發(fā)現(xiàn)差不多了就發(fā)出來，其實(shí)V3后訓(xùn)練也做得很隨意，主要是為了展示訓(xùn)練效率上的學(xué)術(shù)成果，估計(jì)他們自己也沒有想到竟然火出圈了。

八：DeepSeek產(chǎn)品不好用，所以模型很垃圾

很多人因?yàn)?span>DeepSeek APP拒絕回答、回答很慢、識(shí)圖不準(zhǔn)、信息滯后等等原因認(rèn)為DeepSeek模型能力很差。實(shí)際上上面的這些問題都不是模型能力的問題，比如識(shí)圖不準(zhǔn)是因?yàn)槎嗄B(tài)只是通過OCR而不是模型，System Prompt沒有給出當(dāng)前日期等等。其實(shí)是因?yàn)?span>DeepSeek產(chǎn)品做的比較敷衍，畢竟APP只是為了給懂行的人展示自己模型能力，DeepSeek唯一的目標(biāo)就是AGI，而不是通過服務(wù)用戶而盈利。想用好產(chǎn)品的人建議去用豆包，雖然字節(jié)的模型能力不是最牛逼的，但是論產(chǎn)品體驗(yàn)沒人比得過豆包。

九：DeepSeek是國(guó)內(nèi)第一個(gè)頂級(jí)模型

很多人以為中國(guó)AI之前一直落后美國(guó)很多年，DeepSeek忽然憑空就追上來了，實(shí)際上中國(guó)的大模型一直處于第一梯隊(duì)，尤其是開源領(lǐng)域：阿里巴巴的千問Qwen系列一直是開源模型的并列第一，它的14B和32B模型一直是本地部署模型的首選，MiniMax前幾天開源的01模型是世界上最大的線性注意力模型，還有像MiniCPM、RWKV這樣的精品端側(cè)小模型等等。

還有在多模態(tài)領(lǐng)域，視頻生成有快手的可靈（比Sora早半年發(fā)布）和MiniMax的海螺，語音有字節(jié)的端到端語音模型，實(shí)際上即使沒有DeepSeek，中美AI的差距一直在幾個(gè)月之內(nèi)，在某些細(xì)分領(lǐng)域我們還是領(lǐng)先的，完全沒有一些人說的五到十年那么夸張。

十：DeepSeek已經(jīng)吊打OpenAI了

這條就屬于吹的有點(diǎn)過頭了，實(shí)際上DeepSeek做到的是通過局部創(chuàng)新，以極低的成本實(shí)現(xiàn)接近OpenAI頂級(jí)模型的水平，不論是FP8、MLA還是MTP、ORM都更類似于“術(shù)”的創(chuàng)新而非“道”的創(chuàng)新，目前0到1的范式的創(chuàng)新還是由OpenAI去引導(dǎo)的，這不是中美之間的差距而是OpenAI與其他公司的差距，美國(guó)的Google、Meta、Anthropic目前也是在追著OpenAI的腳步。不過隨著技術(shù)差距逐漸被拉平，憑借著后發(fā)優(yōu)勢(shì)和人才儲(chǔ)備，中國(guó)團(tuán)隊(duì)將有希望引領(lǐng)下一波AI的范式創(chuàng)新。

摘自-尚晉的思考

上一篇	下一篇
外媒拆解DeepSeek制勝秘籍！OpenAI CEO終于認(rèn)...	沒有上一篇

五月天亚洲综合情_国产伦理久久久_国产 高清 精品 在线 a_国产精品国产精品国产专区不卡_天堂精品视频_亚洲一区二区在_国产尤物99_五码日韩精品一区二区三区视频_97超级碰碰_亚洲欧洲国产日韩精品

五月天亚洲综合情_国产伦理久久久_国产高清精品在线 a_国产精品国产精品国产专区不卡_天堂精品视频_亚洲一区二区在_国产尤物99_五码日韩精品一区二区三区视频_97超级碰碰_亚洲欧洲国产日韩精品