深度求索(DeepSeek)對全球AI和股市所造成的衝擊

DeepSeek自主研發的MLA架構和 DeepSeek MOE架構,對於降低其模型訓練成本發揮了關鍵作用。

DeepSeek

DeepSeek 的突破震驚了全球人工智慧產業、創投業和股票市場。

這一事件引發了美國資本市場的劇烈波動,重創美股:標普 500 指數在 10 天內下跌近 10%,輝達、微軟、字母、博通、邁威爾、台積電、安謀、甲骨文等科技巨頭的市值共計蒸發超過一兆美元。

對股市的影響

中國農曆年期間,2025年1月27日當天,全球的股市,無一倖免。其它的美國股市當天的相關個股表現如下:

  • 代表美股半導體的費城半導體指數大跌 9.2%
  • 全球最大人工智慧晶片商輝達暴跌超過 16.8%,市值蒸發超過5890億美元,創下美股史上市公司當日市值蒸發的最大記錄
  • 全球最大客製化人工智慧晶片設計商博通暴跌17.3%
  • 全球最大晶圓代工廠台積電暴跌13%
  • 全球第二大客製化人工智慧晶片設計商邁威爾重挫 19.1%
  • 網路交換器和路由器大廠Arista暴跌22.35%
  • 安謀重挫10.19%
  • OpenAI的資料中心合作伙伴甲骨文暴跌13.79%
  • 谷歌母公司字母下跌 4.2%

有多受歡迎?

7天增加一億個使用者


三言科技2025年2月8日報導,AI產品榜顯示,2025年1月20日DeepSeek R1模型發布後,1月DeepSeek用戶增長達1.25億(含網站、應用程式累加)。其中,80%以上用戶來自1月的最後一周。

DeepSeek在沒有任何廣告投放的情況下,僅7天就完成1億用戶的增長,打破ChatGPT創下的記錄。完成1億用戶的增長:ChatGPT共耗時2個月,僅次於DeepSeek;TikTok耗時9個月位列第三;拼多多耗時10個月;微信耗時1年2個月,分別排名第四和第五。

立即登上下載第一

2025年1月27日,DeepSeek超越ChatGPT登頂蘋果美國區免費應用榜單。 同日, 蘋果中國區應用程式商店的免費榜也顯示, DeepSeek為榜單第一。

全球第二受歡迎的 AI 聊天機器人

DeepSeek 網站用戶數量超過Gemini,在美國的訪問量也在2025年1月28日達到創紀錄的 4900 萬次,比前一周暴增 614%,成為全球第二受歡迎的 AI 聊天機器人。1月31日在美國的日訪問量為240萬次,比谷歌聊天機器人Gemini的150萬次高出60%,而 OpenAI 的 ChatGPT 仍是 DeepSeek的8倍,當天訪問量為1930萬次。

在美國以外,DeepSeek 和 Gemini 之間的差距則更大。根據 SimilarWeb 數據,DeepSeek於1月31日在除中國以外的全球訪問量為 2920 萬次,是 Gemini 的三倍多。

一個月前,DeepSeek.com 的日均訪問量只有30萬次,但到1月27日激增至3340萬次,並在當日震撼了美國科技股。

科技巨擘搶搭DeepSeek列車

2月1日時,DeepSeek 的 AI 助手在 140 個市場下載次數最多的移動應用程式排行榜上名列前茅,國外超大型的科技公司如微軟、輝達、亞馬遜等均已上線部署支援用戶訪問 DeepSeek-R1 模型。

OpenAI承受無比的壓力

OpenAI受到DeepSeek崛起,對OpenAI造成了一定的壓力,一改過去的神秘高貴感和收費的政策,被迫宣佈2月1日正式推出其最新研發的輕量級人工智慧模型 o3-mini首度向免費使用者開放推理功能,免費使用者可直接在 ChatGPT 中體驗 o3-mini 的推理功能。

同時為了減低DeepSeek的衝擊和分食谷歌的市場,OpenAI在2月6日甚至於宣布向所有用戶免費開放OpenAI剛推出的ChatGPT的網路搜尋引擎的功能,無需註冊,希望吸引使用者回到OpenAI的世界。

而且,從不打廣告,自認不需要,OpenAI被DeepSeek逼到劍走偏鋒,花了1400萬美元在全美國最貴的年度超級盃打廣告。

最後,OpenAI執行長奧特曼宣布,不會再單獨推出推理大模型o3,幾個月內會推出GPT-4.5、GPT-5模型,將旗下AI模型統整並精簡,解決目前過於複雜的產品路線狀況。而且尤於DeepSeek太便宜震撼,過幾個月所推出的最先進GPT-5將會「免費可用」。

目前費率如何?標準版用戶一個人要價一個月20美元,企業用戶一個人要價一個月200美元。就在2024年9月時,OpenAI還表示未來要把標準版用戶再上調為40美元,企業用戶為2000美元或數千美元。沒有DeepSeek,全球的消費者只能任憑OpenAI宰割,因為沒得選擇。

谷歌也投降

除了OpenAI,谷歌旗下的Google DeepMind的執行長Demis Hassabis首先稱DeepSeek的模型是「一項令人印象深刻的工作」,然後便一改口風說道:「從技術角度來看,這並不是一個重大變革」,同時還特別強調「炒作有點誇大了」。 「儘管炒作很多,但實際上並沒有新的科學突破,它使用的都是已知的AI技術。」 

但Hassabis同時表示,谷歌本周向所有人開放的Gemini 2.0 Flash模型比DeepMind的模型更有效率。 

各位要知道,特別若是你使用過Gemini的話,谷歌最新和功能較強大的版本,在DeepSeek出現之前可都是要收費,從來就沒有免費這回事。但,為什麼開始免費了?

所以,Hassabis對DeepSeek的種種質疑也就不難理解,DeepSeek事實上已經成為了DeepMind的強大對手。 

只靠便宜成本嗎?

否定任何中國的任何成就

許多歐美白人,習於把中國的成就妖魔化,貶低任何源自中國的事物的人,當然還包括仇中抗中反中的部份台灣人,不分青紅皂白,眾口鑠金一定會膝蓋式地反應「還不是因為中國的人工便宜!」,「還不是因美國禁運他們才靠低成本的晶片做出來的呀!」「這只不過是運氣好,而且只有這一家啦!」

奉勸這些無知的義和團和井底之蛙們去查一下中國軟體工程師的年薪,以及DeepSeek所給付的薪資再回來閱讀本文。

而且,中國目前已經有許多家超大型的人工智慧企業,他們的成就並不遜於美國的競爭對手們,只是你不知道而已:這一部份請見我的另一篇貼文《中國人工智慧的進展和頂尖的企業

妖魔化抺黑中國

只要中國的任何成就威脅到歐美或是其隨從的附庸國,這些國家就開始利用幾十年來壟斷世界,由其所建立的媒體,開始洗腦中國的產品品質不佳(這是明顯的似是而非:先自己度量花了多少錢買你所謂的中國產品,一分錢一分貨;你為何不花大錢買所謂品質好的貨品?),中國的軟體會資料回傳中國,中國會進行言論審查(無知又可笑的是多數的人並不知自己的國家,包括你自己所自豪的所謂民主國家,和自己在用的所有連上網的程式其實都有言論審查)。

那為何歐美或是其隨從的附庸國可以做相同的事,中國不行?你自己用的手機,平板,電腦生產地不是中國?用了幾十年怎沒聽你抱怨過。谷歌搜尋引擎,蘋果,微軟,臉書等軟體把你的資料傳回美國就沒問題?他們是聖人,你確定嗎?還是你根本不知道,只是人云亦云或是別人告訴你的?那為何歐美白人瘋抖音?有問題的抖音為何美國人千方百計想買下來?

連川普自己都改變態度,說抖音很好用,也說DeepSeek對美國企業是利大於弊,還是我英文不好會錯他的意了?

什麼是只許州官放火,不許百姓點燈?兩套標準、意識型態、人云亦云、無知就是。

為何其他人無法辦到?

我想說的是,如果只是靠「人工便宜」和「低成本的晶片」,那理應入門門檻很低,為什麼美國的中小企業,甚至軟體能力是全球末段班的台灣中小企業早就能達成DeepSeek所公佈的成就了呀?但為什麼沒有發生?這是小學生都懂的邏輯。

台灣的AI大模型呢?

既然如一些酸葡萄們的一貫理論,那台灣自己的AI大模型如果有的話,有多少用戶使用它?2024年台灣政府的科技發展計畫共編列新台幣 1,328 億元預算,包括數發部、國科會、經濟部、NCC這四個和資訊科技發展業務直接相關的部門,在花了納税人新台幣 1,328 億元預算後,台灣自己的AI大模型在那裡?

:台灣國科會官方2023年推出的的AI大模型TAIDE,在花了納稅人大筆預算後,功能落後,很少人有興趣使用,而且長期停止更新,也不敢公佈有多少人在使用。官方最大的國家級研究機構中研院2023年推出的自製的繁體中文版的大型語言模型登場,被爆使用的資料集是以中國為主的簡體中文資料、再另外簡轉繁;明顯就是照抄。

2024年11月11日,台灣的經濟部長,為了蹭人工智慧的熱度,竟然敢在全國工業總會上,不自量力地公開宣示「力拚2028製造業人工智慧普及率5成,台灣軟體躋身全球前3名」。

便宜在哪裡?

另外要提的是所謂DeepSeek的低成本的優勢:不只是指以約560萬美元代價(成本僅占OpenAI GPT-4的5%),打造出的人工智慧DeepSeek-R1模型這件震撼全球的創舉───指的應該是它的低廉的成本、價格、以及非常優秀的性能。

更重要的是DeepSeek提供給程式開發人員用戶存取它所提供的API服務收費也低得令人無法置信:如果你是客戶,能達成一樣甚至更佳的效果,有任何理由去使用昂貴高不可攀,近乎被幾家美國AI商壟斷的API服務收費嗎?

破除美國的壟斷

其實美國更害怕的是後者,因為全世界會有更多的廠商採用DeepSeek,然後再推至廠商的客戶,削弱美國的影響力。

DeepSeek為何成功?

成功主要有三大原因

DeepSeek成功主要有三方面:

  • 技術層面:DeepSeek核心自 主研製的DeepSeek-V3和DeepSeek-R1 兩個模型,其效能與OpenAI的4o和o1模型相當。
  • 成本低廉: DeepSeek研發出的這兩個模型成本僅為OpenAI 4o和o1模型的十分之一左右。
  • 開源模型: DeepSeek將這兩個強大的模型技術開源,讓廣大的AI團隊可以利用這些最先進且成本最低的模型,開發更多具有創新性的AI應用程式。

:中國目前表現最佳的三大AI大模型:DeepSeek,阿里巴巴,百度,三者都採用開源的模型。相較之下,美國的主要對手中,只有Meta是採用開源模型。

下一步

據陸媒統計,目前至少有20家大陸國產晶片廠商宣布與DeepSeek展開合作,透過結合「國產算力+國產大模型」的組合,打破輝達的CUDA生態的限制。其中包括華為昇騰、百度崑崙芯、海光、沐曦積體電路、摩爾線程等大陸知名AI晶片廠商。

擅用中文的優勢

中文的天生優勢

中文在人工智慧存在技術優勢,主要跟中文的三個特質有關。首先,漢字在書寫大小、發音長短非常整齊規整。語音識別時,每個字都是聲母加韻母,相對容易區分出一句話中的每字發音。但英文單詞長度不一,很多英文句子發音連讀,需要更大的運算量,且幾乎所有的字母文字都存在這個問題。

中文在AI訓練上有利

漢字是表意文字,資訊密度一般比字母文字要高,內涵豐富,可用詞組、成語、文言文等很少的漢字表達豐富含義。對人工智慧來說,絕大多數在相同內容情況下,中文訓練的儲存和計算量較少。但他也強調這並非完全絕對,因為英文也有自身優點,比如相對比較嚴謹,像在嚴謹的論文或法律文書,英文的資訊密度與中文差異就沒有那麼大。

中文字詞稳定

中文的穩定性,今天使用的漢字與幾千年前的甲骨文其實挺接近;對新出現的事物,漢字是透過常用字去建立新的詞組,其穩定性讓人工智慧的訓練參數可以更少,有效的重複訓練可以更多、準確性更高。相比之下,英文每年都會增加大量的新詞,常用詞都可能會發生變化。

DeepSeek的突破在那裡?

兩項關鍵技術

DeepSeek的成本涉及兩項關鍵的技術: 一個是MoE, 一個是MLA。DeepSeek自主研發的MLA架構和 DeepSeek MOE架構,對於降低其模型訓練成本發揮了關鍵作用。

「DeepSeek的厲害之處是訓練MoE的能力,成為公開MoE模型訓練中第一個能訓練成功這麼大MoE的企業。」

MOE

DeepSeek解決了「非常大且非常稀疏的MoE模型」所使用的性能難題, 而這也成為「DeepSeek訓練成本低最關鍵的原因」。

MOE架構的優勢在於一方面 模型可以將資料嵌入更大的參數空間中; 另一方面在訓練或推理時, 模型只需要啟動其中一部分參數, 從而大大提升效率。

DeepSeek模型擁有超過6000億個參數,相較之下,Llama 405B有4050億參數。 從參數規模來看,DeepSeek模型擁有更大的資訊壓縮空間,可以容納更多的世界知識。但同時,DeepSeek模型每次只啟動約370億個參數。 也就是說,在訓練或推理過程中, 只需要計算370億個參數。 相較之下,Llama 405B模型每次推理卻需要啟動4050億個參數。

MLA主要用於減少推理過程中的記憶體佔用, 在訓練過程也是如此, 它利用了一些巧妙的低秩近似數學技巧,DeepSeek採用的是旋轉位置編碼(RoPE)。將RoPE與傳統的MoE結合使用,成功地將這些技術整合在一起, 這表示DeepSeek在高效語言模型訓練方面走在了對手的最前面。

MLA

「MLA 主要透過改造注意力算子壓縮 KV Cache 大小,實現了在相同容量下可以儲存更多的KV Cache。此架構與DeepSeek-V3模型中的FFN層改造相配合,實現了一個非常大的稀疏MoE層。這是DeepSeek訓練成本低廉的最關鍵原因。」

KV Cache是一種優化技術,常用於儲存人工智慧模型運作時產生的token的鍵值對(即key-value數值),以提高運算效率。在模型運算過程中,KV cache會在模型運算過程中扮演一個記憶體庫的角色,以儲存模型之前處理過的token鍵值,透過模型運算計算出注意力分數,有效控制被儲存 token 的輸入輸出,透過「以存換算」避免了大多數大模型運算每次都是從第一個 token 開始運算的重複計算,提升了算力的使用效率。

不使用Cuda

DeepSeek並不使用輝達的Cuda程式庫,而是直接採用併行線程執行代碼(Parallel Thread Excution, PTX),透過大量精密調整的併行線程執行代碼,達成採用較低規格的硬體產出高效能 AI 模型表現。

競爭對手們如何評論?

OpenAI怎麼評論DeepSeek?

連視DeepSeek為最大對手的OpenAI執行長奧特曼都坦承了錯誤,表示要學習DeepSeek 將推理模型的思考過程公開, OpenAI 的閉源策略令他們站到歷史錯誤的一邊,將重新思考 OpenAI 的開源策略,並承認自身領先優勢已不如之前

奧特曼也稱讚 DeepSeek 是個非常好的模型,並稱「我們將保持比往年更少的領先優勢」。奧特曼對 OpenAI 閉源策略也反思並透露 OpenAI 正在討論發布一些模型權重等。「我個人認為我們在這裡站在了歷史錯誤的一邊,必須找出不同的開源策略,但並不是 OpenAI 的每個人都同意這種觀點,這也不是我們目前的首要任務。」奧特曼還說 OpenAI將效仿 DeepSeek 的做法。

專業人士怎麼說?

包括OpenAI,蘋果,微軟,亞馬遜,字母旗下的谷歌,META,輝達;這些目前全球最頂級的人工智慧商的執行長,無一例外,都大力稱讚DeepSeek所取得的成就。蘋果則在最近一次財報會議中指出,未來不排除採用類似DeepSeek的開源模型。在本文發表的期間所進行的該公司的法說電話會議上,上面所列已發佈財報的企業,我每一家都聽過了,沒有一家的執行長沒有被華爾街的分析師問到對DeepSeek的看法。

請注意:上述的每一家企業,都是DeepSeek的直接對手,特別是OpenAI,谷歌,和META。

想暸解一家企業,最富洞察力的評語是來自這家企業的直接對手。

席捲全球

包括蘋果,微軟,亞馬遜,字母旗下的谷歌,輝達,加上中國自己的各大雲計算的廠商,無一例外,紛紛在他們的平台上上架DeepSeek。

歐洲的企業更表示:DeepSeek為他們提供了高性價比,擺脫美國廠商控制的最佳機會,DeepSeek最新的AI產品R1確實是一項令人印象深刻的成就,提供了一種比美國公司如OpenAI所開發的模型更便宜、更高效的替代方案。

施密特收回自己半年前的看法

谷歌前執行長艾瑞克·施密特2024年2月28日發表的《華盛頓郵報》專欄文章中表示,DeepSeek 的崛起標誌著全球人工智慧競賽的「轉折點」,證明中國可以用更少的資源與大型科技公司競爭,體現了中國在人工智慧領域不斷增強的實力。

就在2024年,施密特還斷言美國在人工智慧發展方面領先中國兩到三年。然而,DeepSeek 的出現及其高性價比、高效的 AI 模型對他這一觀念提出了挑戰。

施密特對 DeepSeek 影響力的認可,凸顯了人工智慧產業的動態和快速發展特性,新參與者可以打破既定規範並推動創新。施密特這些最新的發言,也等於間接收回自己在半年對中國AI的發展,以及證明自己對開源程式碼前景不看好的看法。

:施密特是橫跨矽谷、美國政府、和風投界的最具代表性的重量級人物,他的發言代表了美國科技產業政策的走向,矽谷科技界的看法,以及創投業的風向。

關於施密特對在人工智慧發展、風險投資、美國科技產業政策,以及全球各主要國家的科技實力的觀點,請參見我的另一篇貼文的詳細分析:《艾瑞克·施密特被下架的史丹佛大學演講值得投資人仔細閱讀,內容究竟談了些什麼?

給美國的當頭棒喝

中國就是有辦法做到

達利歐近日在受訪時談到中國 AI 時表示:「中國在晶片領域上或許落後,卻在應用上實現領先」。我個人很同意他的看法,因為由許多的例子都已經證明這是不需辯駁的事實,只是由達利歐的口中說出來罷了。

從DeepSeek、躋身通訊設備巨頭的華為、電動車製造商比亞迪、和電子商務巨頭阿里巴巴, 再次點燃了中國人的民族的自豪感。 而這些公司的共通點是,都擅於採用現有技術( 通常是由美國和其他西方國家開發的) , 迅速擴大規模, 用於大規模生產或消費。

美國根本阻擋不了

彭博社記者凱薩琳‧索貝克(CatherineThorbecke) 表示:「DeepSeek 的突破太大,美國無法禁止」:DeepSeek與其他那些被美國封殺的中國科技產品有一個最大的不同,DeepSeek的開發團隊選擇了將其大模型開源, 甚至還發布了論文,相當細緻和透明地分享了他們是如何搭建這一大模型的───這表示即便美國可以封鎖了DeepSeek的手機和網頁「華盛頓已經幾乎不可能再去消除DeepSeek的影響了。」

她的意思是美國想禁都禁不了!

美國與矽谷的盲點

DeepSeek最大的貢獻是揭開了美國對中國的科技禁運和人工智慧的領先的遮羞布!過去幾年,所有的人都被投資界與矽谷的以下話術洗腦成功:

  • 要做出突破性的人工智慧大模型,數大就是美。
  • 只有如蘋果,微軟,亞馬遜,字母旗下的谷歌,輝達等超大型科技企業才具有此等的資源,資格和能力。
  • 為了維持美國在人工智慧上的領先優勢,必需進行超大額的資本支出。
  • 為了抑制中國在人工智慧上的發展,必需對中國實施晶片禁運。
  • 為了避免被對手竊取商業機密,必需採用閉源的程式碼,採用開源程式碼是傻子。

DeepSeek的成就,證明上述的所有論點都站不住脚。

結語

華爾街頂級風投A16Z的創辦人、被稱為風投教父的馬克.安德森(Marc Andreessen)於2025年1月27日在社交平台上發文稱,「DeepSeek是AI的斯普特尼克時刻」。 所謂的「斯普特尼克時刻」, 指的是1957年蘇聯成功發射第一顆人造衛星斯普特尼克1號。

這個比喻充分說明了DeepSeek在生成式人工智慧時代帶來的後續震憾與衝擊將會是無法想象的。

DeepSeek
credit:DeepSeek

相關文章

重要聲明

  • 本站內容為作者個人意見,僅供參考,本人不對文章內容、資料之正確性、看法、與即時性負任何責任,讀者請務必自行判斷。
  • 對於讀者直接或間接依賴並參考本站資訊後,採取任何投資行為所導致之直接或間接損失,或因此產生之一切責任,本人均不負任何損害賠償及其他法律上之責任。
error: Content is protected !!