《經濟通通訊社27日專訊》A股人工智能(AI)大模型DeepSeek概念今日異軍
突起,浙江東方(滬:600120)、華金資本(深:000532)、每日互動
(深:300766)、航錦科技(深:000818)、南威軟件(滬:603636)等漲
停,飛利信(深:300287)漲10%;浪潮信息(深:000977)、中科曙光
(滬:603019)約升5%。
脫胎於內地私募巨頭幻方量化(High-Flyer)的開源模型初創公司
DeepSeek上周一(20日)發布推理大模型「R1」,並同步開源模型權重,以促進技
術社區的交流與創新協作。R1在後訓練階段大規模使用強化學習技術,能在僅有極少標註數據
的情況下,極大提升模型推理能力。
DeepSeek-R1迅速在24日登上Chatbot Arena綜合榜單第三位,
與頂尖推理模型、OpenAI推出的o1並列。同時,測評機構Artificial-
Analysis對DeepSeek-R1的初始基準測試結果也顯示,DeepSeek-
R1在AI分析質量指數中取得第二高分,價格則是o1的約30分之1。
不到一個月前,DeepSeek才剛在去年12月26日發布DeepSeek-V3大
模型,性能比肩GPT-4o,投入研發費用僅為558萬美元,訓練成本不到GPT-4o的
二十分一,且只用了2048張H100的GPU集群,用時僅53天。在同等水平下,即使是
全球AI第一梯隊的頭部公司,至少也要用到1﹒6萬張以上的GPU進行訓練。
*DeepSeek登蘋果中國區、美國區免費App下載第一位*
接連發布兩款強大而成本低廉的大模型,使得DeepSeek迅速引發海內外市場熱烈討
論。DeepSeek應用在1月27日登頂蘋果中國地區和美國地區應用商店免費App下載
排行榜,在美區下載榜上超越了ChatGPT。有評論認為,R1的快速發布表明中國在AI
領域的追趕速度加快,也令市場對中美AI競爭格局重新評估,尤其是在計算資源和模型效率方
面。
此前AMD宣布,已將新的DeepSeek-V3模型集成到Instinct
MI300X GPU上,該模型旨在與SGLang一起實現最佳性能。此外,Meta生成
AI小組和基礎設施團隊的經理和工程師已開設了4個作戰室來學習DeepSeek的工作原
理,包括在試圖了解High-Flyer如何降低訓練和運行DeepSeek的成本、
High-Flyer可能使用哪些數據來訓練其模型,以及正在考慮基於DeepSeek模
型屬性重構Meta模型的新技術。
*創辦人梁文鋒上周參加總理座談會並發言*
天眼查顯示,DeepSeek的開發者杭州深度求索人工智能基礎技術研究有限公司成立
於2023年7月,由寧波程恩企業管理諮詢合夥企業(有限合夥)和幻方量化聯合創辦人梁文
鋒共同持股。
「80後」梁文鋒本科、研究生均就讀於浙江大學,擁有信息與電子工程學系本科和碩士學
位。2008年起,梁文鋒就開始帶領團隊使用機器學習等技術探索全自動量化交易。2015
年,幻方量化正式成立,2019年,其資金管理規模突破百億元。2016年10月21日,
幻方量化推出第一個AI模型,第一份由深度學習生成的交易倉位上線執行,使用GPU進行計
算。2017年,幻方量化宣稱實現投資策略全面AI化。2018年,幻方量化確立以AI為
公司的主要發展方向。2023年7月,幻方量化宣布成立大模型公司DeepSeek,正式
進軍通用人工智能領域。
官媒《新華社》此前報道,國務院總理李強上周一(20日)主持召開專家、企業家和教科
文衛體等領域代表座談會,聽取對《政府工作報告(徵求意見稿)》的意見建議,梁文鋒是座上
賓之一,並且有發言,但報道未提及梁文鋒的發言內容。(sl)
【立即投票】今個農曆新年你會如何度過? ► 立即投票