每经记者 宋欣悦 每经剪辑 兰素英 世博体育
2月6日,据外媒报说念,李飞飞等斯坦福大学和华盛顿大学的商议东说念主员以不到50好意思元的用度,使用了16张英伟达H100 GPU,耗时26分钟就完成了查验,告捷“打造”出了一个名为s1-32B的东说念主工智能推理模子。
凭证李飞飞等东说念主的商论说文《s1: Simple test-time scaling》,该模子在数学和编码才调测试中的发达,与OpenAI的o1和DeepSeek的R1等顶端推理模子不相高下,在竞赛数知识题上的发达更是比o1-preview进步27%。
凭借低本钱、高效力,s1模子成为继“AI界价钱屠户”DeepSeek之后再次激发科技界热议的话题。
但s1推理模子的本钱真实唯有50好意思元吗?其性能是否真有刻画的那么出色?在“白菜价”的背后,李飞飞团队又有哪些探索?
针对本钱问题,复旦大学有计划机学院副教师、博士生郑骁庆在秉承《逐日经济新闻》记者采访时指出,“像DeepSeek大致肖似的公司,在寻找灵验的整合处理决策时,需要进行无数的前期商议与消融实验。”这意味着前期是需要无数“烧钱”的。

据报说念,李飞飞等斯坦福大学和华盛顿大学的商议东说念主员以不到50好意思元的用度,使用了16张英伟达H100 GPU,耗时26分钟就完成了模子s1-32B的查验。
参与该项蓄意斯坦福大学商议员尼克拉斯·穆宁霍夫(Niklas Muennighoff)更是暗意,如今,只须约20好意思元就能租到所需的有计划资源。
然则,对于查验本钱,有几点需要明确。
领先,模子s1-32B的打造并非是从零运行,而是基于现成的、预查验的模子(阿里通义千问Qwen2.5-32B-Instruct)进行监督微调。而微调一个模子和从零运行查验一个模子的本钱是无法视团结律的。
其次,50好意思元是否包含了其他数据、树立、消融实验等用度,还要打一个问号。正如DeepSeek-V3不到600万好意思元的查验本钱,试验上也只包括了查验时的GPU算力用度。
郑骁庆向每经记者暗意,“像DeepSeek大致肖似的公司,在寻找灵验的整合处理决策时,需要进行无数的前期商议与消融实验。”
而消融实验就意味着,前期是需要无数“烧钱”的。
AI数据公司Databricks商议员奥马尔·哈塔布(Omar Khattab)评价称,(李飞飞团队的)论文似乎是对于Qwen模子的某种发现。

谷歌DeepMind资深商议员Wenhu Chen相同暗意,“真确神奇的是Qwen模子。咱们尝试过把基座模子换成其他模子,用相同的数据去查验,但最终并不行达到这样好的逝世。”
也即是说,s1-32B是站在了“巨东说念主肩膀”上,且50好意思元的本钱也并莫得涵盖Qwen模子的查验用度。
李飞飞团队发表的论文提到,凭证Qwen2.5-32B-Instruct进行微调的s1-32B模子,在数学和编码才调测试中的发达,与OpenAI的o1和DeepSeek的R1等顶端推理模子不相高下,在竞赛数知识题上的发达更是比o1-preview进步27%。

此外,商议逝世显现,s1-32B是样本效率最高的通达数据推理模子,发达昭彰优于其基座模子(Qwen2.5-32B-Instruct)以及OpenAI的推理模子o1-preview。
事实上,s1-32B只可在特定的测试集上阑珊o1-preview,且并莫得阑珊“满血版”o1和DeepSeek-R1。

商议逝世显现,在AIME 2024和MATH 500两个测试靠拢,s1-32B阑珊了o1-preview,但无论在哪个测试集,s1-32B王人莫得阑珊“满血版”o1郑再版DeepSeek-R1。
测试时拓展:多动脑多稽查
事实上,李飞飞团队论文的中枢也并不在于若何“卷”模子价钱,而是商议若何以最浅近的花样完了“测试时拓展”(test-time scaling)。
测试时膨胀是一种在模子推理阶段通过多步推理来提高模子性能的期间。具体来说,商议团队通过预算强制,逝世模子不错“念念考”多万古辰或进行若干步操作。淌若模子过早收尾推理,系统会饱读吹模子延迟念念考时辰,确保其充分探求问题。这也就意味着,模子在推理时会进行屡次推理迭代,并渐渐优化推理逝世,最终身成高质料的谜底。
举例,当被问到“raspberry”中有几个“r”时,模子领先进行了初步推理,并得出了虚伪的初步逝世:有2个r。但推理经由并莫得就此收尾,模子又重新进行推理,优化了前次回应的逝世,输出了最终的谜底:3个r。

OpenAI的o1系列模子即是一个典型的例子,展现了测试时拓展在模子性能擢升上的后劲。
微软CEO萨提亚·纳德拉(Satya Nadella)曾暗意,咱们正在见证一种新的范围规定(Scaling Law)的出现——模子效率与测试时辰或推理时辰有计划关系。
高质料数据集s1K:数据真金不怕火金术
此外,李飞飞商议团队还从16个开端网罗了59029说念高质料题目,包括数学竞赛问题、博士级别的科知识题、奥林匹克竞赛问题等,并通过三个圭臬进行考据:难度、各样性和质料。
通过过滤,商议团队最终取得了包含1000个样本的s1K数据集,数据集粉饰几何、数论、量子力学等50个鸿沟,而且每个问题王人配有从Google Gemini 2.0 Flash Thinking Experimental手脚“教师模子”蒸馏而来的的谜底和推理轨迹。
这个数据集的构建基于三个要道圭臬:难度、各样性和质料。
高质料的数据集,极大裁汰了s1-32B模子的查验本钱。
复旦大学有计划机学院副教师、博士生郑骁庆在秉承每经记者时暗意,大范围的数据可能不会成为下一步各人争夺的战场,其本钱和产出之间的比例在迟缓压缩,而高质料数据的微统一强化学习将来将会有更多的参预。

职守剪辑:王若云 世博体育