TTT-Discover – 斯坦福、英伟达推出的测试时强化学习方法
TTT-Discover是什么
TTT-Discover(Test-Time Training to Discover)是斯坦福、英伟达等机构推出的AI科学发现方法。TTT-Discover在测试阶段对模型进行强化学习训练,非冻结权重仅做搜索。通过熵目标函数优化最大奖励,结合PUCT启发的状态重用机制,让模型从具体问题的尝试中实时学习。TTT-Discover基于开源模型gpt-oss-120b,在数学、GPU内核工程、算法竞赛和生物信息学等领域达到SOTA,单问题成本仅数百美元。

TTT-Discover的主要功能
- 测试时持续学习:在解决具体问题时动态更新模型权重,使AI从失败尝试中实时积累经验,实现定向进化。
- 科学发现优化:针对数学、工程、算法、生物等领域的开放问题,寻找超越现有知识的最优解。
- 高效搜索策略:通过熵目标函数聚焦高奖励动作,结合PUCT机制智能重用历史状态,平衡探索与利用。
- 低成本高性能:使用开源模型即可在多项任务中达到SOTA,单问题训练成本仅需几百美元。
TTT-Discover的技术原理
熵目标函数:优化目标为 Jβ(θ)=E[logE[eβR]] 。当β→∞ 时,目标收敛于最大化最大奖励而非平均奖励,确保模型专注寻找单一极优解。采用自适应β(s) 控制KL散度,维持训练稳定性。
PUCT启发状态重用:维护历史解缓冲区,用评分函数Q(s)+c⋅P(s)⋅1+n(s)1+T 选择初始状态。其中Q(s) 取子节点最大奖励(非平均值),P(s) 为基于奖励排名的先验,兼顾高潜力状态利用与多样性探索。
TTT-Discover的项目地址
arXiv技术论文:https://arxiv.org/pdf/2601.16175
TTT-Discover的应用场景
数学研究:优化Erdős最小重叠问题、自相关不等式等开放数学问题的边界值,发现新的构造性证明。
GPU内核工程:帮助自动生成高性能计算内核,如AlphaFold的TriMul算子、DeepSeek的MLA解码,速度超越人类专家。
算法竞赛:TTT-Discover能解决AtCoder等编程竞赛中的NP-hard优化问题,如几何计算、生产规划等复杂任务。
生物信息学:TTT-Discover能改进单细胞RNA测序去噪算法,提升基因表达数据分析精度。
-
SenseNova-MARS – 商汤科技开源的多模态自主推理模型
SenseNova-MARS是什么SenseNova-MARS是商汤科技开源的多模态自主推理模型,提供8B和32B两种参数规模。作为首个支持动态视觉推理与图文搜索深度融合的Agentic VLM,模型
-
UnifoLM-VLA-0 – 宇树开源的通用机器人操作大模型
UnifoLM-VLA-0是什么UnifoLM-VLA-0 是宇树科技开源的通用视觉-语言-动作(VLA)大模型,基于 Qwen2.5-VL-7B 架构进行持续预训练。模型通过融合 2D/3D 空间感
-
Project Genie – 谷歌推出的实验性AI世界模型原型
Project Genie是什么Project Genie 是谷歌 DeepMind 推出的实验性 AI 世界模型原型,基于 Genie 3、Nano Banana Pro 和 Gemini 技术驱动
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/

![Fyuan方圆 圆圆的脑袋[打call] ](https://imgs.knowsafe.com:8087/img/aideep/2022/1/9/6924ead887cf3e9c8ffc5ffe99cea0f2.jpg?w=250)





关注网络尖刀微信公众号
