热门资讯

TTT-Discover – 斯坦福、英伟达推出的测试时强化学习方法

互联网来源：AI工具集 2026-02-03 10:58:11

TTT-Discover是什么

TTT-Discover（Test-Time Training to Discover）是斯坦福、英伟达等机构推出的AI科学发现方法。TTT-Discover在测试阶段对模型进行强化学习训练，非冻结权重仅做搜索。通过熵目标函数优化最大奖励，结合PUCT启发的状态重用机制，让模型从具体问题的尝试中实时学习。TTT-Discover基于开源模型gpt-oss-120b，在数学、GPU内核工程、算法竞赛和生物信息学等领域达到SOTA，单问题成本仅数百美元。

TTT-Discover的主要功能

测试时持续学习：在解决具体问题时动态更新模型权重，使AI从失败尝试中实时积累经验，实现定向进化。
科学发现优化：针对数学、工程、算法、生物等领域的开放问题，寻找超越现有知识的最优解。
高效搜索策略：通过熵目标函数聚焦高奖励动作，结合PUCT机制智能重用历史状态，平衡探索与利用。
低成本高性能：使用开源模型即可在多项任务中达到SOTA，单问题训练成本仅需几百美元。

TTT-Discover的技术原理

熵目标函数：优化目标为 Jβ(θ)=E[logE[eβR]] 。当β→∞ 时，目标收敛于最大化最大奖励而非平均奖励，确保模型专注寻找单一极优解。采用自适应β(s) 控制KL散度，维持训练稳定性。
PUCT启发状态重用：维护历史解缓冲区，用评分函数Q(s)+c⋅P(s)⋅1+n(s)1+T 选择初始状态。其中Q(s) 取子节点最大奖励（非平均值），P(s) 为基于奖励排名的先验，兼顾高潜力状态利用与多样性探索。

TTT-Discover的项目地址

arXiv技术论文：https://arxiv.org/pdf/2601.16175

TTT-Discover的应用场景

数学研究：优化Erdős最小重叠问题、自相关不等式等开放数学问题的边界值，发现新的构造性证明。
GPU内核工程：帮助自动生成高性能计算内核，如AlphaFold的TriMul算子、DeepSeek的MLA解码，速度超越人类专家。
算法竞赛：TTT-Discover能解决AtCoder等编程竞赛中的NP-hard优化问题，如几何计算、生产规划等复杂任务。
生物信息学：TTT-Discover能改进单细胞RNA测序去噪算法，提升基因表达数据分析精度。

延伸阅读

Project Genie – 谷歌推出的实验性AI世界模型原型

Project Genie是什么Project Genie 是谷歌 DeepMind 推出的实验性 AI 世界模型原型，基于 Genie 3、Nano Banana Pro 和 Gemini 技术驱动
Step 3.5 Flash – 阶跃星辰最新开源的基座模型

Step 3.5 Flash是什么Step 3.5 Flash 是阶跃星辰最新开源的基座模型，专为 Agent 场景推出。模型采用稀疏 MoE 架构，总参数 1960 亿，每 token 仅激活 11
Vidu Q3 – 生数科技推出的音画同步AI视频模型

Vidu Q3是什么Vidu Q3 是生数科技推出的全球首款 16 秒音画同步 AI 视频模型，专为短剧、漫剧、广告等叙事场景打造。一次提示即可直出 16 秒 1080p 成片，画面、对白、环境音效与

关注公众号：拾黑（shiheibook）了解更多

友情链接：

关注数据与安全，洞悉企业级服务市场：https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站：https://www.yaorank.com/

*文章为作者独立观点，不代表文娱排行榜立场

本文由 Autumn Falls发表，转载此文章须经作者同意，并请附上出处( 文娱排行榜 )及本页链接。

原文链接 https ://www.yaorank.com/news/net/35717.html

AI工具集 TTT-Discover 斯坦福英伟达