详情

首页手游攻略 VibeThinker-3B - 微博所开源的 30 亿参数密集推理模型

VibeThinker-3B - 微博所开源的 30 亿参数密集推理模型

佚名 2026-06-30 08:39:59

VibeThinker-3B是什么

VibeThinker-3B是新浪微博团队开源的 30 亿参数密集推理模型,基于 Qwen2.5-Coder-3B 构建,通过升级版 Spectrum-to-Signal 后训练流程,在数学、编程等可验证推理任务上达到 Gemini 3 Pro、Claude Opus 4.5 等前沿大模型同级性能,探索小模型能力边界并与传统 Scaling Law 形成互补。

VibeThinker-3B的主要功能

  • 高难度数学推理:在 AIME’26 达 94.3 分,HMMT’25 达 89.3 分,BruMO’25 达 93.8 分。
  • 竞技编程:LiveCodeBench v6 达 80.2 Pass@1,LeetCode 最新周赛/双周赛通过率高达 96.1%。
  • STEM 推理:在 IMO-AnswerBench 达 76.4 分(+CLR 提升至 80.6),支持复杂科学问题求解。
  • 指令遵循:IFBench 达 74.5 分,具备格式敏感和约束检查能力。
  • 测试时缩放(CLR):引入 Claim-Level 可靠性评估策略,可在推理阶段进一步提升答案可靠性。

VibeThinker-3B的技术原理

  • 基座模型:基于 Qwen2.5-Coder-3B 构建,30亿参数密集架构未做改动,全部性能提升来自后训练技术栈的极致优化。
  • Spectrum-to-Signal 范式:核心训练流程分为”频谱阶段”(SFT 扩展能力覆盖)与”信号阶段”(RLVR 精准优化可验证任务)。
  • 两阶段课程 SFT:第一阶段广泛覆盖数学、编程、STEM 和对话能力,第二阶段聚焦高难度长推理样本,逐步递进提升深度。
  • 多样性探索蒸馏:不追求单一最优解,而是保留多个有效推理路径,增强模型在复杂问题上的泛化能力。
  • MGPO 强化学习:在 GRPO 基础上增加额外权重,优先选择对当前策略”既不太易也不太难”的样本进行优化。
  • 多领域顺序 RL:严格按 Math → Code → STEM 的顺序依次进行强化学习,实验发现此顺序对整体效果最优。

微信关注回复“开源”,加入AI开源项目交流群

如何使用VibeThinker-3B

  • 下载模型:访问 HuggingFace 或 GitHub 仓库获取模型权重。
  • 本地部署:基于 transformers 等框架加载 3B 参数模型,支持消费级硬件运行。
  • 调用推理:输入数学、编程或 STEM 类问题,模型将输出带完整推理链(CoT)的答案。
  • 启用 CLR(可选):对数学类任务可开启 Claim-Level 可靠性评估,进一步提升准确率。

VibeThinker-3B的核心优势

  • 极小参数,前沿性能:仅 3B 参数即可对标千亿级前沿模型在可验证推理任务上的表现。
  • 课程式两阶段 SFT:从广泛能力覆盖到高难度长推理样本,逐步提升推理深度。
  • 多领域 RL 强化:按 Math → Code → STEM 顺序依次进行强化学习,保留完整 64K 长上下文推理轨迹。
  • 离线自蒸馏:筛选高质量轨迹进行统一蒸馏,优先学习学生模型尚未掌握的正确路径。

VibeThinker-3B的项目地址

  • GitHub仓库:https://github.com/WeiboAI/VibeThinker
  • HuggingFace模型库:https://huggingface.co/WeiboAI/VibeThinker-3B
  • arXiv技术论文:https://arxiv.org/pdf/2606.16140

VibeThinker-3B的同类竞品对比

维度VibeThinker-3BClaude Opus 4.5开发方新浪微博 AI 团队Anthropic参数规模3B(密集模型)未公开(推测数百B~千亿级)开源程度完全开源(论文+代码+权重)闭源(仅 API/产品)部署方式本地消费级 GPU 可运行仅云端 API定位可验证推理专用引擎通用智能助手

VibeThinker-3B的应用场景

  • 算法竞赛备赛:辅助解答 AIME、HMMT、IMO 等数学竞赛题目,提供多路径推理参考。
  • 编程面试训练:刷 LeetCode、LiveCodeBench 等编程题,获取带详细解释的正确解法。
  • STEM 教育辅导:为物理、化学、生物等理科问题提供逐步推导的解题过程。
  • 边缘端推理部署:因模型仅 3B 参数,适合手机、IoT 设备等低算力环境本地运行。
  • 推理能力研究:作为小模型推理上限的探索基准,供学术界研究 Scaling Law 的替代路径。
点击查看更多
推荐专题
热门阅读