感谢 DeepSeek:Predibase 发布全球首个端到端强化微调平台并开源,支持无服务器和端到端训练方法

发布时间:2025-03-24 08:55:25 来源:互联网

本站 3 月 20 日消息,昨日晚间,大模型训练、开发平台 Predibase 发布了一个完全托管、无服务器、端到端的强化微调平台,也是首个端到端强化微调(RFT)平台。

Predibase 表示,DeepSeek-R1 的开源在全球 AI 领域产生了巨大影响,让很多人意识到强化学习微调对训练大模型的重要性。受此启发,他们开发了这个端到端无服务器强化微调平台。

与传统的监督式微调相比,RFT 不依赖大量的标注数据,而是通过奖励和自定义函数来完成持续地强化学习,同时支持无服务器和端到端训练方法,从数据管理、训练模型到应用部署可以在同一个平台完成。用户只需要一个浏览器,设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。

为了展示 RFT 的强大,Predibase 基于阿里 Qwen2.5-Coder-32B-instruct 微调了一个专门用于将 PyTorch 代码翻译为 Triton 的模型 Predibase-T2T-32B-RFT,并根据其他更大的基础模型(包括 DeepSeek-R1、Claude 3.7 Sonnet 和 OpenAI o1)对内核正确性进行了基准测试。

与传统的监督式微调方法不同,Predibase-T2T-32B-RFT 利用 RFT 以交互方式调整模型行为,以最少的标记数据优化下游任务质量。这使其成为专有 LLM 的高性价比、高性能替代方案。

通过 RFT,Predibase 在训练过程结合了冷启动监督式微调、强化学习和课程学习,并且只使用了十几个标记数据点。

在 Kernelbench 数据集上进行的基准测试显示,Qwen2.5-Coder-32B-instruct 经过强化后,其正确率比 DeepSeek-R1 和 OpenAI 的 o1 高出 3 倍,比 Claude 3.7 Sonnet 高出 4 倍以上,而模型占用的空间却小了一个数量级。

本站附开源地址:https://huggingface.co/predibase/Predibase-T2T-32B-RFT

在线体验地址:https://predibase.com/reinforcement-fine-tuning-playground

本周热门教程

1
精品蜜桃秘一区二区三区:为什么这种高品质蜜桃会成为市场宠儿?

精品蜜桃秘一区二区三区:为什么这种高品质蜜桃会成为市场宠儿?

2025/03/18

2
日本黄冈站和日本黄冈站有什么区别?为什么它们在日本铁路网络中如此重要?

日本黄冈站和日本黄冈站有什么区别?为什么它们在日本铁路网络中如此重要?

2025/03/17

3
如何通过黄金网站9.1免费入口轻松获取丰富的资源和服务:安全保障与快速访问全揭秘

如何通过黄金网站9.1免费入口轻松获取丰富的资源和服务:安全保障与快速访问全揭秘

2025/03/18

4
HWDHDHDXⅩXXX69背后代表的技术与网络安全的未来发展:为什么这种符号如此重要?

HWDHDHDXⅩXXX69背后代表的技术与网络安全的未来发展:为什么这种符号如此重要?

2025/03/23

5
如何在陌陌影视平台在线观看高清完整版电影和电视剧:详细指南与问题解决方法

如何在陌陌影视平台在线观看高清完整版电影和电视剧:详细指南与问题解决方法

2025/03/18

6
草莓视频旧址为何依然吸引着用户?旧址与新平台的对比分析:你还在寻找那个熟悉的地址吗?

草莓视频旧址为何依然吸引着用户?旧址与新平台的对比分析:你还在寻找那个熟悉的地址吗?

2025/03/17

7
如何处理三个男躁一个女的复杂关系?从心理分析看情感互动的艺术

如何处理三个男躁一个女的复杂关系?从心理分析看情感互动的艺术

2025/03/17

8
郑州附近有200元随叫随到的学生靠谱吗?你需要了解这些信息

郑州附近有200元随叫随到的学生靠谱吗?你需要了解这些信息

2025/03/17

9
丁淑芬的陪读性经历:一段深入探索教育、亲情与个人成长的故事

丁淑芬的陪读性经历:一段深入探索教育、亲情与个人成长的故事

2025/03/18

10
《韩国大尺度《偷欢2》为何引发热议?深度解析电影内容与社会影响

《韩国大尺度《偷欢2》为何引发热议?深度解析电影内容与社会影响

2025/03/19