MindSpeed-RL是基于昇腾生态的强化学习加速框架,旨在为华为 昇腾芯片 生态合作伙伴提供端到端的RL训推解决方案,支持超大昇腾集群训推共卡/分离部署、多模型异步流水调度、训推异构切分通信等核心加速能力
🚀🚀🚀DeepSeek-R1 系列功能逐步上线!!🚀🚀🚀
本版本为预览非正式发布版本, 依赖配套如下表,安装步骤参考安装指导
依赖软件 | 版本 |
---|---|
昇腾NPU驱动 | 25.0.RC1 |
昇腾NPU固件 | |
Toolkit(开发套件) | 8.1.RC1 |
Kernel(算子包) | |
NNAL(Ascend Transformer Boost加速库) | |
Python | 3.10 |
torch | 2.5.1 |
torch_npu | |
apex | 0.1 |
ray | 2.42.1 |
vllm | 0.7.3 |
训练算法 | 训练指南 | 支持模型 | 发布状态 |
---|---|---|---|
指令微调 | Doc |
Qwen2.5-7B Qwen2.5-32B |
Preview |
结果奖励 | Doc |
Qwen2.5-7B Qwen2.5-32B |
Preview |
GRPO | Doc | Qwen2.5-7B | Preview |
注:使用Ray拉起任务的算法,如GRPO,环境变量需要在runtime_env.yaml处配置
核心特性 | 特性指南 | 适用算法 | 适用模型 | 发布状态 |
---|---|---|---|---|
训推共卡 | Doc | GRPO |
Qwen2.5-7B Qwen2.5-32B |
Preview |
工具特性 | 特性指南 | 适用算法 | 适用模型 | 发布状态 |
---|---|---|---|---|
训练监控 | Doc | GRPO |
Qwen2.5-7B Qwen2.5-32B |
Preview |
MindSpeed-RL版本有以下五个维护阶段:
状态 | 时间 | 说明 |
---|---|---|
计划 | 1—3 个月 | 计划特性 |
开发 | 3 个月 | 开发特性 |
维护 | 6-12 个月 | 合入所有已解决的问题并发布版本,针对不同的MindSpeed-RL版本采取不同的维护策略,常规版本和长期支持版本维护周期分别为6个月和12个月 |
无维护 | 0—3 个月 | 合入所有已解决的问题,无专职维护人员,无版本发布 |
生命周期终止(EOL) | N/A | 分支不再接受任何修改 |
MindSpeed-RL已发布版本维护策略:
MindSpeed-RL版本 | 对应标签 | 维护策略 | 当前状态 | 发布时间 | 后续状态 | EOL日期 |
---|---|---|---|---|---|---|
0.0.1 | \ | 预览版本 | 待发布 | 2025/3/30 | \ | 2024/9/30 |
MindSpeed-RL由华为公司的下列部门以及昇腾生态合作伙伴联合贡献 :
华为公司:
- 计算产品线
- 2012实验室
- 公共开发部
- 全球技术服务部
- 华为云计算
感谢来自社区的每一个PR,共同打造业界领先的RL训推系统
- MindSpeed-RL提供的模型仅供您用于非商业目的。
- 对于各模型,MindSpeed-RL平台仅提示性地向您建议可用于训练的数据集,华为不提供任何数据集,如您使用这些数据集进行训练,请您特别注意应遵守对应数据集的License,如您因使用数据集而产生侵权纠纷,华为不承担任何责任。
- 如您在使用MindSpeed-RL模型过程中,发现任何问题(包括但不限于功能问题、合规问题),请在Gitee提交issue,我们将及时审视并解决。
如果您不希望您的数据集在MindSpeed-RL中的模型被提及,或希望更新MindSpeed-RL中的模型关于您的数据集的描述,请在Gitee提交issue,我们将根据您的issue要求删除或更新您的数据集描述。衷心感谢您对MindSpeed-RL的理解和贡献。