GitHub - Ascend/MindSpeed-RL

MindSpeed-RL是基于昇腾生态的强化学习加速框架，旨在为华为昇腾芯片生态合作伙伴提供端到端的RL训推解决方案，支持超大昇腾集群训推共卡/分离部署、多模型异步流水调度、训推异构切分通信等核心加速能力

NEWS !!! 📣📣📣

🚀🚀🚀DeepSeek-R1 系列功能逐步上线！！🚀🚀🚀

DeepSeek-R1-ZERO Qwen-7B 😊
DeepSeek-R1-ZERO Qwen-32B 😊

安装教程

本版本为预览非正式发布版本，依赖配套如下表，安装步骤参考安装指导

依赖软件	版本
昇腾NPU驱动	25.0.RC1
昇腾NPU固件	25.0.RC1
Toolkit（开发套件）	8.1.RC1
Kernel（算子包）
NNAL（Ascend Transformer Boost加速库）
Python	3.10
torch	2.5.1
torch_npu	2.5.1
apex	0.1
ray	2.42.1
vllm	0.7.3

使用教程

训练算法

训练算法	训练指南	支持模型	发布状态
指令微调	Doc	Qwen2.5-7B Qwen2.5-32B	Preview
结果奖励	Doc	Qwen2.5-7B Qwen2.5-32B	Preview
GRPO	Doc	Qwen2.5-7B	Preview

注："Preview"发布状态表示预览非正式发布版本，"Released"发布状态表示正式发布版本

注：使用Ray拉起任务的算法，如GRPO，环境变量需要在runtime_env.yaml处配置

核心特性

核心特性	特性指南	适用算法	适用模型	发布状态
训推共卡	Doc	GRPO	Qwen2.5-7B Qwen2.5-32B	Preview

注："Preview"发布状态表示预览非正式发布版本，"Released"发布状态表示正式发布版本

效率工具

工具特性	特性指南	适用算法	适用模型	发布状态
训练监控	Doc	GRPO	Qwen2.5-7B Qwen2.5-32B	Preview

注："Preview"发布状态表示预览非正式发布版本，"Released"发布状态表示正式发布版本

版本维护策略

MindSpeed-RL版本有以下五个维护阶段：

状态	时间	说明
计划	1—3 个月	计划特性
开发	3 个月	开发特性
维护	6-12 个月	合入所有已解决的问题并发布版本，针对不同的MindSpeed-RL版本采取不同的维护策略，常规版本和长期支持版本维护周期分别为6个月和12个月
无维护	0—3 个月	合入所有已解决的问题，无专职维护人员，无版本发布
生命周期终止（EOL）	N/A	分支不再接受任何修改

MindSpeed-RL已发布版本维护策略：

MindSpeed-RL版本	对应标签	维护策略	当前状态	发布时间	后续状态	EOL日期
0.0.1	\	预览版本	待发布	2025/3/30	\	2024/9/30

致谢

MindSpeed-RL由华为公司的下列部门以及昇腾生态合作伙伴联合贡献：

华为公司：

计算产品线
2012实验室
公共开发部
全球技术服务部
华为云计算

感谢来自社区的每一个PR，共同打造业界领先的RL训推系统

免责声明

致MindSpeed-RL使用者

MindSpeed-RL提供的模型仅供您用于非商业目的。
对于各模型，MindSpeed-RL平台仅提示性地向您建议可用于训练的数据集，华为不提供任何数据集，如您使用这些数据集进行训练，请您特别注意应遵守对应数据集的License，如您因使用数据集而产生侵权纠纷，华为不承担任何责任。
如您在使用MindSpeed-RL模型过程中，发现任何问题（包括但不限于功能问题、合规问题），请在Gitee提交issue，我们将及时审视并解决。

致数据集所有者

如果您不希望您的数据集在MindSpeed-RL中的模型被提及，或希望更新MindSpeed-RL中的模型关于您的数据集的描述，请在Gitee提交issue，我们将根据您的issue要求删除或更新您的数据集描述。衷心感谢您对MindSpeed-RL的理解和贡献。

Name		Name	Last commit message	Last commit date
Latest commit History 106 Commits
ci		ci
cli		cli
configs		configs
docs		docs
examples		examples
mindspeed_rl		mindspeed_rl
sources/images		sources/images
tests		tests
.gitignore		.gitignore
LICENSE		LICENSE
OWNERS		OWNERS
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

NEWS !!! 📣📣📣

安装教程

使用教程

训练算法

核心特性

效率工具

版本维护策略

致谢

免责声明

致MindSpeed-RL使用者

致数据集所有者

About

Releases

Packages

Contributors 7

Languages

License

Ascend/MindSpeed-RL

Folders and files

Latest commit

History

Repository files navigation

NEWS !!! 📣📣📣

安装教程

使用教程

训练算法

核心特性

效率工具

版本维护策略

致谢

免责声明

致MindSpeed-RL使用者

致数据集所有者

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 7

Languages

Packages