Skip to content

Ascend/MindSpeed-RL

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

MindSpeed-RL是基于昇腾生态的强化学习加速框架,旨在为华为 昇腾芯片 生态合作伙伴提供端到端的RL训推解决方案,支持超大昇腾集群训推共卡/分离部署、多模型异步流水调度、训推异构切分通信等核心加速能力

NEWS !!! 📣📣📣

🚀🚀🚀DeepSeek-R1 系列功能逐步上线!!🚀🚀🚀


安装教程

本版本为预览非正式发布版本, 依赖配套如下表,安装步骤参考安装指导

依赖软件 版本
昇腾NPU驱动 25.0.RC1
昇腾NPU固件
Toolkit(开发套件) 8.1.RC1
Kernel(算子包)
NNAL(Ascend Transformer Boost加速库)
Python 3.10
torch 2.5.1
torch_npu
apex 0.1
ray 2.42.1
vllm 0.7.3

使用教程

训练算法

训练算法 训练指南 支持模型 发布状态
指令微调 Doc Qwen2.5-7B
Qwen2.5-32B
Preview
结果奖励 Doc Qwen2.5-7B
Qwen2.5-32B
Preview
GRPO Doc Qwen2.5-7B Preview
注:"Preview"发布状态表示预览非正式发布版本,"Released"发布状态表示正式发布版本

注:使用Ray拉起任务的算法,如GRPO,环境变量需要在runtime_env.yaml处配置

核心特性

核心特性 特性指南 适用算法 适用模型 发布状态
训推共卡 Doc GRPO Qwen2.5-7B
Qwen2.5-32B
Preview
注:"Preview"发布状态表示预览非正式发布版本,"Released"发布状态表示正式发布版本

效率工具

工具特性 特性指南 适用算法 适用模型 发布状态
训练监控 Doc GRPO Qwen2.5-7B
Qwen2.5-32B
Preview
注:"Preview"发布状态表示预览非正式发布版本,"Released"发布状态表示正式发布版本

版本维护策略

MindSpeed-RL版本有以下五个维护阶段:

状态 时间 说明
计划 1—3 个月 计划特性
开发 3 个月 开发特性
维护 6-12 个月 合入所有已解决的问题并发布版本,针对不同的MindSpeed-RL版本采取不同的维护策略,常规版本和长期支持版本维护周期分别为6个月和12个月
无维护 0—3 个月 合入所有已解决的问题,无专职维护人员,无版本发布
生命周期终止(EOL) N/A 分支不再接受任何修改

MindSpeed-RL已发布版本维护策略:

MindSpeed-RL版本 对应标签 维护策略 当前状态 发布时间 后续状态 EOL日期
0.0.1 \ 预览版本 待发布 2025/3/30 \ 2024/9/30

致谢

MindSpeed-RL由华为公司的下列部门以及昇腾生态合作伙伴联合贡献 :

华为公司:

  • 计算产品线
  • 2012实验室
  • 公共开发部
  • 全球技术服务部
  • 华为云计算

感谢来自社区的每一个PR,共同打造业界领先的RL训推系统

免责声明

致MindSpeed-RL使用者

  1. MindSpeed-RL提供的模型仅供您用于非商业目的。
  2. 对于各模型,MindSpeed-RL平台仅提示性地向您建议可用于训练的数据集,华为不提供任何数据集,如您使用这些数据集进行训练,请您特别注意应遵守对应数据集的License,如您因使用数据集而产生侵权纠纷,华为不承担任何责任。
  3. 如您在使用MindSpeed-RL模型过程中,发现任何问题(包括但不限于功能问题、合规问题),请在Gitee提交issue,我们将及时审视并解决。

致数据集所有者

如果您不希望您的数据集在MindSpeed-RL中的模型被提及,或希望更新MindSpeed-RL中的模型关于您的数据集的描述,请在Gitee提交issue,我们将根据您的issue要求删除或更新您的数据集描述。衷心感谢您对MindSpeed-RL的理解和贡献。

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published