华人团队为RLHF设计新算法节省约50%内存

文章正文

发布时间：2024-09-11 12:36

2023-10-20

机器之心

智东西10月20日消息，据机器之心报道，10月17日，来自香港中文大学（深圳）、南京大学等机构的华人团队发表论文，介绍了一种名为ReMax的新算法，专为RLHF（基于人类反馈的强化学习）而设计。ReMax在计算效率和实现简易性上超越了最常用的算法PPO，约减少50%的GPU内存，实现2倍的训练速度提升，核心部分实现只需6行代码，且性能没有损失。

论文地址：

https://arxiv.org/abs/2310.10505

开源代码：

https://github.com/liziniu/ReMax