DanceGRPO:首个统一视觉生成的强化学习框架PG电子
栏目:PG娱乐 发布时间:2025-05-19
  PG电子(Pocket Games Soft )全球首屈一指的电子游戏供货商[永久网址:363050.com],首位跨足线下线上电子游戏开发。PG电子,pg娱乐,PG电子试玩平台,PG电子技巧,PG电子下载,欢迎注册体验!   本文由字节跳动 Seed 和香港大学联合完成。第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在

  PG电子(Pocket Games Soft )全球首屈一指的电子游戏供货商[永久网址:363050.com],首位跨足线下线上电子游戏开发。PG电子,pg娱乐,PG电子试玩平台,PG电子技巧,PG电子下载,欢迎注册体验!

DanceGRPO:首个统一视觉生成的强化学习框架PG电子

  本文由字节跳动 Seed 和香港大学联合完成。第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。项目通讯作者为黄伟林博士和罗平教授。

  R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。

  现在,我们推出名为DanceGRPO的创新框架,这是首个旨在统一视觉生成强化学习的解决方案,实现了单一强化学习算法在两大生成范式(diffusion/rectified flow)、三项任务(文本到图像、文本到视频、图像到视频)、四种基础模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)以及五类奖励模型(图像 / 视频美学、图文对齐、视频动态质量、二元奖励)中的全面覆盖。

  在生成式 AI 快速发展的这三年,RLHF 逐渐的走进了大家的视野,首先是 GPT-3.5/o1 等一系列工作让大家明白了 RLHF 在 LLM 中的意义,LLM 领域的 RLHF 方案百花齐放,发展的相对成熟一些,今年更催生了 R1 这一类的大爆款工作。同时,大家也发现,对于视觉生成任务,RLHF 对美感等指标几乎有着决定性影响,但相较 LLM 的成熟度,生成领域的 RLHF 方案显然没那么成熟,目前的主流方案大概分为两类:

  1. Diffusion/Flow-DPO:这一类方法是也是直接来自于 LLM 的 DPO 的影响,在实际操作中,大体分为两种方案,第一种是离线 DPO,即让模型去生成一批数据,然后人工标注,然后让好和坏的数据组成 pairs 送回模型去优化,第二种是在线 DPO,即在线生成数据,然后让 reward model 实时打分,然后拿回去训练,这两种思路大同小异。在实际操作中,我们发现 DPO 对模型的效果比较微弱,比如 DPO 前后的生成结果区别并不是很大,原因也很好理解,DPO 并没有拿 reward 作为信号去 reinforce 模型的学习,而是用一种类似 SFT 的方案去做,这种情况下对模型的作用并不是很大。

  2. ReFL:这一类方案是 diffusion/rectified flow 所专有的,思路非常简单直接,就是直接在 z_t 步下直接预测 z_0 的结果,然后 vae 去 decode 直接送进 reward model 去直接反向传播进行优化。这一类方案在图像上效果很明显,但是因为要对 reward model 和 decode 后的 features 进行反向传播,在面对 100 帧以上的视频生成的时候显存压力很大。而且,目前 LLM 和 diffusion 联合训练已成为大势所驱,ReFL 这种通过建模 z_t 和 z_0 的关系,并且直接反向传播的方式,似乎和这一类模型的建模策略有着很大的 gap。

  于是,利用强化学习对模型进行优化的思路也就呼之欲出了,之前社区也对强化学习优化生成模型有过一些探索,例如 DDPO 和 DPOK,但是他们都有很强的局限性:

  接下来,我们就开始实现啦,核心的思路还是 follow 了 DeepSeek 的 GRPO 策略,即,用一个 prompt,生成一批数据,然后用 GRPO 的目标函数进行优化,但我们并没有加入 KL 散度的正则项,因为发现这一项实际上作用不大,以下是我们实验过程中的一些核心发现:

  2. 我们可以采样一个子集的 timesteps 来加速训练,同时让模型见过更多的 prompts

  6. 训练尽量不要打开 cfg,如果非要打开的话,一批 prompt 只能更新一次梯度

  (5) 我们提出了一种新的 reward model,即把美感 & 图文匹配 reward model 的结果给二值化,意思是大于某个阈值就是 1,小于这个阈值就是 0

  ps:i2v 任务有一些区别,我们拿视觉美感 reward model 训练的时候很容易发散,个人认为是因为 i2v 的美感更多取决于首帧,这个任务本身只有 motion quality 可言,所以我们只选择了使用 motion quality reward 去进行训练。

  这是一个随着 FLUX 训练迭代次数的增加,可视化的变化,我们在训练过程中引入随机性,但是可视化是不会引入的,就是正常的 ODE solver。

  05月09日,中方:菲方引入中导系统是对地区安全极不负责任的选择,葡京体育投注登录,新宝下载app下载,亚新体育好玩吗?,狗万app官网

  05月09日,2023年11月香港商品进出口货量均同比上升,抢庄牛牛破解版可靠吗,a7娱乐注册,银河娱乐网app,鸿博平台登录网址

  05月09日,广东下雪了!粤北清远市已启动防冻IV级应急响应,宝博体育官网登录,2020篮球王者,mg幸运双星免费旋转,环宇足球

  05月09日2024数字科技生态大会在广州开幕手机版美高梅线上娱乐电竞游戏比分网凯发娱乐手机网页版登录二八杠在线日电视“套娃”收费和操作复杂如何投诉?官方公布投诉渠道皇冠官网真人登陆刀锋电竞官方jdb电子游戏作解码星际网站推荐

  05月09日以坚持党中央集中统一领导为根本保证(人民观点)注册送注册金平台bet体育在线直播澳门威斯尼斯人官网0024利记官网平台入口……

  05月09日,【透视】美媒:美国干涉主义外交政策持续祸害世界,当休矣!,澳门至尊赌场平台,hth华体会官方下载,金沙平台网站,yabo22vip备用网址

  05月09日汉江流域高香茶原产地交易市场开市 助力“茶叶”变 “茶业”im电竞登录乐鱼国际app银河总站手机网站线上正规买球平台

  05月09日,书写新时代的金融答卷——省部级主要领导干部推动金融高质量发展专题研讨班侧记,pg电子现在还能试玩吗,365bet足球,新mg官网,英皇体育

  05月09日,【讲习所·众行致远】金砖国家和全球南方将因习主席的建议主张而受益,开心游戏网,葡京注册大全,bb贝博平台,威尼斯首页手机官网

  05月09日,华商40余载逐梦挪威 用“三把钥匙”开启房地产人生,365亚洲官方,beat365登录,正规皇冠体育下载,新天线日韩执政党党首吁停止尹锡悦履职 韩媒:或暗示支持弹劾足球365比分网站188宝金博在线登陆亚洲体育平台线年公益播放老电影 唤起民众儿时回忆线上正规买球千亿体育新域名大游新濠天地投注登录

  05月09日江西人大代表傅信平:做深做实为大局服务、为人民司法尊龙人生就是博i太阳城登录半岛.综合体育火狐赌场网站

  星穹铁道前瞻直播定档,日本电商网站上线页面国务院安委会成立河南大学大礼堂火灾事故查处督办组拼十抢庄玩法赌博注册送钱网址线国际网站登录

  韦世豪 确实是我们踢得太臭了,51岁朱迅近照曝光1-9月中国国有企业营业总收入同比增长1.2%九游会线路检测万博官网登录入口这里m6米乐2022世界杯真人斗地主输赢钱

  以闪亮之名机甲套装引争议,关雪车牌号是杨幂生日沉睡3000多年,小古城遗址还有哪些未解之谜?葡萄牙体育官网首页环亚登录入口澳门星际登路leyu乐鱼电竞娱乐

  王者荣耀冷知识,致我的解离国台办:希望黄仁勋好好补补课万博手机首页必威网页金沙最新地址ManBetX199