On-Policy Distillation 调研资料

本仓库收集了关于 On-Policy Distillation 的学术论文、代码实现和技术资料。

📚 论文

ICLR 2024: On-Policy Distillation of Language Models

作者: Rishabh Agarwal et al. (Google Brain)
会议: ICLR 2024
方法: Generalized Knowledge Distillation (GKD)
论文: On-Policy_Distillation_ICLR2024.pdf
arXiv: https://arxiv.org/abs/2306.13649
引用: 203+

Thinking Machines Lab 博客

标题: On-Policy Distillation
作者: Kevin Lu et al.
日期: 2025-10-27
链接: https://thinkingmachines.ai/blog/on-policy-distillation/

💻 代码实现

1. Hugging Face TRL

位于 trl/ 目录，包含以下实现：

GKDTrainer: Generalized Knowledge Distillation
- 配置: trl/trainer/gkd_config.py
- 训练器: trl/trainer/gkd_trainer.py
- 示例: examples/scripts/gkd.py
- 文档: docs/source/gkd_trainer.md
GOLD Trainer: General On-Policy Logit Distillation
- 实现: trl/experimental/gold/
- 文档: docs/source/gold_trainer.md
MiniLLM Trainer: TML On-Policy Distillation 的泛化版本
- 实现: trl/experimental/minillm/
- 文档: docs/source/minillm_trainer.md

仓库: https://github.com/huggingface/trl Stars: 16.6k

2. Thinking Machines Lab - Tinker Cookbook

位于 tinker-cookbook/ 目录，官方实现和示例。

仓库: https://github.com/thinking-machines-lab/tinker-cookbook Stars: 2.3k

🎯 核心概念

On-Policy Distillation 结合了强化学习（RL）和监督微调（SFT）的优势：

方法	采样方式	奖励信号
SFT (监督微调)	Off-policy	密集
RL (强化学习)	On-policy	稀疏
On-Policy Distillation	On-policy	密集

关键优势

训练效率提升: 相比 SFT 需要 200万 prompts，OPD 只需 77K
持续学习: 缓解灾难性遗忘问题
Token 级反馈: 在每个 token 上提供密集的监督信号

📖 文档

技术原理说明: 深入解析 On-Policy Distillation 的核心技术原理
代码使用指南: 详细的代码使用教程和示例

🔗 相关资源

📝 引用

@inproceedings{agarwal2024onpolicy,
  title={On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes},
  author={Agarwal, Rishabh and others},
  booktitle={International Conference on Learning Representations},
  year={2024}
}

📄 许可证

TRL: Apache-2.0 License
Tinker Cookbook: Apache-2.0 License

🤝 贡献

欢迎提交 Issue 和 Pull Request 来改进本仓库！

⭐ Star History

如果这个仓库对您有帮助，欢迎给个 Star！

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
tinker-cookbook		tinker-cookbook
trl		trl
On-Policy_Distillation_ICLR2024.pdf		On-Policy_Distillation_ICLR2024.pdf
README.md		README.md
代码使用指南.md		代码使用指南.md
技术原理说明.md		技术原理说明.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

On-Policy Distillation 调研资料

📚 论文

ICLR 2024: On-Policy Distillation of Language Models

Thinking Machines Lab 博客

💻 代码实现

1. Hugging Face TRL

2. Thinking Machines Lab - Tinker Cookbook

🎯 核心概念

关键优势

📖 文档

🔗 相关资源

📝 引用

📄 许可证

🤝 贡献

⭐ Star History

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

On-Policy Distillation 调研资料

📚 论文

ICLR 2024: On-Policy Distillation of Language Models

Thinking Machines Lab 博客

💻 代码实现

1. Hugging Face TRL

2. Thinking Machines Lab - Tinker Cookbook

🎯 核心概念

关键优势

📖 文档

🔗 相关资源

📝 引用

📄 许可证

🤝 贡献

⭐ Star History

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages