From 77e7bfee7967319da6b5cc72e88d9f6cafe065b2 Mon Sep 17 00:00:00 2001 From: hoshi-hiyouga Date: Fri, 26 Jul 2024 11:30:57 +0800 Subject: [PATCH] Update README_zh.md --- README_zh.md | 5 ++++- 1 file changed, 4 insertions(+), 1 deletion(-) diff --git a/README_zh.md b/README_zh.md index 17f424b2..578d2960 100644 --- a/README_zh.md +++ b/README_zh.md @@ -47,7 +47,7 @@ https://github.com/user-attachments/assets/e6ce34b0-52d5-4f3e-a830-592106c4c272 ## 项目特色 - **多种模型**:LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Yi、Gemma、Baichuan、ChatGLM、Phi 等等。 -- **集成方法**:(增量)预训练、(多模态)指令监督微调、奖励模型训练、PPO(有关TRL PPO的详细信息,请参阅[此博客](https://newfacade.github.io/notes-on-reinforcement-learning/17-ppo-trl.html))、DPO 训练、KTO 训练、ORPO 训练等等。 +- **集成方法**:(增量)预训练、(多模态)指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练等等。 - **多种精度**:16 比特全参数微调、冻结微调、LoRA 微调和基于 AQLM/AWQ/GPTQ/LLM.int8/HQQ/EETQ 的 2/3/4/5/6/8 比特 QLoRA 微调。 - **先进算法**:GaLore、BAdam、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ、PiSSA 和 Agent 微调。 - **实用技巧**:FlashAttention-2、Unsloth、RoPE scaling、NEFTune 和 rsLoRA。 @@ -200,6 +200,9 @@ https://github.com/user-attachments/assets/e6ce34b0-52d5-4f3e-a830-592106c4c272 | ORPO 训练 | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | | SimPO 训练 | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | +> [!TIP] +> 有关 PPO 的实现细节,请参考[此博客](https://newfacade.github.io/notes-on-reinforcement-learning/17-ppo-trl.html)。 + ## 数据集
预训练数据集