2 changed files with 2 additions and 6 deletions
--- a/README.md
+++ b/README.md
@ -9,7 +9,7 @@
 ## 版本更新内容
  具体的迭代信息如下：                                                                               
 - 训练：升级了训练代码，提升GPU利用率和并行化，并且2B模型能兼容transformers中的tokenizer(LlamaTokenizerFast)
- 推理：支持vllm进行模型推理和部署，可以接入langchain、openai等部署方式；同时可以支持2b模型转换成GGUF等多种部署格式的部署
+- 推理：支持vllm进行模型推理和部署，可以接入langchain、openai等部署方式；同时可以将端侧模型可以支持GGUF等多种部署格式的部署
 - 由于新架构中多数据集验证发现2B模型进行lora训练效果不及全参数微调，因此建议2B模型全参数微调，8B模型LORA微调在master分支进行                              
                                    
 ## 2024.08.19 NOTICE
--- a/quick_start_clean/readmes/quick_start.md
+++ b/quick_start_clean/readmes/quick_start.md
@ -110,13 +110,9 @@ pip install tensorboardX


 9.安装vllm（模型推理）
-我们提供基于CUDA12.2环境下python3.8、python3.10版本的vllm安装包，相关依赖均已封装，可直接安装后执行推理：
+我们提供python3.8、python3.10版本的vllm安装包，相关依赖均已封装，可直接安装后执行推理：
 [vllm-0.5.0.dev0+cu122-cp38-cp38-linux_x86_64.whl](https://qy-obs-6d58.obs.cn-north-4.myhuaweicloud.com/vllm-0.5.0.dev0%2Bcu122-cp38-cp38-linux_x86_64.whl)
 [vllm-0.5.0.dev0+cu122-cp310-cp310-linux_x86_64.whl](https://qy-obs-6d58.obs.cn-north-4.myhuaweicloud.com/vllm-0.5.0.dev0%2Bcu122-cp310-cp310-linux_x86_64.whl)
-
-针对CUDA版本不高的用户，我们提供了兼容低版本CUDA的vllm安装包，但经测试最低支持CUDA11.6，因此，如果您的服务器CUDA版本低于11.6，请先将其升级至该版本以上，以确保兼容性和正常运行：
-[vllm-0.5.0.dev0+cu116-cp38-cp38-linux_x86_64.whl](https://qy-obs-6d58.obs.cn-north-4.myhuaweicloud.com/vllm-0.5.0.dev0%2Bcu116-cp38-cp38-linux_x86_64.whl)
-
 同时，我们也提供了vllm源码,位于/quick_start_clean/tools/vllm-0.5.0.dev0.tar
 ```
 ### docker环境