Updata quick_start.md

2024-07-31 16:23:51 +08:00 · 2024-07-31 16:23:51 +08:00 · ff4f028c21
parent 8b0ce0d73d
commit ff4f028c21
1 changed files with 32 additions and 1 deletions
--- a/quick_start_clean/readmes/quick_start.md
+++ b/quick_start_clean/readmes/quick_start.md
@ -458,6 +458,13 @@ llm = LLM(model="../models/2b_sft_model/", tokenizer_mode="auto", trust_remote_c
 llm = LLM(model="../models/8b_sft_model/", tokenizer_mode="cpm", trust_remote_code=True)
 ```
 如果想使用多轮对话,需要指定对应的聊天模版,修改prompts,每次将上一轮的问题和答案拼接到本轮输入即可：
 ``` python
 prompts = [
        "<用户>问题1<AI>答案1<用户>问题2<AI>答案2<用户>问题3<AI>"
        ]
 ```
 ### 部署OpenAI API服务推理
 vLLM可以为 LLM 服务进行部署，这里提供了一个示例：
 1. 启动服务：
@ -494,7 +501,7 @@ INFO:     Application startup complete.
 INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)
 ```
-2. 调用API：
+2. 调用推理API：
 启动服务端成功后，重新打开一个终端，可参考执行以下python脚本：
 ``` python
@ -512,6 +519,30 @@ completion = client.completions.create(model="../models/9G/",
 print("Completion result:", completion)
 ```
 3. 调用多轮对话API：
 启动服务端成功后，重新打开一个终端，可参考执行以下python脚本：
 ``` python
 # chat_client.py
 from openai import OpenAI
 client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="CPMAPI",
 )
 #每次将上一轮的问题和答案拼接到本轮输入即可
 completion = client.chat.completions.create(
  model="../models/9G/",
  messages=[
    {"role": "user", "content": "问题1"},
    {"role": "system", "content": "答案1"},
    {"role": "user", "content": "问题2"},
    {"role": "system", "content": "答案2"},
    {"role": "user", "content": "问题3"},
  ]
 )
 print(completion.choices[0].message)
 ```
 ## 常见问题
 1. Conda安装pytorch时卡在solving environment：网络问题。
  解决方法：