文档中心

[模型组]Qwen-VL-Chat 大模型

最近更新时间：2024.05.13 11:27:07

首次发布时间：2024.04.10 10:20:03

Qwen-VL-Chat 是一个官方模型组，它包含 3 个独立模型和 1 个 Ensemble 模型。Ensemble 模型将 3 个独立模型封装为一个工作流。本模型组允许您向一体机私有化部署 Qwen-VL-Chat 大模型，在边缘侧获取大模型服务。

背景信息

Qwen-VL 是阿里云研发的大规模视觉语言模型（Large Vision Language Model，LVLM）。Qwen-VL 可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。Qwen-VL-Chat 是 Qwen-VL 系列的 Chat 模型。

模型组基本信息

模型列表

本模型组包含 4 个模型。其中，Ensemble 模型中封装了其他模型，定义了模型组的整体工作流。使用过程中，您只需部署 Ensemble 模型，无需关注中间的处理过程。
下表罗列了本模型组包含的所有模型。您可以在边缘智能控制台的 官方模型 列表访问这些模型。

模型名称	模型基本信息
Qwen-VL-Chat PreProcess
Qwen-VL-Chat LLM
Qwen-VL-Chat PostProcess
Qwen-VL-Chat

Ensemble 模型输入

名称	类型	形状	说明
messages	STRING	1	构成对话的消息（message）列表。`messges` 采用符合 OpenAI - Create chat completion 接口调用要求的格式。支持 `text` 和 `image_url` 类型消息。
max_tokens	INT32	1	完成对话过程中可以生成的最大令牌数量。最大值为 8192。
top_p	FP32	1	top_p 用于控制模型选词的策略，详情参见 OpenAI 文档。使用说明：较高的 top_p 值（接近 1）意味着模型会考虑更多的词汇，生成的文本可能更加多样和新颖，但有时也可能减少一致性和相关性。较低的 top_p 值（远离 1）使得生成文本更加集中于高概率的词汇，通常会提高文本的连贯性和相关性，但可能牺牲创新性和多样性。

名称

类型

形状

说明

messages

STRING

构成对话的消息（message）列表。messges 采用符合 OpenAI - Create chat completion 接口调用要求的格式。支持 text 和 image_url 类型消息。

max_tokens

INT32

完成对话过程中可以生成的最大令牌数量。最大值为 8192。

top_p

FP32

top_p 用于控制模型选词的策略，详情参见 OpenAI 文档。
使用说明：

较高的 top_p 值（接近 1）意味着模型会考虑更多的词汇，生成的文本可能更加多样和新颖，但有时也可能减少一致性和相关性。
较低的 top_p 值（远离 1）使得生成文本更加集中于高概率的词汇，通常会提高文本的连贯性和相关性，但可能牺牲创新性和多样性。

Ensemble 模型输出

名称	类型	形状	说明
text_output	STRING	1	LLM 响应的文本内容。
usage	STRING	1	完成此次请求的令牌使用统计数据。

Ensemble 模型版本

本模型提供 2 个可部署版本。

版本名称	最大批处理大小	硬件架构要求	其他说明
V1_3090_WithoutFile	取值范围：1~100。	只能部署到具有 RTX 3090 显卡的一体机上。	此版本不包含 Qwen-VL-Chat 大模型文件。您必须先在一体机上挂载 Qwen-VL-Chat 大模型文件，然后才可以部署此版本。
V2_3090_WithFile	取值范围：1~100。	只能部署到具有 RTX 3090 显卡的一体机上。	此版本包含 Qwen-VL-Chat 大模型文件。部署过程中涉及大模型文件的下载，部署用时较长。

部署模型服务

部署不同版本的方法不同。根据要部署的版本，执行相应操作。

部署 V1_3090_WithoutFile 版本

部署此版本前，您必须先在一体机的 /etc/vei_infer 目录手动挂载所需的大模型文件。

步骤1：挂载大模型文件到一体机

远程登录一体机。
访问一体机的 /etc/vei_infer 目录。
在 /etc/vei_infer 目录挂载如下大模型文件：
- build 过后的 llm engine 文件夹（对于 Qwen-VL-Chat 模型，文件夹名称为 qwen_engine）
- build 过后的 vit engine 文件夹（对于 Qwen-VL-Chat 模型，文件夹名称为 vit_engine）
- tokenizer 文件夹（对于 Qwen-VL-Chat 模型，文件夹名称为 qwen_vl_tokenizer，建议您将文件夹重命名为tokenizer，否则，您修改模型部署配置中的默认参数配置。）

步骤2：部署模型服务

参考部署模型服务进行模型服务的部署。在 部署模型服务 参数配置页面，修改以下配置：

说明

下表中未包含的配置项无需修改，统一使用默认值。

类型	配置项	说明
基本信息	一体机	选择支持 GPU 的一体机。
基本信息	服务名称	设置一个服务名称。服务名称在一台一体机上必须保持唯一。
模型信息	模型	选择 Qwen-VL-Chat。
模型信息	模型版本	选择 V1_3090_WithoutFile。
服务配置	HTTP端口	指定一个一体机上空闲的端口。
	GRPC端口	指定一个一体机上空闲的端口。
	部署实例	根据大模型文件的实际挂载路径，修改默认填充的子模型参数配置。 Qwen-VL-Chat PreProcess 子模型需要修改参数配置中的以下字段： `tokenizer_dir`：将值修改为 tokenizer 文件夹的挂载路径。 `vit_path`：将它的值修改为 vit engine 文件夹下 .plan 文件的路径。 Qwen-VL-Chat LLM 子模型需要修改参数配置中的以下字段： `gpt_model_path`：将它的值修改为 llm engine 文件夹的挂载路径。 Qwen-VL-Chat PostProcess 子模型需要修改参数配置中的以下字段： `tokenizer_dir`：将值修改为 tokenizer 文件夹的挂载路径。

部署 V2_3090_WithoutFile 版本