最近更新时间:2024.05.15 10:44:04
首次发布时间:2023.06.27 23:50:08
模型推理支持用户调用模型广场上的模型与精调后的模型进行推理,模型推理支持:
灵活升级接入模型的版本
支持模型推理接入点的调用监控
支持通过购买模型单元,保障更高并发度、更灵活的推理需求
您可以创建模型推理接入点来开始模型推理。
模型推理接入点创建有3个入口,点击创建按钮后,在弹出的表单中,填写相应信息,信息填写完毕后,点击【新建】,即可完成在线服务推理接入点的创建。
入口 1:登录火山方舟平台,点击左侧导航栏中的【模型推理】,点击【 创建推理接入点 】。
入口 2:【模型广场】的模型卡片详情页右上角,点击【模型推理】
入口 3:【模型仓库】的列表页右侧操作栏,点击【模型推理】
接入模型表单字段详细说明:
参数名称 | 参数说明 |
---|---|
接入点名称 | 填写接入点名称 |
接入点描述 | 描述接入模型的业务需求,如接入场景、用途(如测试、线上业务)等 |
接入模型 |
|
购买方式 | - 支持使用【按Token付费】、【按模型单元付费】2种模式 |
模型单元是调用某个特定模型的 TPM(Token per Minite)配额。创建推理接入点选择按模型单元付费后,用户可以获得比按 Token 付费更大的并发量,且无需再为 Token 消耗付费。模型单元付费方式为预付费。
线上生产业务,对资源确定性要求高,希望在流量峰值必须保障资源
业务并发高,TPM(Token per Minite)RPM(Request per Minite)超过平台默认值
业务流量稳定,希望降低成本。模型单元折算单Token价格低于按Token后付费价格
我们对Doubao系列模型与部分开源模型支持模型单元。支持范围请产品计费
目前支持在**+ 创建推理接入** 点配置算力保障时,进行购买模型单元,可以配置购买模型单元的数量、时长、是否自动续费。自动续费支持按照单次自动续费时长(按天)及自动续费次数(永久生效、自定义次数)自定义配置。
补充说明
当前模型单元仅支持申请使用,如您希望使用模型单元,可参照前端提示提交工单,系统审批后可进行购买及数量配置。
预付费 TPM 配额到期自动终止,为避免续费不及时导致业务中断,建议开通自动续费。
超过模型单元覆盖的 TPM 配额的需求将被拒绝,如您有预期外的流量尖峰,您可以通过模型单元叠加按 Token 计费的模型推理接入点2种方式来支撑。
使用模型单元创建完成的模型推理接入点,支持对模型单元进行增减购买、到期续费配置调整。7天内到期的模型单元会出现到期提醒。
模型单元计费会根据实际使用的模型单元数量、时长进行计费。因为是预付费,因此如果进行扩缩容的操作,也会对应有补款和退款。
模型单元到期提醒
模型单元到期时间说明
如您按天购买模型单元,购买资源的到期时间按照自然日计算,从购买日算起,到期时间为到期自然日+1天的中午12点:即如您在 5月13日上午9 点购买一天的模型单元,相当于您购买了到期时间为5月13日24 点的资源,实际到期时间为5月14日中午12点整。
资源到期后将被回收,您可以在资源被回收前在方舟产品控制台或订单管理页面进行续费,回收时间为到期时间+ 48小时,即如您在5月13日上午9点 购买一天的模型单元,相当于您购买了到期时间为5月13日24点 的资源,在5月15日24点 之前都可以进行续费。在回收期结束后,模型单元无法续费,您需要重新创建一个模型推理接入点来满足继续使用的需求。
强烈推荐您为资源配置自动续费,以避免由于未配置自动续费导致的业务中断。
通过【模型推理】列表页,找到需要调整的接入点,点击右侧的 ··· 可以进行调整模型单元、续费、退订。
点击续费按钮,会跳转到费用中心的续费管理页面,可以进行续费操作
想要删除买了模型单元的接入点,需要到费用中心退订管理中操作模型单元退订,退订成功后,再进行接入点的删除操作。
注意:因为模型单元是按实例组购买的,点击接入点名称详情中复制的模型单元ID是实例组 ID,实例组存在强绑定关系,因此续费、退订须同步发起。请注意,未到期的模型单元退订会产生惩罚系数,无法100%退费。
模型单元计费参考产品计费