部署上线模型的第一个版本¶
模型版本上架完成后,可将模型版本部署到对应的容器中运行。
通过以下步骤,将模型的第一个版本部署上线,进入生产:
在模型列表中,点击模型名称,打开 模型版本管理 页面。
在模型版本列表中,找到待部署上线的版本,点击 操作 列中的 上线,打开模型部署页面。
查看模型部署页面的布局,其主要由编辑画布、部署配置栏、和部署日志栏组成。编辑画布中的卡片可代表模型、模型版本、流量路由器等。点击选中卡片后,部署配置栏中显示对应的配置项。点击选中模型版本卡片后,部署日志栏中显示模型版本的部署日志。
在模型部署页面左侧的编辑画布栏中,点击 Version 卡片,然后在右侧的 部署配置 窗口中,配置运行模型版本的资源:
从 Object Resources 下拉菜单中,选择部署模型版本的对象资源
在 Resource Request 一栏中,输入运行模型版本需要的 CPU 和内存
在 Resource Limit 一栏中,输入运行模型版本的 CPU 和内存上限
如需根据模型服务的繁忙率指标,自动对运行模型服务所需资源进行扩容或缩容,可开启 Enable Auto Scale,并完成以下配置:
在 Pod Replicas 一栏中,输入 Pod 副本的最小值和最大值
在 Scaling Metrics 一栏中,选择启动弹性扩缩容的触发指标(CPU 或内存)
在 Target Average Utilization 输入框中,输入目标平均利用率
点击 模型部署 画布栏中的 部署,系统将按设置的资源配置,部署模型版本。展开部署日志,可查看模型版本的部署进度。
模型版本部署成功后,在模型部署页面左侧的编辑画布栏中,点击 Predictor 卡片,即可在右侧的 调用服务 窗口中查看模型服务的调用方式和调用地址。
在 在线测试 窗口中,选择 调用服务测试 类型,并在 输入参数 输入框中输入测试参数,然后点击 发起测试,即可测试验证模型服务。
在 在线测试 窗口中,选择 Feedback测试 类型,并在 输入参数 输入框中输入测试参数,然后点击 发起测试,即可测试验证模型Feedback。
返回 模型版本管理 页面,即可查看模型版本的状态已变更为
生产中
。