部署上线模型的第一个版本


模型版本上架完成后,可将模型版本部署到对应的容器中运行。


通过以下步骤,将模型的第一个版本部署上线,进入生产:

  1. 在模型列表中,点击模型名称,打开 版本管理 页面。

  2. 云端部署 标签下,点击 新建部署实例

  3. 输入以下信息:

    • 实例名称:输入部署实例名称
    • 资源池:选择已创建的资源池
    • 标签:输入部署实例标签
    • 描述:输入对部署实例的描述信息
  4. 点击 确认,完成部署实例创建。新创建的部署实例将显示在 部署实例 列表中。

  5. 点击部署实例名称,进入模型部署页面。模型部署页面主要由编辑画布、部署配置栏和部署日志栏组成。编辑画布中的卡片可代表模型、模型版本、流量路由器等。点击选中卡片后,部署配置栏中显示对应的配置项。点击选中模型版本卡片后,部署日志栏中显示模型版本的部署日志。

    ../_images/publish_version.png
  6. 在编辑画布中,点击 进入配置,在画布中点击请添加部署版本,选择目标版本,点击 确定

  7. 添加的模型版本将显示为编辑画布中的 Version 卡片。选中 Version 卡片,然后在右侧的 部署配置 窗口中,配置运行模型版本的资源:

    • 请求资源 一栏中,输入运行模型版本需要的 CPU 和内存
    • 资源限制 一栏中,输入运行模型版本的 CPU 和内存上限
    • 如果底层资源支持 GPU,可选择开启 GPU
  8. 如需根据模型服务的繁忙率指标,自动对运行模型服务所需资源进行扩容或缩容,可开启 是否开启自动扩容,并完成以下配置:

    • Pod 设置 一栏中,输入 Pod 副本的最小值和最大值
    • 扩容度量 一栏中,选择启动弹性扩缩容的触发指标(CPU 或内存)以及目标平均利用率
  9. 点击页面右上角的 部署 按钮,系统将按设置的资源配置部署模型版本。展开部署日志,可查看模型版本的部署进度。

  10. 模型版本部署成功后,在模型部署页面左侧的编辑画布栏中,选中 Predictor 卡片,即可在右侧的 调用服务 窗口中查看模型服务的调用方式和调用地址。

  11. 在线测试 部分中,选择 调用服务测试 类型,并在 输入参数 输入框中输入测试参数,然后点击 发起测试,即可测试验证模型服务。

  12. 在线测试 部分中,选择 Feedback测试 类型,并在 输入参数 输入框中输入测试参数,然后点击 发起测试,即可测试验证模型 Feedback。

  13. 点击 进入配置 并在画布选中 Predictor 卡片,可在 请求超时 输入框中,对访问模型服务 API 设置 timeout 时限,最小可设置 1000ms 的时长,最大可设置 600000ms 的时长。

  14. 返回 模型版本管理 页面,可在 版本管理 标签下查看模型版本的状态已变更为 生产中