处理算子


智能任务流提供以下任务处理相关算子:

  • Notebook 算子

  • Python 算子

  • Shell 算子

  • Email 算子

  • Notebookex 算子

  • Pythonex 算子

  • Shellex 算子

  • Pipeline Trigger 算子

  • APIM 算子

  • ParallelFor Status List 算子

Notebook 算子

Notebook 算子常用于处理在 Notebook 中验证通过并保存下来的 ipynb 类型的任务。Notebook 算子常与 Git Directory 算子组合使用,通常开发的模型代码文件会保存到 Git 上,Notebook 算子会从 Git Directory 算子获取代码文件并执行。典型的场景是执行 Python 任务,运行 Python 代码文件,训练机器学习模型,产生的模型文件通过 MLflow 的 logmodel 方式记录并输出。


Notebook 算子的输入输出参数为动态参数,可按需要添加输入输出参数,或对参数进行排序。

输入参数说明

以下为常用输入参数示例:

名称

必需/可选

类型

描述

workspace

必需

Directory

指定代码所在的文件目录,通常来自 Git Directory 算子指定的 directory

entrypoint

必需

String

指定入口程序文件名称,文件名称需包含路径(因为不同的目录下可能存在相同名称的文件)。

requirements_file_path

可选

String

指定需要安装的依赖包所在的文件路径。

env

可选

List

指定需要传递的参数列表。

输出参数说明

以下为常用输出参数示例:

名称

类型

描述

mlflow_model_file_paths

List

通过 MLflow 的 logmodel 方式记录并输出的模型文件路径列表。

Python 算子

Python 算子用于处理 Python 脚本任务,与 Git Directory 算子组合使用。Python 算子的参数分为固定参数和动态参数,固定参数不能被删除,动态参数可根据使用的需要新增、修改、删除和排序。

输入参数说明

以下为 Python 算子的固定参数。

名称

必需/可选

类型

描述

workspace

必需

Directory

指定代码所在的文件目录,通常来自 Git Directory 算子。

entrypoint

必需

String

指定入口程序文件名称,文件名称需包含路径。

requirements_file_path

可选

String

指定需要安装的依赖包所在的文件路径。

输出参数说明

Python 算子没有固定的输出参数,输出参数可根据使用的需求动态增加。

Shell 算子

Shell 算子用于处理 Shell 脚本任务,与 Git Directory 算子组合使用。其输入输出参数配置与 Python 算子相同,可参考 Python 算子的说明。

Email 算子

Email 算子用于实现邮件告警功能。

输入参数说明

名称

必需/可选

类型

描述

mail_host

必需

String

邮件服务器IP地址或域名,例如 smtp.163.comsmtp.office365.com

mail_user

必需

String

邮件服务用户名。

mail_pass

可选

Password

与用户名对应的密码。

sender

必需

String

发件人。

receivers

必需

List

收件人列表,可来自组织内用户列表。

content

必需

String

发送邮件内容。

subject

必需

String

发送邮件主题。

on_condition

可选

Run_status

在指定值为 succeed,completed,或 failed 时,该算子可作为退出算子使用。当任务流为指定的状态时,触发邮件发送。

输出参数说明

名称

类型

描述

status

String

邮件发送状态。

content_out

String

邮件发送内容。

NotebookEx 算子

NotebookEx 算子常用于处理在 Notebook 中验证通过并保存下来的 ipynb 类型的任务。NotebookEx 会从内部存储中获取代码文件并执行,典型的场景是执行 Python 任务,运行 Python 代码文件,训练机器学习模型,产生的模型文件通过 MLflow 的 logmodel 方式记录并输出。关于如何上传代码文件到内部存储,可参考 上传模型代码到内部存储


NotebookEx 算子的输入输出参数为动态参数,可按需要添加输入输出参数,或对参数进行排序。

输入参数说明

以下为常用输入参数示例:

名称

必需/可选

类型

描述

workspace

必需

notebook_dir

指定代码所在的内部存储文件目录。

entrypoint

必需

notebook_file

指定内部存储入口程序文件名称,文件名称需包含路径。

requirements

可选

notebook_file

指定需要安装的依赖包。

env

可选

List

指定需要传递的参数列表,默认为空。

输出参数说明

以下为常用输出参数示例:

名称

类型

描述

mlflow_model_file_paths

List

通过 MLflow 的 logmodel 方式记录并输出的模型文件路径列表。

PythonEx 算子

PythonEx 算子用于处理已保存在平台内部存储中的 Python 脚本任务。PythonEx 算子的参数分为固定参数和动态参数,固定参数不允许删除,动态参数可根据使用的需要新增、修改和删除。

输入参数说明

下表列出了 PythonEx 算子的固定参数。

名称

必需/可选

类型

描述

workspace

必需

notebook_dir

指定代码所在的文件目录。

entrypoint

必需

notebook_file

指定入口程序文件名称,文件名称需包含路径。

requirements

可选

notebook_file

指定需要安装的依赖包。

输出参数说明

PythonEx 算子没有固定的输出参数,输出参数可根据使用的需求动态增加。

ShellEx 算子

ShellEx 算子用于处理已保存在平台内部存储中的 Shell 脚本。其输入输出参数配置与 PythonEx 算子相同,可参考 PythonEx 算子的说明。

Pipeline Trigger 算子

Pipeline Trigger 算子仅可作为退出算子使用,可用于调用其它任务流。

输入参数说明

名称

必需/可选

类型

描述

experiment

必需

pipeline_experiment

选择被调用的任务流。可选本 OU 下除了本算子所在任务流以外的所有其他任务流。

输出参数说明

名称

类型

描述

pipeline_run_id

String

被调用的任务流运行名称。

pipeline_run_info

String

被调用的任务流运行信息。

APIM 算子

APIM 算子用于从指定 API 连接中获取数据。

输入参数说明

名称

必需/可选

类型

描述

url

必需

String

输入需要调用的 API 地址。

access_key

必需

String

输入调用 API 的 AccessKey。

secret_key

必需

password

输入调用 API 的 SecretKey。填写或修改后保存,再次进入任务流设计页面查看此算子时此处会显示为空。

http_method

必需

http_method

指定请求方式。可选值为:GET、POST、PUT 和 DELETE。

body

可选

String

输入请求体。

headers

可选

String

输入请求头。

输出参数说明

名称

类型

描述

result

File

输出 API 调用结果。

ParallelFor Status List 算子

ParallelFor Status List 算子用于获取 ParallelFor 运行后每个 Item 的运行结果相关信息。

输入参数说明

名称

必需/可选

类型

描述

run_id

必需

String

输入运行实例名称,可选择本 OU 下的所有任务流。

parallelfor_path

必需

String

算子位置。

输出参数说明

名称

类型

描述

result

List

输出信息。