处理算子


智能任务流提供以下任务处理相关算子:

  • Notebook 算子
  • Python 算子
  • Shell 算子
  • Email 算子
  • Notebookex 算子
  • Pythonex 算子
  • Shellex 算子
  • Pipeline Trigger 算子
  • APIM 算子
  • ParallelFor Status List 算子

Notebook 算子

Notebook 算子常用于处理在 Notebook 中验证通过并保存下来的 ipynb 类型的任务。Notebook 算子常与 Git Directory 算子组合使用,通常开发的模型代码文件会保存到 Git 上,Notebook 算子会从 Git Directory 算子获取代码文件并执行。典型的场景是执行 Python 任务,运行 Python 代码文件,训练机器学习模型,产生的模型文件通过 MLflow 的 logmodel 方式记录并输出。


Notebook 算子的输入输出参数为动态参数,可按需要添加输入输出参数,或对参数进行排序。

输入参数说明

以下为常用输入参数示例:

名称 必需/可选 类型 描述
workspace 必需 Directory 指定代码所在的文件目录,通常来自 Git Directory 算子指定的 directory
entrypoint 必需 String 指定入口程序文件名称,文件名称需包含路径(因为不同的目录下可能存在相同名称的文件)。
requirements_file_path 可选 String 指定需要安装的依赖包所在的文件路径。
env 可选 List 指定需要传递的参数列表。

输出参数说明

以下为常用输出参数示例:

名称 类型 描述
mlflow_model_file_paths List 通过 MLflow 的 logmodel 方式记录并输出的模型文件路径列表。

Python 算子

Python 算子用于处理 Python 脚本任务,与 Git Directory 算子组合使用。Python 算子的参数分为固定参数和动态参数,固定参数不能被删除,动态参数可根据使用的需要新增、修改、删除和排序。

输入参数说明

以下为 Python 算子的固定参数。

名称 必需/可选 类型 描述
workspace 必需 Directory 指定代码所在的文件目录,通常来自 Git Directory 算子。
entrypoint 必需 String 指定入口程序文件名称,文件名称需包含路径。
requirements_file_path 可选 String 指定需要安装的依赖包所在的文件路径。

输出参数说明

Python 算子没有固定的输出参数,输出参数可根据使用的需求动态增加。

Shell 算子

Shell 算子用于处理 Shell 脚本任务,与 Git Directory 算子组合使用。其输入输出参数配置与 Python 算子相同,可参考 Python 算子的说明。

Email 算子

Email 算子用于实现邮件告警功能。

输入参数说明

名称 必需/可选 类型 描述
mail_host 必需 String 邮件服务器IP地址或域名,例如 smtp.163.comsmtp.office365.com
mail_user 必需 String 邮件服务用户名。
mail_pass 可选 Password 与用户名对应的密码。
sender 必需 String 发件人。
receivers 必需 List 收件人列表,可来自组织内用户列表。
content 必需 String 发送邮件内容。
subject 必需 String 发送邮件主题。
on_condition 可选 Run_status 在指定值为 succeed,completed,或 failed 时,该算子可作为退出算子使用。当任务流为指定的状态时,触发邮件发送。

输出参数说明

名称 类型 描述
status String 邮件发送状态。
content_out String 邮件发送内容。

NotebookEx 算子

NotebookEx 算子常用于处理在 Notebook 中验证通过并保存下来的 ipynb 类型的任务。NotebookEx 会从内部存储中获取代码文件并执行,典型的场景是执行 Python 任务,运行 Python 代码文件,训练机器学习模型,产生的模型文件通过 MLflow 的 logmodel 方式记录并输出。关于如何上传代码文件到内部存储,可参考 上传模型代码到内部存储


NotebookEx 算子的输入输出参数为动态参数,可按需要添加输入输出参数,或对参数进行排序。

输入参数说明

以下为常用输入参数示例:

名称 必需/可选 类型 描述
workspace 必需 notebook_dir 指定代码所在的内部存储文件目录。
entrypoint 必需 notebook_file 指定内部存储入口程序文件名称,文件名称需包含路径。
requirements 可选 notebook_file 指定需要安装的依赖包。
env 可选 List 指定需要传递的参数列表,默认为空。

输出参数说明

以下为常用输出参数示例:

名称 类型 描述
mlflow_model_file_paths List 通过 MLflow 的 logmodel 方式记录并输出的模型文件路径列表。

PythonEx 算子

PythonEx 算子用于处理已保存在平台内部存储中的 Python 脚本任务。PythonEx 算子的参数分为固定参数和动态参数,固定参数不允许删除,动态参数可根据使用的需要新增、修改和删除。

输入参数说明

下表列出了 PythonEx 算子的固定参数。

名称 必需/可选 类型 描述
workspace 必需 notebook_dir 指定代码所在的文件目录。
entrypoint 必需 notebook_file 指定入口程序文件名称,文件名称需包含路径。
requirements 可选 notebook_file 指定需要安装的依赖包。

输出参数说明

PythonEx 算子没有固定的输出参数,输出参数可根据使用的需求动态增加。

ShellEx 算子

ShellEx 算子用于处理已保存在平台内部存储中的 Shell 脚本。其输入输出参数配置与 PythonEx 算子相同,可参考 PythonEx 算子的说明。

Pipeline Trigger 算子

Pipeline Trigger 算子仅可作为退出算子使用,可用于调用其它任务流。

输入参数说明

名称 必需/可选 类型 描述
experiment 必需 pipeline_experiment 选择被调用的任务流。可选本 OU 下除了本算子所在任务流以外的所有其他任务流。

输出参数说明

名称 类型 描述
pipeline_run_id String 被调用的任务流运行名称。
pipeline_run_info String 被调用的任务流运行信息。

APIM 算子

APIM 算子用于从指定 API 连接中获取数据。

输入参数说明

名称 必需/可选 类型 描述
url 必需 String 输入需要调用的 API 地址。
access_key 必需 String 输入调用 API 的 AccessKey。
secret_key 必需 password 输入调用 API 的 SecretKey。填写或修改后保存,再次进入任务流设计页面查看此算子时此处会显示为空。
http_method 必需 http_method 指定请求方式。可选值为:GET、POST、PUT 和 DELETE。
body 可选 String 输入请求体。
headers 可选 String 输入请求头。

输出参数说明

名称 类型 描述
result File 输出 API 调用结果。

ParallelFor Status List 算子

ParallelFor Status List 算子用于获取 ParallelFor 运行后每个 Item 的运行结果相关信息。

输入参数说明

名称 必需/可选 类型 描述
run_id 必需 String 输入运行实例名称,可选择本 OU 下的所有任务流。
parallelfor_path 必需 String 算子位置。

输出参数说明

名称 类型 描述
result List 输出信息。