处理算子¶
ML生命周期管理提供以下处理算子:
Notebook 算子
Python 算子
Shell 算子
Notebook 算子¶
Notebook 算子常用于处理在 Notebook 中验证通过并保存下来的 ipynb 类型的任务。通常开发的模型代码文件会保存到 Git 上,可使用 Notebook算子会从 Git Directory 算子获取代码文件并执行。典型的场景是执行 Python 任务,运行 Python 代码文件,训练机器学习模型,产生的模型文件通过 MLflow 的 logmodel 方式记录并输出。
Notebook 算子常与 Git Directory 算子组合使用。例如:
输入参数说明¶
参数 |
说明 |
---|---|
workspace |
指定输入文件所在的目录,通常来自 Git Directory 算子指定的 directory。 |
entrypoint |
指定入口文件名称,文件名称需包含路径(因为不同的目录下可能存在相同名称的文件)。 |
requirements_file_path |
指定需要安装的依赖包所在的文件路径。 |
env |
指定需要传递的list类型参数。 |
输出参数说明¶
参数 |
说明 |
---|---|
mlflow_model_file_paths |
通过 MLflow 的 logmodel 方式记录并输出的模型文件。 |
Python 算子¶
Python 算子用于处理 Python 脚本任务。
输入参数说明¶
参数 |
说明 |
---|---|
workspace |
指定输入文件所在的目录,通常来自 Git Directory 算子指定的 directory。 |
entrypoint |
指定入口文件名称,文件名称需包含路径(因为不同的目录下可能存在相同名称的文件)。 |
requirements_file_path |
指定需要安装的依赖包所在的文件路径。 |
args |
(可选)指定需要传递的list类型参数,可通过 |
output_path |
(可选)指定处理后的数据写入的位置(本地路径)。 |
string_data |
(可选)指定输入参数的类型,用于适配不同的算子输入。 |
list_data |
(可选)指定输入参数的类型,用于适配不同的算子输入。 |
number_data |
(可选)指定输入参数的类型,用于适配不同的算子输入。 |
输出参数说明¶
参数 |
说明 |
---|---|
output_string |
(可选)用于适配不同的输出类型。 |
output_list |
(可选)用于适配不同的输出类型。 |
output_number |
(可选)用于适配不同的输出类型。 |
Shell 算子¶
Shell 算子用于处理 Shell 脚本任务,其输入输出参数与 Python 算子相同。