文件算子


智能任务流提供以下基于 Git 和 HDFS 的文件算子,用于获取文件或目录:

  • Git Directory 算子

  • Git File 算子

  • HDFS Directory 算子

  • HDFS File 算子

  • HDFS Uploader 算子

Git Directory 算子

Git Directory 算子用于从 Git 目录获取该目录下的全部文件,常用作 Shell、Python、Notebook 等算子的前置算子,用于提供所需的代码文件。例如:

../_images/git_dir_calculator.png

输入参数说明

名称

必需/可选

类型

描述

data_source_name

必需

String

数据源名称,来自数据源连接配置。

project

必需

String

Git 项目名称。

branch

必需

String

Git 分支名称。

paths

必需

List

文件路径列表,列表元素可以是文件,也可以是路径,list格式。例如:["modelhosting_prj/model6/test1.py"]

输出参数说明

名称

类型

描述

workspace

Directory

文件所在的目录(minio),directory类型,将 paths 里的目录和文件通过 workspace 的形式输出。

paths

List

文件路径列表,可用于后续算子遍历列表文件,依次处理,list格式。

Git File 算子

Git File 算子用于从 Git 仓库上获取指定的单个文件,用于其它算子的输入。

输入参数说明

名称

必需/可选

类型

描述

data_source_name

必需

String

数据源名称,来自数据源连接配置。

project

必需

String

Git 项目名称。

branch

必需

String

Git 分支名称。

file_path

必需

String

文件所在的路径。

输出参数说明

名称

类型

描述

file

File

输出从 Git 拉取下来的单个文件。

HDFS Directory 算子

HDFS Directory 算子用于从 HDFS 上获取指定目录的一个或多个文件。

输入参数说明

名称

必需/可选

类型

描述

data_source_name

必需

String

数据源名称,来自数据源连接配置。

file_paths

必需

List

HDFS文件路径列表。

输出参数说明

名称

类型

描述

workspace

Directory

文件所在的目录。

paths

List

文件路径列表,可用于后续算子遍历列表文件,依次处理,list格式。

HDFS File 算子

HDFS File 算子用于从 HDFS 上获取指定的单个文件。

输入参数说明

名称

必需/可选

类型

描述

data_source_name

必需

String

数据源名称,来自数据源连接配置。

file_path

必需

String

HDFS文件路径。

输出参数说明

名称

类型

描述

file

File

输出从 HDFS 上获取的单个文件。

HDFS Uploader 算子

HDFS Uploader 算子用于将某个指定的文件上传到 HDFS 指定路径,该算子没有输出参数。

输入参数说明

名称

必需/可选

类型

描述

data_source_name

必需

String

数据源名称,来自数据源连接配置。

file

可选

file

需要上传的文件,从 Git 或 HDFS 其它文件算子传入。

filename

可选

file

指定上传后的新文件名。

directory

可选

Directory

文件当前所在路径。

dest

可选

String

文件上传的目标路径。

overwrite

可选

Boolean

是否覆盖目标文件夹中的同名文件。
  • true 表示覆盖

  • false 表示不覆盖