文件算子¶
智能任务流提供以下基于 Git 和 HDFS 的文件算子,用于获取文件或目录:
Git Directory 算子
Git File 算子
HDFS Directory 算子
HDFS File 算子
HDFS Uploader 算子
Git Directory 算子¶
Git Directory 算子用于从 Git 目录获取该目录下的全部文件,常用作 Shell、Python、Notebook 等算子的前置算子,用于提供所需的代码文件。例如:
输入参数说明¶
名称  | 
必需/可选  | 
类型  | 
描述  | 
|---|---|---|---|
data_source_name  | 
必需  | 
String  | 
数据源名称,来自数据源连接配置。  | 
project  | 
必需  | 
String  | 
Git 项目名称。  | 
branch  | 
必需  | 
String  | 
Git 分支名称。  | 
paths  | 
必需  | 
List  | 
文件路径列表,列表元素可以是文件,也可以是路径,list格式。例如:  | 
输出参数说明¶
名称  | 
类型  | 
描述  | 
|---|---|---|
workspace  | 
Directory  | 
文件所在的目录(minio),directory类型,将   | 
paths  | 
List  | 
文件路径列表,可用于后续算子遍历列表文件,依次处理,list格式。  | 
Git File 算子¶
Git File 算子用于从 Git 仓库上获取指定的单个文件,用于其它算子的输入。
输入参数说明¶
名称  | 
必需/可选  | 
类型  | 
描述  | 
|---|---|---|---|
data_source_name  | 
必需  | 
String  | 
数据源名称,来自数据源连接配置。  | 
project  | 
必需  | 
String  | 
Git 项目名称。  | 
branch  | 
必需  | 
String  | 
Git 分支名称。  | 
file_path  | 
必需  | 
String  | 
文件所在的路径。  | 
输出参数说明¶
名称  | 
类型  | 
描述  | 
|---|---|---|
file  | 
File  | 
输出从 Git 拉取下来的单个文件。  | 
HDFS Directory 算子¶
HDFS Directory 算子用于从 HDFS 上获取指定目录的一个或多个文件。
输入参数说明¶
名称  | 
必需/可选  | 
类型  | 
描述  | 
|---|---|---|---|
data_source_name  | 
必需  | 
String  | 
数据源名称,来自数据源连接配置。  | 
file_paths  | 
必需  | 
List  | 
HDFS文件路径列表。  | 
输出参数说明¶
名称  | 
类型  | 
描述  | 
|---|---|---|
workspace  | 
Directory  | 
文件所在的目录。  | 
paths  | 
List  | 
文件路径列表,可用于后续算子遍历列表文件,依次处理,list格式。  | 
HDFS File 算子¶
HDFS File 算子用于从 HDFS 上获取指定的单个文件。
输入参数说明¶
名称  | 
必需/可选  | 
类型  | 
描述  | 
|---|---|---|---|
data_source_name  | 
必需  | 
String  | 
数据源名称,来自数据源连接配置。  | 
file_path  | 
必需  | 
String  | 
HDFS文件路径。  | 
输出参数说明¶
名称  | 
类型  | 
描述  | 
|---|---|---|
file  | 
File  | 
输出从 HDFS 上获取的单个文件。  | 
HDFS Uploader 算子¶
HDFS Uploader 算子用于将某个指定的文件上传到 HDFS 指定路径,该算子没有输出参数。
输入参数说明¶
名称  | 
必需/可选  | 
类型  | 
描述  | 
|---|---|---|---|
data_source_name  | 
必需  | 
String  | 
数据源名称,来自数据源连接配置。  | 
file  | 
可选  | 
file  | 
需要上传的文件,从 Git 或 HDFS 其它文件算子传入。  | 
filename  | 
可选  | 
file  | 
指定上传后的新文件名。  | 
directory  | 
可选  | 
Directory  | 
文件当前所在路径。  | 
dest  | 
可选  | 
String  | 
文件上传的目标路径。  | 
overwrite  | 
可选  | 
Boolean  | 
  |