创建数据集


本文介绍如何创建数据集。

通过数据源连接创建数据集


各类型的数据源支持创建的数据集类型如下:


数据源连接 支持创建的数据集类型
MySQL Tabular数据集
Hive Tabular数据集
Blob Tabular数据集(Delimited Text 或 ORC 文件格式)、File数据集
S3 Tabular数据集(Delimited Text 或 ORC 文件格式)、File数据集
HDFS Tabular数据集(Delimited Text 或 ORC 文件格式)、File数据集

从 MySQL 或 Hive 数据源连接创建数据集


通过以下步骤,从 MySQL 或 Hive 数据源连接创建数据集(以 MySQL 数据源为例):

  1. 登录 EnOS 管理控制台,从左侧导航栏中选择 智能工作室 > 数据集管理,打开数据集管理首页。
  2. 选择 新建数据集 > 从数据源连接创建,完成数据集的基本信息设置:
    • 数据集名称:输入数据集的名称
    • 数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)
    • 数据源连接:选择已通过 资源配置 > 连接配置 创建的数据源连接名称,系统将自动检测数据源连接的连通性
    • 数据集类型:选择 tabular 类型
    • 标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)
    • 描述:输入对数据集的描述
  3. 数据源配置 页面中,输入 SQL 查询语句和查询超时时间(1 ~ 600 秒)。注意:从数据源连接创建 Tabular 类型数据集时,仅支持单 SQL 语句查询,不支持多 SQL 语句。
  4. 数据预览 页面中,选择 开始数据预览,预览通过 SQL 语句查询到的数据(仅显示查询到的前50条数据)。
  5. SCHEMA 设置 页面中,根据需要设置字段别名、修改字段属性、类型、描述等信息。若需重新设置 Schema 信息,选择 重置 按钮恢复默认值。
  6. 确认详细信息 页面中,检查数据集的完整配置信息。选择 完成 创建数据集。创建的数据集将会显示在数据集列表中。

从 Blob、S3 或 HDFS 数据源连接创建数据集


通过以下步骤,从 Blob、S3 或 HDFS 数据源连接创建数据集(以 HDFS 数据源创建 File 类型数据集为例):

  1. 登录 EnOS 管理控制台,从左侧导航栏中选择 智能工作室 > 数据集管理,打开数据集管理首页。
  2. 选择 新建数据集 > 从数据源连接创建,完成数据集的基本信息设置:
    • 数据集名称:输入数据集的名称
    • 数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)
    • 数据源连接:选择已通过 资源配置 > 连接配置 创建的数据源连接名称,系统将自动检测数据源连接的连通性
    • 数据集类型:选择 file 类型
    • 标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)
    • 描述:输入对数据集的描述
  3. 数据源配置 页面中,输入待使用的文件路径。
  4. 确认详细信息 页面中,检查数据集的完整配置信息。选择 完成 创建数据集。创建的数据集将会显示在数据集列表中。

通过上传文件创建数据集


通过上传文件创建数据集的详细步骤如下:

  1. 登录 EnOS 管理控制台,从左侧导航栏中选择 智能工作室 > 数据集管理,打开数据集管理首页。
  2. 选择 新建数据集 > 从本地文件上传创建,完成数据集的基本信息设置:
    • 数据集名称:输入数据集的名称
    • 数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)
    • 数据集类型:选择 tabularfile 类型
      • tabular 类型:需对应地选择上传文件的格式(Delimited Text 或 ORC),并且需确保上传的文件能被正常解析
      • file 类型:无需选择文件类型
    • 标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)
    • 描述:输入对数据集的描述
  3. 文件上传 页面中,选择上传1个或多个文件,选择的文件清单会显示在文件列表中,包括文件名称和文件大小。
  4. 完成文件上传后,根据选择创建的数据集类型,完成文件配置和配置确认等步骤,创建数据集。详细步骤,可参考 通过数据源连接创建数据集

注解

  • 如文件上传完成后需要增加新的文件,上传新的文件会替代前一次上传的所有文件,需重新上传所有文件。
  • 单次上传的文件不能超过 1G,总配额不能超过 10G。容量过大的文件,可考虑上传至 HDFS、Blob、或 S3 后再创建数据集。

从算子输出/输入创建数据集


通过算子输出/输入创建数据集的详细步骤如下:

  1. 登录 EnOS 管理控制台,从左侧导航栏中选择 智能工作室 > 数据集管理,打开数据集管理首页。
  2. 选择 新建数据集 > 从算子输出/输入创建,完成数据集的基本信息设置:
    • 数据集名称:输入数据集的名称
    • 数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)
    • 数据集类型:选择 tabularfile 类型
      • tabular 类型:需对应地选择上传文件的格式(Delimited Text 或 ORC),并且需确保上传的文件能被正常解析
      • file 类型:无需选择文件类型
    • 标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)
    • 描述:输入对数据集的描述
  3. 文件选取 页面中输入算子输出/输入的 minio 路径。如何获取 minio 路径可参考 查看运行实例基本信息和详情
  4. 文件配置 页面中设置列分隔符、字符集、转义字符和引用字符等。
  5. SCHEMA 设置 页面中,根据需要设置字段别名、修改字段属性、类型、描述等信息。若需重新设置 Schema 信息,选择 重置 按钮恢复默认值。
  6. 确认详细信息 页面中,检查数据集的完整配置信息。选择 完成 创建数据集。创建的数据集将会显示在数据集列表中。