创建数据集


本文介绍如何创建数据集。

通过数据源连接创建数据集

各类型的数据源支持创建的数据集类型如下:


数据源连接

支持创建的数据集类型

MySQL

Tabular数据集

Hive

Tabular数据集

Blob

Tabular数据集(Delimited Text 或 ORC 文件格式)、File数据集

S3

Tabular数据集(Delimited Text 或 ORC 文件格式)、File数据集

HDFS

Tabular数据集(Delimited Text 或 ORC 文件格式)、File数据集

从 MySQL 或 Hive 数据源连接创建数据集

通过以下步骤,从 MySQL 或 Hive 数据源连接创建数据集(以 MySQL 数据源为例):

  1. 登录 EnOS 管理控制台,从左侧导航栏中选择 企业分析平台 > 机器智能中心 > 数据集管理,打开数据集管理首页。

  2. 点击 新建数据集 > 从数据源连接创建,完成数据集的基本信息设置:

    • 数据集名称:输入数据集的名称

    • 数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)

    • 数据源连接:选择已通过 资源配置 > 连接配置 创建的数据源连接名称,系统将自动检测数据源连接的连通性

    • 数据集类型:选择 tabular 类型

    • 标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)

    • 描述:输入对数据集的描述

    ../_images/creating_dataset_1.png
  3. 数据源配置 页面中,输入 SQL 查询语句和查询超时时间(1 ~ 600 秒)。注意:从数据源连接创建 Tabular 类型数据集时,仅支持单 SQL 语句查询,不支持多 SQL 语句。

    ../_images/creating_dataset_2.png
  4. 数据预览 页面中,点击 开始数据预览,预览通过 SQL 语句查询到的数据(仅显示查询到的前50条数据)。

    ../_images/creating_dataset_3.png
  5. SCHEMA设置 页面中,根据需要设置字段别名、修改字段属性、类型、描述等信息。若需重新设置Schema信息,点击 重置 按钮恢复默认值。

    ../_images/creating_dataset_4.png
  6. 确认详细信息 页面中,检查数据集的完整配置信息。点击 完成 创建数据集。创建的数据集将会显示在数据集列表中。

    ../_images/creating_dataset_5.png

从 Blob、S3 或 HDFS 数据源连接创建数据集

通过以下步骤,从 Blob、S3 或 HDFS 数据源连接创建数据集(以 HDFS 数据源创建 File 类型数据集为例):

  1. 登录 EnOS 管理控制台,从左侧导航栏中选择 企业分析平台 > 机器智能中心 > 数据集管理,打开数据集管理首页。

  2. 点击 新建数据集 > 从数据源连接创建,完成数据集的基本信息设置:

    • 数据集名称:输入数据集的名称

    • 数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)

    • 数据源连接:选择已通过 资源配置 > 连接配置 创建的数据源连接名称,系统将自动检测数据源连接的连通性

    • 数据集类型:选择 file 类型

    • 标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)

    • 描述:输入对数据集的描述

    ../_images/creating_file_dataset_1.png
  3. 数据源配置 页面中,输入待使用的文件路径。

    ../_images/creating_file_dataset_2.png
  4. 确认详细信息 页面中,检查数据集的完整配置信息。点击 完成 创建数据集。创建的数据集将会显示在数据集列表中。

    ../_images/creating_file_dataset_3.png

通过上传文件创建数据集

通过上传文件创建数据集的详细步骤如下:

  1. 登录 EnOS 管理控制台,从左侧导航栏中选择 企业分析平台 > 机器智能中心 > 数据集管理,打开数据集管理首页。

  2. 点击 新建数据集 > 从本地文件上传创建,完成数据集的基本信息设置:

    • 数据集名称:输入数据集的名称

    • 数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)

    • 数据集类型:选择 tabularfile 类型

      • tabular 类型:需对应地选择上传文件的格式(Delimited Text 或 ORC),并且需确保上传的文件能被正常解析

      • file 类型:无需选择文件类型

    • 标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)

    • 描述:输入对数据集的描述

  3. 文件上传 页面中,选择上传1个或多个文件,选择的文件清单会显示在文件列表中,包括文件名称和文件大小。

  4. 完成文件上传后,根据选择创建的数据集类型,完成文件配置和配置确认等步骤,创建数据集。详细步骤,可参考 通过数据源连接创建数据集

备注

  • 如文件上传完成后需要增加新的文件,上传新的文件会替代前一次上传的所有文件,需重新上传所有文件。

  • 单次上传的文件不能超过1G,总配额不能超过10G。容量过大的文件,可考虑上传至 HDFS、Blob、或 S3 后再创建数据集。

从算子输出/输入创建数据集

通过算子输出/输入创建数据集的详细步骤如下:

  1. 登录 EnOS 管理控制台,从左侧导航栏中选择 企业分析平台 > 机器智能中心 > 数据集管理,打开数据集管理首页。

  2. 点击 新建数据集 > 从算子输出/输入创建,完成数据集的基本信息设置:

    • 数据集名称:输入数据集的名称

    • 数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)

    • 数据集类型:选择 tabularfile 类型

      • tabular 类型:需对应地选择上传文件的格式(Delimited Text 或 ORC),并且需确保上传的文件能被正常解析

      • file 类型:无需选择文件类型

    • 标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)

    • 描述:输入对数据集的描述

  3. 文件选取 页面中输入算子输出/输入的 minio 路径。如何获取 minio 路径可参考 查看运行实例基本信息和详情

  4. 文件配置 页面中设置列分隔符、字符集、转义字符和引用字符等。

  5. SCHEMA设置 页面中,根据需要设置字段别名、修改字段属性、类型、描述等信息。若需重新设置 Schema 信息,点击 重置 按钮恢复默认值。

  6. 确认详细信息 页面中,检查数据集的完整配置信息。点击 完成 创建数据集。创建的数据集将会显示在数据集列表中。

从 APIM 创建数据集

通过 APIM 创建数据集的详细步骤如下:

  1. 登录 EnOS 管理控制台,从左侧导航栏中选择 企业分析平台 > 机器智能中心 > 数据集管理,打开数据集管理首页。

  2. 点击 新建数据集 > 从 APIM 创建,完成数据集的基本信息设置:

    • 数据集名称:输入数据集的名称

    • 数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)

    • 数据集类型:只能为 tabular

    • URL:输入 API 的 URL

    • Access Key:输入访问 API 的 Access Key

    • Secret Key:输入访问 API 的 Secret Key

    • HttpMethod:指定 Http 方式

      • 选择 get 时字段包含在 URL

      • 选择 post 时将字段填写在 request body

    • 返回结果路径:输入返回结果中的数据路径

    • 是否为时间序列:勾选为时间序列时需要输入 指定开始时间字段指定结束时间字段

    • 标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)

    • 描述:输入对数据集的描述

  3. 如果勾选了时间序列,需要在 数据源配置 页面中选择结束时间并指定时间长度。

  4. 文件配置 页面中设置列分隔符、字符集、转义字符和引用字符等。

  5. 数据预览 页面中可以选择预览前50条数据。

  6. SCHEMA设置 页面中,根据需要设置字段别名、修改字段属性、类型、描述等信息。若需重新设置 Schema 信息,点击 重置 按钮恢复默认值。

  7. 确认详细信息 页面中,检查数据集的完整配置信息。点击 完成 创建数据集。创建的数据集将会显示在数据集列表中。