创建数据集¶
本文介绍如何创建数据集。
通过数据源连接创建数据集 ¶
各类型的数据源支持创建的数据集类型如下:
数据源连接 |
支持创建的数据集类型 |
---|---|
MySQL |
Tabular数据集 |
Hive |
Tabular数据集 |
Blob |
Tabular数据集(Delimited Text 或 ORC 文件格式)、File数据集 |
S3 |
Tabular数据集(Delimited Text 或 ORC 文件格式)、File数据集 |
HDFS |
Tabular数据集(Delimited Text 或 ORC 文件格式)、File数据集 |
从 MySQL 或 Hive 数据源连接创建数据集¶
通过以下步骤,从 MySQL 或 Hive 数据源连接创建数据集(以 MySQL 数据源为例):
登录 EnOS 管理控制台,从左侧导航栏中选择 企业分析平台 > 机器智能中心 > 数据集管理,打开数据集管理首页。
点击 新建数据集 > 从数据源连接创建,完成数据集的基本信息设置:
数据集名称:输入数据集的名称
数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)
数据源连接:选择已通过 资源配置 > 连接配置 创建的数据源连接名称,系统将自动检测数据源连接的连通性
数据集类型:选择 tabular 类型
标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)
描述:输入对数据集的描述
在 数据源配置 页面中,输入 SQL 查询语句和查询超时时间(1 ~ 600 秒)。注意:从数据源连接创建 Tabular 类型数据集时,仅支持单 SQL 语句查询,不支持多 SQL 语句。
在 数据预览 页面中,点击 开始数据预览,预览通过 SQL 语句查询到的数据(仅显示查询到的前50条数据)。
在 SCHEMA设置 页面中,根据需要设置字段别名、修改字段属性、类型、描述等信息。若需重新设置Schema信息,点击 重置 按钮恢复默认值。
在 确认详细信息 页面中,检查数据集的完整配置信息。点击 完成 创建数据集。创建的数据集将会显示在数据集列表中。
从 Blob、S3 或 HDFS 数据源连接创建数据集¶
通过以下步骤,从 Blob、S3 或 HDFS 数据源连接创建数据集(以 HDFS 数据源创建 File 类型数据集为例):
登录 EnOS 管理控制台,从左侧导航栏中选择 企业分析平台 > 机器智能中心 > 数据集管理,打开数据集管理首页。
点击 新建数据集 > 从数据源连接创建,完成数据集的基本信息设置:
数据集名称:输入数据集的名称
数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)
数据源连接:选择已通过 资源配置 > 连接配置 创建的数据源连接名称,系统将自动检测数据源连接的连通性
数据集类型:选择 file 类型
标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)
描述:输入对数据集的描述
在 数据源配置 页面中,输入待使用的文件路径。
在 确认详细信息 页面中,检查数据集的完整配置信息。点击 完成 创建数据集。创建的数据集将会显示在数据集列表中。
通过上传文件创建数据集¶
通过上传文件创建数据集的详细步骤如下:
登录 EnOS 管理控制台,从左侧导航栏中选择 企业分析平台 > 机器智能中心 > 数据集管理,打开数据集管理首页。
点击 新建数据集 > 从本地文件上传创建,完成数据集的基本信息设置:
数据集名称:输入数据集的名称
数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)
数据集类型:选择 tabular 或 file 类型
tabular 类型:需对应地选择上传文件的格式(Delimited Text 或 ORC),并且需确保上传的文件能被正常解析
file 类型:无需选择文件类型
标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)
描述:输入对数据集的描述
在 文件上传 页面中,选择上传1个或多个文件,选择的文件清单会显示在文件列表中,包括文件名称和文件大小。
完成文件上传后,根据选择创建的数据集类型,完成文件配置和配置确认等步骤,创建数据集。详细步骤,可参考 通过数据源连接创建数据集。
备注
如文件上传完成后需要增加新的文件,上传新的文件会替代前一次上传的所有文件,需重新上传所有文件。
单次上传的文件不能超过1G,总配额不能超过10G。容量过大的文件,可考虑上传至 HDFS、Blob、或 S3 后再创建数据集。
从算子输出/输入创建数据集¶
通过算子输出/输入创建数据集的详细步骤如下:
登录 EnOS 管理控制台,从左侧导航栏中选择 企业分析平台 > 机器智能中心 > 数据集管理,打开数据集管理首页。
点击 新建数据集 > 从算子输出/输入创建,完成数据集的基本信息设置:
数据集名称:输入数据集的名称
数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)
数据集类型:选择 tabular 或 file 类型
tabular 类型:需对应地选择上传文件的格式(Delimited Text 或 ORC),并且需确保上传的文件能被正常解析
file 类型:无需选择文件类型
标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)
描述:输入对数据集的描述
在 文件选取 页面中输入算子输出/输入的 minio 路径。如何获取 minio 路径可参考 查看运行实例基本信息和详情
在 文件配置 页面中设置列分隔符、字符集、转义字符和引用字符等。
在 SCHEMA设置 页面中,根据需要设置字段别名、修改字段属性、类型、描述等信息。若需重新设置 Schema 信息,点击 重置 按钮恢复默认值。
在 确认详细信息 页面中,检查数据集的完整配置信息。点击 完成 创建数据集。创建的数据集将会显示在数据集列表中。
从 APIM 创建数据集¶
通过 APIM 创建数据集的详细步骤如下:
登录 EnOS 管理控制台,从左侧导航栏中选择 企业分析平台 > 机器智能中心 > 数据集管理,打开数据集管理首页。
点击 新建数据集 > 从 APIM 创建,完成数据集的基本信息设置:
数据集名称:输入数据集的名称
数据集别名:输入数据集的别名(数据集列表中优先显示数据集的别名)
数据集类型:只能为 tabular
URL:输入 API 的 URL
Access Key:输入访问 API 的 Access Key
Secret Key:输入访问 API 的 Secret Key
HttpMethod:指定 Http 方式
选择 get 时字段包含在 URL
选择 post 时将字段填写在 request body
返回结果路径:输入返回结果中的数据路径
是否为时间序列:勾选为时间序列时需要输入 指定开始时间字段 和 指定结束时间字段
标签:输入1个或多个标签(支持中文和英文,便于在数据集列表中通过标签快速搜索数据集)
描述:输入对数据集的描述
如果勾选了时间序列,需要在 数据源配置 页面中选择结束时间并指定时间长度。
在 文件配置 页面中设置列分隔符、字符集、转义字符和引用字符等。
在 数据预览 页面中可以选择预览前50条数据。
在 SCHEMA设置 页面中,根据需要设置字段别名、修改字段属性、类型、描述等信息。若需重新设置 Schema 信息,点击 重置 按钮恢复默认值。
在 确认详细信息 页面中,检查数据集的完整配置信息。点击 完成 创建数据集。创建的数据集将会显示在数据集列表中。