教程概览¶
应用场景¶
在风力发电业务中,气象条件对发电功率的影响很大,业务对发电功率的预测有很强的需求。本教程通过基于风功率算法和气象示例数据,展示了数据准备、特征加工处理、模型训练、模型版本上架、模型上线、基于模型文件或基于模型服务的预测的完整工作流。通过这个简单的机器学习的实例,用户可以熟悉 EAP(Enterprise Analysis Platform,企业分析平台)中 MI Pipelines(智能任务流)里算子的使用及其设计和编排能力,进而举一反三在不同的应用场景里灵活使用算子来实现复杂功能需求的设计,以满足实际的特定业务需求。 本示例将重点介绍智能任务流针对该场景的使用,覆盖到了大部分常用算子如逻辑算子和普通算子等。
适用人群¶
无数据科学背景,需要初步了解 EAP 产品功能
有数据科学背景,需要深入了解 EAP 产品功能
有数据科学背景,需要通过 EAP 完成具体机器学习场景的工程化落地任务
有数据科学背景,需要通过一个完整的示例参考设计具体场景的任务流
整体架构¶
风功率预测场景的任务流设计分为训练和预测两个分支,通过传入的全局参数 tasktype(任务类型)来区分需要运行的任务,如下图所示:
其中
训练任务展示了从接入原始数据到加工处理、创建和训练模型、版本上架和部署云端的能力。
预测任务展示了从接收原始特征输入数据和基于已发布的模型服务或机器学习模型进行预测,并将预测结果保存至 HDFS 以及 Hive,用于后续分析展现的能力。
前提条件¶
了解 EAP 智能任务流产品中各类算子的功能和使用方法,可参考 算子参考文档。
数据集:本教程使用样例数据集,随 EAP 组件安装部署,无需单独创建(若希望尝试手工创建数据集使用,则需要配置相应的数据源连接,数据源连接配置可参考 数据集管理概述。
资源池:EAP 的安装部署、任务流的运行以及模型部署都需要使用到资源池的资源(包括 CPU、内存、存储等)。确保 OU 已通过 资源管理 页面申请 批数据处理-大数据队列、数据仓库存储、文件存储 HDFS 资源和 ML模型 - 容器计算 资源,用于存储和处理模型训练所需的数据。详细信息可参考 EnOS 上的资源。
环境配置:需要在某 OU 下独立安装 EAP 相关组件。
单元排布¶
本教程主要包含以下几个步骤单元: