覆盖主要内容
版本: 6.1.0

概述

平台介绍

UDI Studio 是 Uniplore 一站式大数据智能平台中的数据集成平台,易于使用,快速而灵活。

UDI Studio 通过可视化开发帮助开发人员提高工作效率。“一次设计、多地运行”的作业和转换可以在 Web GUI 中设计,并在本地/远程引擎上运行,或者通过 Beam 在 Spark、Flink、Google Dataflow 或 AWS EMR 上运行。内置的生命周期管理工具使开发人员和管理员能够使项目在测试、开发、生产环境之间进行切换,无需做大量迁移和适配工作。

平台特性

元数据驱动

UDI Studio 是完全由元数据驱动的。平台中每一个对象类型都描述了如何读取、操作或写入数据,或者如何协调作业和转换。

元数据也是平台内部驱动因素。平台使用具有强大引擎的开源内核架构作为基础架构。通过该架构的插件体系可以灵活的扩展和强化引擎能力。

一次设计、多地运行

转换和作业都是对如何处理数据的定义。一旦设计好,转换只需要修改部分配置就可以在任何支持运行转换的运行环境上运行。平台内置支持本地或远程平台服务器运行转换,也可以通过 Apache Beam 将转换部署到 Apache Spark、Apache Flink 或 Google Dataflow 上运行。

可视化设计

在 Web GUI 可以通过可视化拖拽的方式设计转换和作业。可视化开发帮助数据开发人员和数据工程师将重点放在需要实现的业务逻辑上,放在需要做的事情上,而不是放在需要如何做的事情上。

内置项目生命周期管理

管理、测试和部署转换和作业可能是一项艰巨的任务。开发人员和工程师可以使用数据集成平台管理整个数据集成项目生命周期:在项目、环境、运行环境等配置之间切换,还可通过 git 来进行版本控制等。

基本概念

Workflow 和 Pipeline

Workflow(作业)和 Pipeline(转换)是数据集成平台的两个最重要的概念。作业是指做完一件完整的事,包含开始、结束等整个生命周期,它是面向任务的;而转换是指做这件事的某一个小的功能,它是面向数据流的。下面我们通过数据集成子系统了解一个转换和任务。

Pipeline(转换)是由一系列 Transform(转换步骤)和 Hops(连接线)组成的工作流。一个转换可以看成一段数据流,每一个步骤完成一项数据处理的工作,节点连接线用于指示数据的流动方向,其类型可分为“主输出步骤”和“错误输出步骤”。下图是一个转换的例子,这个转换的功能是进行数据校验。

image.png

Workflow(作业)是由一系列 Action(任务项)和 Hops(连接线)组成的工作流,该工作流确定了任务完成的顺序。下图是一个作业的例子,任务项用小框表示,任务项之间用连接线连接。每个任务工作流都必须包含开始任务项。

image.png

Transform 和 Action

Transform(步骤)是转换内的最小单元,在数据集成平台中步骤按功能分组分为输入类、输出类、脚本类等,每一个步骤完成一种特定的功能,比如excel 输出组件,用于把数据流输出为 excel 文件格式。下图为所示:

image.png

Action(任务项)是任务的执行单位,它根据用途分为通用、邮件等几类。在通用类别中有许多常用的任务组件,尤其是“启动”任务项,它是每个作业中都必须包含的任务项。

image.png

Hops(节点连接)

Hops(节点连接)是数据传输的通道,用于连接两个步骤或任务项,使数据从一个步骤传递到另一个步骤,支持分发、复制等方式。注意数据处理的顺序并不是按照节点连接箭头的顺序,因为每个步骤都是单独的线程。

image.png