覆盖主要内容

概述

数据集成基本概念

Job 和 Transformation

Job(任务)和Transformation(转换)是大数据分析系统中数据集成子系统的两个最重要的概念。任务是指做完一件完整的事,包含开始、结束等整个生命周期,它是面向任务的;而转换是指做这件事的某一个小的功能,它是面向数据流的。下面我们通过数据集成子系统了解一个转换和任务。

Transformation(转换)是由一系列 Steps(转换步骤)和 Hops(连接线)组成的工作流。一个转换可以看成一段数据流,每一个步骤完成一项数据处理的工作,节点连接线用于指示数据的流动方向,其类型可分为“主输出步骤”和“错误输出步骤”。下图是一个转换的例子,这个转换的功能是进行数据校验。

image.png

Job(任务)是由一系列 Job Entries(任务项)和 Hops(连接线)组成的工作流,该工作流确定了任务完成的顺序。下图是一个任务的例子,任务项用小框表示,任务项之间用连接线连接。每个任务工作流都必须包含开始任务项。

image.png

Steps 和 Job Entry

Steps(步骤)是转换内的最小单元,在数据集成子系统中步骤按功能分组分为输入类、输出类、脚本类等,每一个步骤完成一种特定的功能,比如“**excel输出”**组件,用于把数据流输出为 excel 文件格式。下图为所示:

image.png

Job Entry(任务项)是任务的执行单位,它根据用途分为通用、邮件等几类。在通用类别中有许多常用的任务组件,尤其是“Start”任务项,它是每个作业中都必须包含的任务项。

image.png

Hops(节点连接)

Hops(节点连接)是数据传输的通道,用于连接两个步骤或任务项,使数据从一个步骤传递到另一个步骤,支持分发、复制等方式。注意数据处理的顺序并不是按照节点连接箭头的顺序,因为每个步骤都是单独的线程。

image.png

创建好两个组件后,单击第一个组件,按住左键不放,将光标拖至第二个组件即可即可建立节点连接。链接先的类型分为两种,设置后的结果如转换示例所示。

image.png

组件的基本操作

无论是转换中的步骤还是任务中的任务项,它们都统称为组件,对组件的操作最常用的就是添加、连接和删除,下面我们将对组件的基本操作进行介绍。

添加组件

组件列表位于系统左侧,如下图所示,按类别分组,我们可以通过类别找到需要的组件,也可以在搜索框中输入组件名进行检索。

image.png

找到所需组件后将其选中并拖拽至画布区即完成了组件的添加,下图是添加两个组件至画布中的示例。左键选中组件进行拖拽即可完成组件的添加和位置移动。

连接组件

组件连接非常简单,当鼠标停留在第一个组件上变为手标识时,按住左键拖动就会出现一条虚拟的连接线,然后把它放到第二个组件上,即可完成两个组件的连接,此时会弹出提示选择连接线类型,选择需要的类型即可。过程如下面的动图所示。

删除组件

当需要删除某个组件时,只需选中组件,右击则出现选择列表,选择“删除步骤”即可完成组件的删除。过程如下图所示。