覆盖主要内容
版本: 6.1.0

数据选择、过滤及排序

案例说明

数据清洗是使用 ETL 工具最重要的原因之一,数据清洗是数据质量这一更大主题的一部分,而数据质量又是数据管理这一主题的一部分。设计可复用的数据清洗转换是 ETL 开发过程 中的一个重要部分。 Uniplore  提供了很多步骤帮助完成数据清洗工作,本案例将接收如何使用这些组件进行数据清洗。

数据准备

足球比赛数据:matches.txt 本案例中“对足球比赛数据进行过滤、排序、选择”小节将使用此数据;

states_of_usa.txt usa_city.txt 本案例中“使用模糊匹配检验错误数据”小节将使用这些数据;

对足球比赛数据进行过滤、排序、选择

本小节主要展示对“matches.txt”数据进行排序,通过指定字段对比赛数据进行排序,能够更好的观察比赛情况。使用**“排序记录”组件,可以对原有数据进行排序,使用“过滤记录”组件可以过滤出满足条件的记录。具体操作如下: 1、新建转换,在“输入”中拖入CSV 文件输入”**组件,配置好后预览数据,结果如下图所示:

 

2、在“转换”中拖入**“字段选择”**组件并连接上一步骤,选择要保留的字段,配置如下图所示:

  3、拖入**“排序记录”**组件并连接上一步骤,双击该组件,配置如下图所示:

  4、在“流程”中拖入**“过滤记录”“空操作(什么也不做)”**组件,依次连接步骤。整体转换如下图所示:

  5、双击**“过滤记录”**组件,配置如下图所示:

6、运行转换,结果如下图所示:

  7、选中**“空操作(什么也不做)”,右击选择“预览”**查看数据,结果如下图所示:

使用模糊匹配检验错误数据

本案例主要展现模糊匹配组件功能,使用模糊匹配可以查找出那些可能输入错误的数据。CSV 文件输入先读取一个包含国家名信息的文件,然后用另一个CSV 文件输入读取一个包含标准国家名的文件。最后,通过模糊匹配来查询可能输入错误的国家名,并输出两者之间的距离。具体操作如下: 1、在“输入”中拖入两个CSV 文件输入组件,在应用中再拖入模糊匹配组件,连接如下图所示:

2、双击第一个CSV 文件输入,配置如下图所示,点击确定。

3、双击第二个CSV 文件输入 ,配置如下图所示,点击确定。

4、双击**“模糊匹配”**,配置如下图所示:

5、选择字段标签,在匹配字段文本框中输入match,在值字段输入measure value,如下图所示:

6、运行转换,结果如下图所示:

  7、选中**“模糊匹配”**并预览数据,结果如下图所示: