覆盖主要内容

去除重复记录

组件介绍

组件作用

“去除重复记录”组件用于处理有重复值的字段。


输入输出描述

  • 输入:有重复冗余值的数据
  • 输出:已经去除重复记录的数据
  • 参数:无

  • 注意:确保输入的数据是已经排好序的,否则,只有连续的两行才能正确评估。

组件图标

案例示例

该案例去除 CSV 文件中的 project_name 字段重复的数据,总体流程如下图所示:

输入输出结果对比预览:

案例数据

该文件共包含 7 条数据,主要字段分别为 project_name、start_date 及 end_date,其中 project_name 字段中有一重复数据 [Project F]

案例操作

文件上传

该步骤将 csv 文件上传至 UDI 文件库中,为【CSV输入】组件提供数据输入来源。

文件上传操作详情请见文件上传

需要上传的数据文件:project-1.csv

上传成功的 CSV 文件可在 UDI 文件库中看到。

该组件配置主要分为 3 步:

第一步:选择需要加载的文件;

第二步:设置 "列分隔符" 与 "封闭符";

第三步:获取输入字段;

输入数据预览:

去除重复记录

该步骤目的为去除 csv 文件中 project_name 字段重复的数据。

输入预览:

该组件配置主要分为 1 步:

第一步:选择需要去除重复记录的字段;

结果预览

去除重复数据后的数据如下图所示:

页面介绍:


增加计数器到输出当勾选时,增加计数器值到输出字段。此时需要在“计数器字段”中定义计数字段,不勾选则不需要填写字段名
计数器字段定义计数器值的字段名
重定向重复记录将重复的行作为错误处理,并将行重定向到步骤的错误流。如果不勾选此选项,则删除重复的行。需要为此步骤设置错误处理
错误描述检测到重复行时显示的错误处理描述,仅在勾选“重定向重复记录”时可用
用来比较的字段字段名称需要去除重复记录的字段名
忽略大小写可选择是否忽略字段的大小写