去除重复记录
组件介绍
组件作用
“去除重复记录”组件用于处理有重复值的字段。
输入输出描述
- 输入:有重复冗余值的数据
- 输出:已经去除重复记录的数据
- 参数:无
- 注意:确保输入的数据是已经排好序的,否则,只有连续的两行才能正确评估。
组件图标
案例示例
该案例去除 CSV 文件中的 project_name 字段重复的数据,总体流程如下图所示:
输入输出结果对比预览:
案例数据
该文件共包含 7 条数据,主要字段分别为 project_name、start_date 及 end_date,其中 project_name 字段中有一重复数据 [Project F]。
案例操作
文件上传
该步骤将 csv 文件上传至 UDI 文件库中,为【CSV输入】组件提供数据输入来源。
文件上传操作详情请见文件上传
需要上传的数据文件:project-1.csv
上传成功的 CSV 文件可在 UDI 文件库中看到。
该组件配置主要分为 3 步:
第一步:选择需要加载的文件;
第二步:设置 "列分隔符" 与 "封闭符";
第三步:获取输入字段;
输入数据预览:
去除重复记录
该步骤目的为去除 csv 文件中 project_name 字段重复的数据。
输入预览:
该组件配置主要分为 1 步:
第一步:选择需要去除重复记录的字段;
结果预览
去除重复数据后的数据如下图所示:
页面介绍:
增加计数器到输出 | 当勾选时,增加计数器值到输出字段。此时需要在“计数器字段”中定义计数字段,不勾选则不需要填写字段名 | |
---|---|---|
计数器字段 | 定义计数器值的字段名 | |
重定向重复记录 | 将重复的行作为错误处理,并将行重定向到步骤的错误流。如果不勾选此选项,则删除重复的行。需要为此步骤设置错误处理 | |
错误描述 | 检测到重复行时显示的错误处理描述,仅在勾选“重定向重复记录”时可用 | |
用来比较的字段 | 字段名称 | 需要去除重复记录的字段名 |
忽略大小写 | 可选择是否忽略字段的大小写 |