CSV 文件输入
组件介绍
组件图标
组件作用
“CSV文件输入”组件可以读取不同格式的文本文件数据至 UDI 中,它们大多数是通过工具生成的 CSV 文件。注意读取文件时需要指定列分隔符和封闭符,符号格式要与文件当中的编码格式一致。
输入输出描述
- 输入:需要读取的 CSV 或 txt 格式的文本文件
- 输出:读取的 CSV 或 txt 格式的文本文件的数据
- 注意: 读取文件是需要指定列分隔符和封闭符,符号格式要与文件当中的编码格式一致。
页面介绍
运行“CSV文件输入”组件得到下图所示的界面:
参数选项
“CSV文件输入”组件页面包含如下选项:
选项 | 说明 | 样例值 |
---|---|---|
步骤名称 | 在画布上指定“CSV文件输入”步骤的唯一名称,可以自定义名称或保留默认名称。 | CSV文件输入 |
文件名 | 指定输入CSV文件的名称,或通过单击“浏览文件”导航到输入文件。 | |
列分隔符 | 指定源文件中使用的文件列分隔符,默认分隔符是“;”。 | ; |
封闭符 | 指定源文件中使用的封闭符。 | " |
NIO缓存大小 | 指定读取缓冲区的大小,即一次从源读取的字节数。 | 50000 |
简易转换? | 指定是否可以使用惰性转换算法来提高性能。如果勾选,简易转换算法会尝试避免不必要的数据类型转换。它可以显著提高性能,典型示例是从文本文件读取并写回文本文件。 | |
包含列头行 | 指示源文件是否包含标题行。 | |
将文件添加到结果文件中 | 将CSV源文件名添加到此转换的结果中。 | |
行号字段(可选) | 在此步骤的输出中指定将包含行号字段的名称。 | |
并发运行? | 指定是否将运行此步骤的多个实例(步骤副本),以及是否要每个实例读取CSV文件的一部分。读取多个文件时,将考虑所有文件的总大小以分担工作负载。在这种特点情况下,请确保所有步骤副本都接收所有需要读取的文件,否则,并行算法将无法正常工作。 | |
字段中有回车换行? | 指示数据字段是否可以包含回车换行符。 | |
格式 | 选择文件格式,包括DOS、unix和mixed(混合格式)三种。其中,unix文件的行以换行符结尾;DOS文件中的行由回车符和换行符分割;若指定为混合,则不进行验证 | mixed |
文件编码 | 指定源文件的编码。 | GBK2312 |
字段表
组件底部表格为字段表,右击选择“获取字段”,组件可根据当前指定设置从源文件获取相应内容填充字段表。该表包含以下列:
列名 | 说明 | 样例值 |
---|---|---|
名称 | 字段名。 | |
类型 | 字段类型,可以是String、Date或Number等类型。 | |
格式 | 用于转换原始字段格式的可选掩码。 | |
长度 | 字段的长度取决于以下字段类型: Number:数字中有效数字的总数。 String:字符串的总长度。 Date:字符串的打印输出长度。 | |
精度 | 数字类型字段的浮点位数。 | |
货币类型 | 用于表示货币的符号(例如¥或$)。 | |
小数点符号 | 小数点可以是“.”或“,”(例如5,000.0或5.000,0)。 | |
分组符号 | 分组可以使“.”或“,”(例如5,000.0或5.000,0)。 | |
去除空格符号 | 应用于字符串中空格的修剪方法。 |
案例示例
该案例读取csv文件中的数据至 UDI,总体流程如下图所示:
输入输出结果对比预览:
无
案例数据
数据文件:project.csv
该文件共包含6条数据
列名 | 说明 |
---|---|
project_name | 项目名称 |
start_date | 项目开始时间 |
end_date | 项目结束时间 |
案例操作
该步骤将本地的 csv 文件上传至 UDI 文件库中,为【CSV文件输入】组件提供数据输入来源。
上传成功的csv文件可在 UDI 文件库中看到。
②csv文件输入
该步骤把csv 文件读取到 UDI 中。
该组件配置主要分为 4 步:
- 第一步:选择需要加载的文件;
- 第二步:设置“列分隔符”与“封闭符”;
- 第三步:选择文件“编码”格式(文件有特殊编码格式时才需要设置);
- 第四步:获取输入字段;
结果预览
UDI最终读取的 project.csv 数据如下图所示:
常见问题
- 获取字段时乱码
请确认编码是否与文件编码一致,编码不一致会出现乱码