文本文件输入
组件介绍
步骤文本文件输入用来读取各种各种的文本文件。最常用的文件格式包括表格文件、csv文件、定宽扁平文件等。
使用正则表达式,组件文本文件输入能读取一批文件或一批目录中的文件,另外,你也能从前面的一个步骤中读取文件名称。
- 输入:需要读取的任何文本文件
- 输出:读取的文本文件的数据
页面介绍
文件标签
文件标签用于配置要读取的文件。
参数选项
文本文件输入组件文件标签页面包含如下选项:
选项 | 说明 | 样例值 |
---|---|---|
文件或目录 | 指定输入文本文件的位置或者是路径 | |
规则表达式 | 指定你想用来选择文件的正则表达式,文件夹路径为字段“文件或目录”中提供的目录。例如,选择所有的 .txt 文件 | |
正则表达式(排除) | 指定你想用来排除文件的正则表达式,文件夹路径为字段“文件或目录”中提供的目录。例如,排除所有的 .log 文件 | |
选中的文件 | 这个表格包含了已经选择文件(也可以是正在表达式) | |
从以前步骤接受文件名 | 启用该选项,可以从前一个步 骤获取文件名 | |
从以前步骤接受字段名 | 启用该选项,可以从前一个步骤获取字段名 | |
步骤读取的文件名来自 | 选择文件名来自于哪个步骤 | |
在输入里的字段被当做文件名 | 确定哪个字段用来作为步骤“文本文件输入”的输入 |
使用正则表达式选择文件 ** 步骤文本文件输入可以使用正则表达式来模糊匹配文件名。正则表达式比通配符“*”、“?”复杂。下面是一些正则表达式的例子:
文件名 | 正则表达式 | 选择的文件 |
---|---|---|
/dirA/ | .userdata.\.txt | 查找目录 /dirA/ 中所有文件名包含 userdata 且以 .txt 结尾的文件。 |
/dirB/ | AAA.* | 查找目录 /dirb/ 中所有以 AAA 开头的文件 |
/dirC/ | [ENG:A-Z][ENG:0-9].* | 查找目录 /dirC/ 中文件名字以大写字母开头,并且紧跟一个数字的文件。 |
字段表
列名 | 说明 | 样例值 |
---|---|---|
文件/目录 | 文件或者目录的名称 | |
通配符号 | 与参数中的正则表达式部分相同 | |
通配符号(排除) | 与参数中的正则表达式(排除)部分相同 | |
要求 | 是否必须 | |
包含子目录 | 是否匹配子目录 |
内容标签
内容标签可以指定读取文件的类型。
参数选项
文本文件输入组件内容标签页面包含如下选项:
选项 | 说明 | 样例值 |
---|---|---|
文件类型 | 文件类型可以是 CSV 或者是定长文件 | |
分割符 | 在一行文本中,用来分开字符串的一个或多个字符。通常的分隔符是“;”或者 tab | |
文本限定符 | 有些字段可以用一对字符串括起来,以允许字段中使用分隔符,称为“文本限定符”。文本限定符是可选的 | |
在文本里允许换行 | 允许文本中的换行符 | |
忽略字符 | 指定在你的数据中要忽略的字符或者字符串。如果存在要忽略的字符“\”,文本'Not the nine o\'clock news'(包含引号)将被解析为 not the nine o'clock news | |
头部 & 头部行数 | 如果你的头文件有头信息的话(文件开始的行),你可以启动该选项。你也能指定头行出现 的次数 | |
尾部 & 尾部行数 | 如果你的文件有尾信息的话(文件尾部的行),你可以启动该选项。你也能指定尾行出现的次数 | |
包装行 | 当处理的数据行包装超出了特定的页面限制,需启用该选项。请注意,页眉和页脚永远不会被认为是包装的 | |
分页布局 | 当要在行式打印机上处理事,需要启用该选项 | |
压缩 | 如果你的数据是在一个压缩包如 Zip 或 GZip中,需要启动该选项。注意:压缩包中的文件只有第一个会被读取 | |
没有空行 | 不发送空行到下一个步骤 | |
在输出包括字段名 | 如果你想将文件名作为一部分,需要启用该选项 | |
输出包含行数 | 如果你想要行序号,需要启动该选项 | |
格式 | 可以是 DOS, UNIX , 或者 mixed。UNIX 文件的行结尾符号是换行符,DOS 文件的换行符是回车和换行。如果你使用 mixed,将不进行验证 | |
编码 | 指定文本文件的编码。为空时表示使用系统的默认编码。可以使用 Unicode、UTF-8 或 UTF-16 | |
记录数量限制 | 指定从文件中读取的最大行数。0 表示不限制 | |
解析日期的时候是否严格要求 | 如果想要严格解析时间格式,你需要禁用该选项 | |
本地日期格式 | 设置本地日期的格式 | |
添加文件名 | 添加文件名到内部的文件名结果集。内部的结果集能在后面的步骤中使用,例如处理所有读取的文件 |