Parquet 输出
组件介绍
**"Parquet 输出"**组件可以将任何来源的行写到一个或多个 Parquet 文件中。
- 输入: 数据
- 输出: Parquet 文件
- 参数: 无
字段介绍
Parquet 输出文件格式的设置
页面介绍:
选项 | 说明 | 样例值 |
---|---|---|
文件名 | 指定输出文本文件的文件名和位置。 | |
扩展名 | 指定输出文本文件的文件名和位置。 | |
输出 date | 使最终的文件名加上日期后缀,便于生成唯一名称的文件 | |
输出 time | 使最终的文件名加上文件创建时间后缀,便于生成唯一名称文件 | |
输出 date-time 格式 | 是否选择自定义日期格式 | |
日期格式 | 选中“输出 date-time 格式”,便可自定义日期时间的格式 | |
输出 Transform 副本序号 | 如果你在多个副本中运行这个转换,启用这个选项,以避免多个线程写到同一个文件。 | |
输出分隔数量及序号 | 如果你想把输出分成多个部分,请启用这个选项。指定一个大于0的分割大小,然后这就是每个文件的行数。文件部分(分割)号将包括在文件名中,以确保同一文件不被覆盖。 | |
分隔文件大小(字节) | 在输出指定字节数后,通过输出到一个新文件来限制单个文件的大小 | |
创建上级文件夹 | 启用以创建父文件夹 | |
压缩编码 | 指定想使用哪种压缩编解码器。 | |
版本 | 选择Parquet的协议版本(1.0或2.0)。 | |
行组大小 | 一组中的行的数量 | |
数据页大小 | 以1kB为界的数据页大小(默认为1048576)。 | |
字典页大小 | 以1kB为界的数据字典页面大小(默认为1048576)。 |
表格字段的具体定义如下:
字段名 | 字段功能 |
---|---|
源字段 | 从上游数据有获取的字段名。 |
目标字段 | 定义要赋值的字段名。 |
使用案例:
案例介绍如何将数据导出到 Parquet 文件中,
“Parquet 输出”组件图标如下图所示:
总览如下:
1、拖动"自定义常量组件"到工作区,双击编辑组件参数,首先编辑元数据
2、再点击数据标签页添加如下图所示数据,编辑完成后点击右下角确定保持组件设置.
3、拖动"Parquet 输出"组件到工作区,双击编辑组件参数,右键表格选择“获取字段”,来获取字段信息
4、点击确认保存,运行转换,得到 example.parquet 文件