覆盖主要内容
版本: 6.1.0

Parquet 输出

组件介绍

**"Parquet 输出"**组件可以将任何来源的行写到一个或多个 Parquet 文件中。


  • 输入: 数据
  • 输出: Parquet 文件
  • 参数: 无

字段介绍

Parquet 输出文件格式的设置

页面介绍:

选项说明样例值
文件名指定输出文本文件的文件名和位置。
扩展名指定输出文本文件的文件名和位置。
输出 date使最终的文件名加上日期后缀,便于生成唯一名称的文件
输出 time使最终的文件名加上文件创建时间后缀,便于生成唯一名称文件
输出 date-time 格式是否选择自定义日期格式
日期格式选中“输出 date-time 格式”,便可自定义日期时间的格式
输出 Transform 副本序号如果你在多个副本中运行这个转换,启用这个选项,以避免多个线程写到同一个文件。
输出分隔数量及序号如果你想把输出分成多个部分,请启用这个选项。指定一个大于0的分割大小,然后这就是每个文件的行数。文件部分(分割)号将包括在文件名中,以确保同一文件不被覆盖。
分隔文件大小(字节)在输出指定字节数后,通过输出到一个新文件来限制单个文件的大小
创建上级文件夹启用以创建父文件夹
压缩编码指定想使用哪种压缩编解码器。
版本选择Parquet的协议版本(1.0或2.0)。
行组大小一组中的行的数量
数据页大小以1kB为界的数据页大小(默认为1048576)。
字典页大小以1kB为界的数据字典页面大小(默认为1048576)。

表格字段的具体定义如下:

字段名字段功能
源字段从上游数据有获取的字段名。
目标字段定义要赋值的字段名。

使用案例:

案例介绍如何将数据导出到 Parquet 文件中,

“Parquet 输出”组件图标如下图所示:

总览如下:

1、拖动"自定义常量组件"到工作区,双击编辑组件参数,首先编辑元数据

2、再点击数据标签页添加如下图所示数据,编辑完成后点击右下角确定保持组件设置.

3、拖动"Parquet 输出"组件到工作区,双击编辑组件参数,右键表格选择“获取字段”,来获取字段信息

4、点击确认保存,运行转换,得到 example.parquet 文件