Skip to main content
Version: 简体中文

ETL导出

DM Hub支持导出文件到SFTP、COS、OSS、S3、HDFS等存储系统上,支持导出的数据格式有CSV、Parquet等。

输出账号设置

点击【系统设置-系统集成-ETL导出-输出账号】,进入输出账号列表页。点击【新建】可以添加数据源系统的账号。目前支持的数据源类型有SFTP、COS、OSS、S3、HDFS。账号的设置方法与接入账号设置类似,具体请参考ETL导入

导出任务设置

点击【系统设置-系统集成-ETL导出】,进入导出任务列表页。点击【新建】可以添加导出任务。选择要导出的目标账号,进入编写GDQL语句的页面。

编写GDQL语句

GDQL是Convertlab自定义的数据查询语言,语法类似Spark SQL,去掉了对Insert、Delete等语句的支持。

img

目前支持导出的表有:

  • customer:客户属性表
    • 可以选择的字段在【系统设置-基础设置-属性】中查看
  • customer_attribute:客户自定义属性表
    • 可以选择的字段在【系统设置-基础设置-属性】中查看
  • identity:客户身份表
    • type:身份类型,如手机号、邮箱等
    • value:身份值
  • customer_event:客户事件表
    • 可以选择的字段在【系统设置-基础设置-事件】中查看
  • full_order:客户订单表
  • wechat_fans: 微信粉丝表
  • 自定义对象表,在【系统设置-基础设置-自定义对象】中查看对应的对象ID,如c_car

img

注意:导出任务的GDQL语句中如果包含加密列,则不支持select *的写法,需要明确指定要导出的字段。

同步设置

img

设置导出路径

支持默认和自定义两种模式。

默认模式下,系统会自动在设置的根路径的基础上按/{tenant-id}/{export-task-id}/{yyyyMMdd}/格式生成路径。如果根路径设置为/export,任务所在租户为1,任务执行日期为2024-09-10,任务ID为task-1234,则最终输出文件会存放在/export/1/task-1234/20240910/下面。

在自定义模式下,路径完全自定义指定,路径中可以使用{YYYYMMDD},最终DM Hub会将路径设置为导出时的具体日期。

自定义路径支持一下日期通配符:

日期通配符示例
{YYYYMMDD}20240910
{YYYY-MM-DD}2024-09-10
{YYYY/MM/DD}2024/09/10
{YYYYMMDD,-1}20240909
{YYYY/MM/DD,-1}2024/09/09
{YYYYMMDD,1}20240911
{YYYY-MM-DD,2}2024-09-12