ETL导出
DM Hub支持导出文件到SFTP、COS、OSS、S3、HDFS等存储系统上,支持导出的数据格式有CSV、Parquet等。
输出账号设置
点击【系统设置-系统集成-ETL导出-输出账号】,进入输出账号列表页。点击【新建】可以添加数据源系统的账号。目前支持的数据源类型有SFTP、COS、OSS、S3、HDFS。账号的设置方法与接入账号设置类似,具体请参考ETL导入。
导出任务设置
点击【系统设置-系统集成-ETL导出】,进入导出任务列表页。点击【新建】可以添加导出任务。选择要导出的目标账号,进入编写GDQL语句的页面。
编写GDQL语句
GDQL是Convertlab自定义的数据查询语言,语法类似Spark SQL,去掉了对Insert、Delete等语句的支持。
目前支持导出的表有:
customer
:客户属性表- 可以选择的字段在【系统设置-基础设置-属性】中查看
customer_attribute
:客户自定义属性表- 可以选择的字段在【系统设置-基础设置-属性】中查看
identity
:客户身份表- type:身份类型,如手机号、邮箱等
- value:身份值
customer_event
:客户事件表- 可以选择的字段在【系统设置-基础设置-事件】中查看
full_order
:客户订单表wechat_fans
: 微信粉丝表- 自定义对象表,在【系统设置-基础设置-自定义对象】中查看对应的对象ID,如
c_car
等
注意:导出任务的GDQL语句中如果包含加密列,则不支持select *
的写法,需要明确指定要导出的字段。
同步设置
设置导出路径
支持默认和自定义两种模式。
默认模式下,系统会自动在设置的根路径的基础上按/{tenant-id}/{export-task-id}/{yyyyMMdd}/
格式生成路径。如果根路径设置为/export
,任务所在租户为1,任务执行日期为2024-09-10,任务ID为task-1234,则最终输出文件会存放在/export/1/task-1234/20240910/
下面。
在自定义模式下,路径完全自定义指定,路径中可以使用{YYYYMMDD},最终DM Hub会将路径设置为导出时的具体日期。
自定义路径支持一下日期通配符:
日期通配符 | 示例 |
---|---|
{YYYYMMDD} | 20240910 |
{YYYY-MM-DD} | 2024-09-10 |
{YYYY/MM/DD} | 2024/09/10 |
{YYYYMMDD,-1} | 20240909 |
{YYYY/MM/DD,-1} | 2024/09/09 |
{YYYYMMDD,1} | 20240911 |
{YYYY-MM-DD,2} | 2024-09-12 |