数据迁移同步工具的标准内核能力提炼

背景

现在国内外有很多厂商专注于构建现代化的数据集成工具,提炼现代数据集成工具的内核核心能力对于设计这类工具会具有一些启示作用。

产品侧

  • 数据源、机器、任务管理
  • 监控、报警、审计
  • 多租户
  • 任务阶段状态机
  • 异步任务执行
  • 任务创建
    • 整库迁移
    • 白名单勾选
    • 预检
    • 创建相似任务
  • 订阅编辑
  • 自动调度、任务容灾
  • 任务重跑
  • 各类组件日志、调度日志
  • 版本管理、升降级

内核侧

粗体标识的为较大的独立模块

  • 全量迁移
  • 增量实时同步
  • 定时任务
  • 校验任务
  • 订正任务
  • 库表列映射、裁剪
  • 时区处理
  • 条件过滤
  • 时间 0 值替换
  • 大小写处理
  • SSL
  • 异构类型系统(array、map、gis)
  • 广播、汇聚
  • 心跳(如果源端 binary log 不支持的话)
  • 统一的 meta 层定义
  • DDL
  • sql parser (服务于 DDL)
  • 可选的标准化处理插件
  • 异常跳过、skip log
  • 全列更新
  • 热点合并
  • 解耦版本依赖、支持 DS 多版本的
  • 高性能的二进制传输
  • json 转义