airbyte cloud使用体验简单分享

前言

airbyte是海外兴起的数据迁移同步工具。这个在海外数据整合赛道玩家浅析中有过简单提及,今天我们将主要从产品维度更加细致的对airbyte进行了解。Airbyte现在也提供了SAAS服务,方便我们快速对其产品化有个直观理解。

整体布局

image.png
页面上整体比较干净和有设计感,左右分栏来展示其核心的内容:

  • workespace: 一个dashboard关联一个工作区。工作区内的资源可以在多个租户间共享。

image.png

  • Onboarding: 这个是个引导步骤,提供了引导视频,按照其流程操作后用户能较快地构建一个data pipeline
  • **Connections: **source和destination定义了一个connection
  • Source: 相当于定义源端数据源,还可以查看该数据源下的connection
  • Destination: 相当于定义对端数据源,可以查看关联该对端的connection
  • 400:这个是余额,airbyte用其自己的代币表示剩余的额度,可以在改页面查看额度使用
  • Resource: 文档、社区资源跳转

image.png

  • **Support: **提交工单、在线咨询

image.png

  • **Settings: **用户设置、访问权限、源对端插件信息。这里可以看到airbyte完全插件化的设计

image.png

创建connection (MySQL->MySQL)

创建源端数据源

类似fivetran,由于不同数据源的配置参考的文档均不同,国外现在很流行这种文档功能整合在一起的方式
image.png

创建对端数据源

image.png

设置Connection

image.png
该connection提供能力相比国内一些数据同步产品例如CloudCanal侧重的点还是有所不同,主要更加面向分析场景。需要关注的一些点如下:

映射能力不强

  • 完全自定义的表映射(只能用前缀映射)
  • 完全自定义的列映射(只能同名映射)

新增订阅能力不进行完整全量、增量迁移同步

airbyte本身存储用户schema的快照,可以刷新源端schema获取最新的源端表结构信息,来新增订阅。但是新增的订阅不会自动跑全量或者增量。

不支持一体化的全量、增量迁移同步

选择的stream只能选择incremental或者full,没法一体化协调工作。

总结

本次只是稍微简单用了下,不过对其产品全貌已经有了基本的认知,稍微总结下其优缺点如下:

优点

  • 产品文档优秀,并且结合产品的方式用户使用起来比较友好
  • 有顶层设计,并且一直遵循去实践。比如其提出的airbyte-protocol
  • 面向分析场景,有对transformation的良好支持
  • 插件化、标准化的reader和writer体系,灵活、可扩展、生态友好
  • 对开发者生态友好,支持开发者自定义接入reader和writer

缺点

  • 更加适合离线业务、分析业务,例如缺乏下面一些在线业务需要用到的特性
  • 全量增量一体化任务不支持
  • 修改订阅不支持全量增量一体化的新增订阅
  • 不支持完全自定义的库表列映射能力
  • 缺乏一些人性化的能力,例如结构迁移
  • 用户对任务掌控能力较弱,不支持更多的性能配置、增量位点控制等
  • 缺乏数据质量方面的能力,例如数据校验和数据订正