airbyte cloud使用体验简单分享
前言
airbyte是海外兴起的数据迁移同步工具。这个在海外数据整合赛道玩家浅析中有过简单提及,今天我们将主要从产品维度更加细致的对airbyte进行了解。Airbyte现在也提供了SAAS服务,方便我们快速对其产品化有个直观理解。
整体布局
页面上整体比较干净和有设计感,左右分栏来展示其核心的内容:
- workespace: 一个dashboard关联一个工作区。工作区内的资源可以在多个租户间共享。
- Onboarding: 这个是个引导步骤,提供了引导视频,按照其流程操作后用户能较快地构建一个data pipeline
- **Connections: **source和destination定义了一个connection
- Source: 相当于定义源端数据源,还可以查看该数据源下的connection
- Destination: 相当于定义对端数据源,可以查看关联该对端的connection
- 400:这个是余额,airbyte用其自己的代币表示剩余的额度,可以在改页面查看额度使用
- Resource: 文档、社区资源跳转
- **Support: **提交工单、在线咨询
- **Settings: **用户设置、访问权限、源对端插件信息。这里可以看到airbyte完全插件化的设计
创建connection (MySQL->MySQL)
创建源端数据源
类似fivetran,由于不同数据源的配置参考的文档均不同,国外现在很流行这种文档功能整合在一起的方式
创建对端数据源
设置Connection
该connection提供能力相比国内一些数据同步产品例如CloudCanal侧重的点还是有所不同,主要更加面向分析场景。需要关注的一些点如下:
映射能力不强
- 完全自定义的表映射(只能用前缀映射)
- 完全自定义的列映射(只能同名映射)
新增订阅能力不进行完整全量、增量迁移同步
airbyte本身存储用户schema的快照,可以刷新源端schema获取最新的源端表结构信息,来新增订阅。但是新增的订阅不会自动跑全量或者增量。
不支持一体化的全量、增量迁移同步
选择的stream只能选择incremental或者full,没法一体化协调工作。
总结
本次只是稍微简单用了下,不过对其产品全貌已经有了基本的认知,稍微总结下其优缺点如下:
优点
- 产品文档优秀,并且结合产品的方式用户使用起来比较友好
- 有顶层设计,并且一直遵循去实践。比如其提出的airbyte-protocol
- 面向分析场景,有对transformation的良好支持
- 插件化、标准化的reader和writer体系,灵活、可扩展、生态友好
- 对开发者生态友好,支持开发者自定义接入reader和writer
缺点
- 更加适合离线业务、分析业务,例如缺乏下面一些在线业务需要用到的特性
- 全量增量一体化任务不支持
- 修改订阅不支持全量增量一体化的新增订阅
- 不支持完全自定义的库表列映射能力
- 缺乏一些人性化的能力,例如结构迁移
- 用户对任务掌控能力较弱,不支持更多的性能配置、增量位点控制等
- 缺乏数据质量方面的能力,例如数据校验和数据订正