我们很高兴地宣布 WhaleStudio 2.6 版本的正式发布!新版本中包含了数据调度模块 WhaleScheduler 和数据集成模块 WhaleTunnel 的百余项核心功能更新,本文摘选了 WhaleScheduler 常用功能更新的概况,关于 WhaleTunnel 的更新详情将于近期发布,欢迎关注!
WhaleStudio中的调度模块WhaleScheduler作为一款全球领先的数据工作流调度系统,一直致力于为用户提供更加高效、便捷的功能。本次版本更新,我们特别优化和增强了多个功能模块,解决了许多用户在日常工作中遇到的实际问题,详情欢迎扫描文末二维码咨询。
WhaleScheduler
WhaleScheduler是白鲸开源Apache DolphinScheduler核心研发团队打造的新一代调度工具,继承了开源使用简单、分布式、易扩展的优点,同时加入大量商业版本功能,支持多云、信创环境的数据源与环境部署。
实时任务管理支持
现在越来越多的用户开始使用实时数据仓库,从数据CDC抽取到数据实时加工及展示,从而支持风控、经济业务、银行在线分析等实时场景。在2.6版本中,我们还新增了对多种实时任务的全面支持,用户可以更便捷地进行编辑、管理、控制和删除操作,全面升级用户实时数据仓库开发能力。这些实时任务包括:
Spark Streaming
Flink Streaming
WhaleTunnel Streaming(CDC)
Java Jar
此外,我们为上述任务提供了高级配置与编辑功能:
Jar任务托管: 可以在资源中心/Git中进行托管并进行部署运维。
Flink实时组件配置: 支持Flink实时组件的原生参数配置。
WhaleTunnel CDC任务: 可以进行参数传递,包括循环调用。
工作流复制功能增强
另一方面,随着用户的产品越来越多,帮助用户提高工作流使用的便捷性,是2.6版本中的重要目标。在日常工作中,您是否经常遇到这样的场景?不同项目使用的表和处理过程非常相似,然而在使用工作流复制功能时,却发现其中的逻辑节点和子节点无法被复制。这给很多用户带来了不便和额外的工作量。为了解决这个问题,WhaleStudio 2.6版本新增复制逻辑任务节点、支持级联复制子工作流、跨项目复制子工作流功能:
01支持复制逻辑任务节点
在2.6版本中,工作流复制功能得到了显著增强。现在,您可以轻松地复制包含逻辑任务节点的工作流。这意味着,即使工作流中包含复杂的逻辑判断和处理节点,也可以在不同项目中快速复用,极大地提高了工作效率。
02级联复制子工作流
另一个令人激动的改进是,当工作流中包含子工作流时,复制操作将支持级联复制子工作流。这意味着,整个工作流结构,包括所有嵌套的子工作流,都可以一并复制,不再需要手动一个一个节点进行复制。这项功能不仅简化了操作流程,还确保了工作流的一致性和完整性。
03支持跨项目复制子工作流
在2.6版本中,工作流复制功能进一步增强,新增支持跨项目复制工作流。现在,您可以轻松地将工作流从一个项目复制到另一个项目中,实现资源和配置的跨项目共享,进一步提升了工作效率和项目协同能力。
依赖任务功能增强
为了提升依赖任务(DEPENDENT)的灵活性和易用性,我们在2.6版本中进行了多项改进:
弱依赖模式: 为了提高任务调度的灵活性,我们新增了任务组件的运行标志“失败继续”的弱依赖模式。在这种模式下,当前任务节点执行失败(例如等待1小时还为满足要求,而失败)不会阻断当前流程,后续任务将正常提交执行。
业务日期修改为牌日期: 明确表示当选择牌日期时将会根据依赖规则在当前工作流的牌所使用的日历上进行查找对应业务日期。
新增月维度的时间依赖选项: 牌日期依赖新增了月纬度的时间选项,增加了时间依赖的灵活性。
依赖所有任务(ALL): 不再单独检查任务状态,而是检查整个工作流的执行状态。被依赖的工作流中的任务可以修改和删除了。
依赖检查优化: 依赖检查时不再取“最后结束时间”而是取“最后开始时间”作为判断最新实例的条件,避免后启动的实例先完成而导致依赖判断出错的问题。
自然日时间依赖不使用日历:自然日的时间依赖现在无需使用日历,简化了依赖设置。
多种任务功能增强
为了进一步提升任务功能的多样性和灵活性,我们在2.6版本中进行了多项增强:
01SQL任务
优化了SQL任务的参数传递。在SQL任务中设置传出参数时,现在能够获取并向后传递多行的返回结果。这一改进大大增强了SQL任务的灵活性和实用性,使得处理复杂查询和数据传递更加方便。
02DATA QUALITY任务
在2.6版本中,DATA QUALITY任务得到了显著增强。现在,您可以使用参数变量替换表名和过滤条件中的部分字符,从而可以使用循环节点或者前面的SQL节点的内容来批量控制数据质量。这使得数据质量管理更加动态和灵活。
03BREAK任务
新增了BREAK逻辑任务节点。该节点允许在执行到此节点时自动暂停流程并发送告警通知,从而让用户可以手工参与到工作流的安排中。这一功能使得工作流调度更加灵活,并能够及时响应和处理异常情况。
04资源池任务优先/工作流优先任选
在 2.6版本中,我们对资源池配置进行了优化,增加了优先策略设置。用户现在可以选择任务优先或工作流优先,这将影响任务在资源池队列中的排序规则。特别是当选择工作流优先时,系统将保证先提交的工作流优先完成。这一功能优化了资源分配和任务调度策略,使调度过程更加高效和合理。
影响分析与展示性能优化
为了提升用户体验和系统性能,2.6版本在整体展示性能上进行了显著优化,现在画布可支持同时展示数千个节点。此外,我们对展示范围和逻辑进行了重构:
展示范围更新:仅展示处于依赖链条上的节点,减少不必要的节点显示,提高画面清晰度和操作性能。
展示逻辑重构:以起点(被搜索节点)为中心,按依赖关系的层数由近到远进行展示。具体如下:
x轴:节点与起点的相隔层数关系,同一层数的节点在同一列。
y轴:以工作流为纬度,展示节点与起点的相隔关系。
画布布局:左侧展示节点的父关系链路,右下侧展示节点的子关系链路。
同时我们对页面的搜索逻辑进行了优化,改进了搜索返回结果的方式。当搜索工作流或节点时,结果将分批返回,提升了搜索效率和页面响应速度。
工作流导入导出及管理优化
我们还改进了工作流的导入导出功能以及管理体验,确保用户在操作时更加便捷和安全:
01工作流导入新增权限校验
在导入工作流时,新增了权限校验功能。如果您没有文件内工作流配置中引用资源或配置的使用权限,将无法成功导入到目标项目中。这一改进提高了系统的安全性和数据完整性,也避免导入数据后因为权限原因无法执行。
02工作流Excel导入导出模版更新
我们更新了工作流的Excel导入导出模版,使操作更加直观和易用,进一步提升了用户体验。这样在维护上万个工作流的时候,维护好Excel模板就可以快速导入导出。
03工作流上下线
现在,工作流上线后允许用户打开查看工作流内的配置信息。这样您可以在工作流上线后依然检查和查看其详细配置,确保一切运行如预期,而不用先下线才能看工作流内部信息。
04工作流列表优化
我们调整了工作流定义名称列的宽度比例,并增加了列表中每列的宽度上限。这样,即使某些列内容较少,也不会导致某些列特别宽,整体界面更加美观和协调。
小结
WhaleScheduler 2.6版本中,我们发布了多达78项核心功能的更新,旨在全面提升用户体验和系统性能。本次升级涵盖了工作流复制、实时任务管理、导入导出管理、多种任务功能、DEPENDENT任务增强、资源池配置优化,以及影响分析与展示性能优化等多个方面,本文仅摘选了2.6版本当中的一些常用功能更新。
白鲸开源
白鲸开源是一家开源原生的DataOps商业公司,是国家高新技术企业,由多个Apache Foundation Member成立,80%员工都是 Apache Committer,运营2个全球Apache开源项目(DolphinScheduler, SeaTunnel)。白鲸开源已根据全球最佳实践发布商业版产品WhaleStudio(含白鲸数据调度平台WhaleScheduler和白鲸数据集成平台WhaleTunnel)。我们致力于打造下一代开源原生的DataOps 平台,助力企业在大数据和云时代,智能化地完成多数据源、多云及信创环境的数据集成、调度开发和治理,以提高企业解决数据问题的效率,提升企业分析洞察能力和决策能力。
如果您希望深入了解我们的其他功能,或者讨论如何将 WhaleStudio 与你的业务流程相结合,我们非常愿意为你提供帮助。欢迎您首先试用白鲸调度系统(WhaleScheduler),开始您的大数据之旅。
运营开源项目
目前,白鲸开源科技运营维护着已经从 Apache 基金会毕业的大数据工作流调度平台 Apache DolphinScheduler,以及数据集成平台 Apache SeaTunnel,诚邀全球伙伴加入开源共建!