AI与KNIME 相遇：借助 XML 对比工作流

引言

在数据科学领域，KNIME 作为一款强大的工作流自动化工具，通过 XML 文件格式保存工作流，完整记录所有配置与连接，为数据分析和记录提供了便利。本系列博客聚焦于 AI 与 KNIME 的结合应用，本文将深入探讨如何利用大型语言模型（LLMs）开展工作流 XML 分析，特别是通过 XML 比较来洞察工作流之间的差异。

LLMs 在 XML 比较中的关键作用

大型语言模型（LLMs）革新了文本数据的处理与分析方式，其应用范畴已延伸至 XML 等结构化数据格式的理解。以下是 LLMs 在比较 KNIME 工作流方面的具体作用：

自然语言理解：LLMs 能够解读 XML 标签和属性的语义，使其不仅能理解数据结构，还能把握数据含义，这对于理解工作流中环境的变化至关重要。
环境感知：在对比两个 XML 文件时，LLMs 可借助对环境的理解，识别差异及其产生的影响。例如，工具配置的变更可能在工作流中引发下游效应。
提示工程：用户通过设计特定提示，可引导 LLMs 聚焦于 XML 的特定方面，如工具配置或连接，这种有针对性的方式能在比较过程中生成更具相关性的见解。
错误检测：LLMs 可以通过将预期配置与实际 XML 表示进行比较，协助识别工作流中可能存在的错误或不一致之处。

前期准备要点

在开启 AI 的有趣应用之前，有几个关键要点需要考虑：

XML 结构：深入熟悉 KNIME XML 文件中的常见元素，如工具、连接和配置设置等，这些元素是进行比较工作的基础。
LLM 训练：探讨如何对 LLMs 进行微调或通过提示使其理解特定的 XML 结构，由于 LLMs 并非完美无缺，需要进行微调才能获得期望的输出。
比较技术：探索比较 XML 文件的不同策略，包括差异的可视化呈现和优化报告的生成。
用户体验：思考这种方法如何提升用户体验，尤其是对于可能不熟悉 XML 的用户。

使用 LLMs 比较 KNIME 工作流的方法

第一步：从 KNIME 工作流中提取 XML

假设有两个需要比较的工作流，在此示例中，创建了两个名为 WF1 和 WF1_v2 的工作流，它们包含一些工具和随机过程。拥有两个工作流后，可通过记事本或记事本 ++ 打开它们，并将其保存为 XML 文件。

第二步：加载 XML 文件

接下来，将 XML 文件加载到所选的 LLM 中，这里选择使用 Poe！启动该过程的提示如下：

初始提示：“目标：通过 XML 差异比较两个 KNIME 工作流之间的差异。行动：我将提供两个用于比较的工作流 XML。”
高级提示：“WF1_xml 包含原始工作流，WF1_v2_xml 是 WF1 的修改版本。请研究这些文件，并简要概述两者的差异。”
加载 XML 文件后，查看 LLM 生成的输出，重点关注其关于变化、影响以及任何潜在错误的见解。此外，还可以尝试使用不同的提示词，以下是一些示例：
这两个工作流 XML 之间的显著差异是什么？
解释工具配置更改可能对整体工作流程的影响。
根据以下 XML 结构识别任何潜在错误。

高级功能

可视化差异

为了更深入地理解比较结果，需要对练习的输出进行更多思考，可从比较的 XML 中生成可视化和报告。尽管 LLMs 能够生成图像，但可能会出现乱码文字的问题。鉴于此，不妨转向 Python 代码，使用 Python 代码不仅便于测试和查看结果，而且代码还附带了一些文档。运行 Python 代码后，可查看输出，该代码突出了 WF1 和 WF1_v2 的位置，并指出了在过滤器工具中进行的表达式更改，为进一步研究提供了方向，需要进行更多实验。

差异说明

可视化差异有助于快速掌握整体情况，但细节往往决定成败。设想这样一种场景：在一个工作流中，有超过 100 个工具，每个工具在表达式、设置和工具配置的选择方面都发生了变化，这将使比较工作变得困难重重。而 LLMs 在此就能发挥重要作用，可尝试提出如下目标：“我希望有一个报告，列出在表达式、工具配置、工具位置以及工具容器是否存在等方面的差异。请列出它们并解释发生了什么变化，并对变化进行分析 —— 是否优化了 —— 并解释为什么推荐这些更改。”

结论

将人工智能集成到 KNIME 工作流程分析中，能够提升工作效率和分析的清晰度。通过使用大型语言模型（LLMs）检查 XML 文件，我们可以轻松识别变化，并深入了解数据处理过程。这种方法简化了工作流程的比较，并使文档流程化。建议采用这些技术来优化 KNIME 项目，改进数据管理实践。如今，每个人都可以使用这个解决方案，开启更高效的数据工作之旅。