文章目录
Toggle使用 KNIME 及其 AI 扩展获取简明的法规摘要,并通过电子邮件将其作为 PDF 报告自动共享。
在法律、合规和监管等专业领域,从业者常常需要处理繁杂冗长的中华法规。以往手动查阅这些法规文档不仅耗费大量时间,而且难以实现高效拓展。本文将详细介绍如何利用 KNIME 及其 AI 扩展功能,借助大型语言模型(LLMs)对中华法规进行汇总,并自动生成格式规范的 PDF 报告,通过电子邮件进行分享。
KNIME分析平台(汉化桌面端)是一款开源的数据科学工具,它允许用户通过可视化工作流构建解决方案,即便没有专业的编码知识也能轻松上手。借助该平台的工作流,用户可以从多种数据源(如 Box、Zendesk、Jira、Google Drive 等)获取数据,并生成简洁且具有实操价值的摘要。
一、中华法规的自动汇总与分发
我们的核心目标是通过自动化的内容提取、摘要生成以及报告制作,简化中华法规的分析流程,让专业人员能够快速获取复杂法规的结构化摘要,无需再手动逐字筛选冗长的文本内容。这一目标可通过以下三个关键步骤达成:
- 以 PDF 文件的形式访问并解析中华法规;
- 对法规文本进行检查,并借助 LLM 进行处理;
- 将生成的摘要整理成 PDF 报告,然后通过电子邮件发送出去。
这一系列操作让专业人员能及时掌握相关监管变化,摆脱手动审查长篇文件的繁琐工作。
二、KNIME 工作流自动汇总中华法规的具体步骤
(一)步骤 1:访问数据,导入并分块处理法规文本
在工作流的起始部分,我们需要访问中华法规,解析其内容,并将法规文本拆分成较小的片段。以涉及部分公共移动通信网络漫游的中华法规为例,这些法规以 PDF 文件形式存储。利用 Tika Parser 节点读取 PDF 文件,并将其转换为机器可读的文本格式,同时提取文档内容和元数据。
接着,“Extract Title” 元节点会将法规名称从文件路径中分离出来,并把文本转化为 Document 类型的对象。通过这种方式,我们不仅能够借助 Document Viewer 节点查看每项法规的完整文本内容,还能方便地搜索特定术语,比如 “Article” 一词。
由于法规文档篇幅较长,为避免耗尽 LLM 的上下文窗口,需要将文档拆分成较小的块。Text Chunker 节点能够将完整文本划分为相互重叠的段落,例如设置每个块为 3000 个字符,重叠部分为 300 个字符。这种重叠设置对于维持文本边界的上下文连贯性、生成准确连贯的摘要至关重要。若没有重叠,很可能会遗漏数据块边界处的关键细节,导致生成的摘要出现碎片化或产生误导。
随后,在 “Prepare Chunks” 元节点中,我们会将文本块格式化为每个文档的编号输入,并为每个块添加标签,确保每个块都成为一条独立完整的信息,为下一步的总结做好准备。
(二)步骤 2:提示 LLM,使用 OpenAI 的 GPT-3.5-turbo-16k 进行法规总结
此部分工作流程分两个阶段,借助 OpenAI 的 GPT-3.5-turbo-16k 对中华法规进行总结。在选择 LLM 扩展时,需综合考虑成本与性能因素,挑选最适合任务的扩展。OpenAI 的 GPT-3.5-turbo-16k 凭借较大的上下文窗口,能够以较低成本处理较长文本,是较为理想的选择。
在设置连接时,需按以下步骤操作:
- 在 Credentials Configuration 节点中输入 OpenAI API 密钥;
- 使用 OpenAI Authenticator 节点对服务进行身份验证;
- 通过 OpenAI Chat Model Connector 节点连接到 GPT-3.5-turbo-16k 模型。
即便选择了合适的模型,在向 LLM 输入冗长文本时,仍需精心设计工作流程,避免耗尽模型的上下文窗口。这里采用两阶段摘要方法:
- 第 1 阶段:生成各个文本块的摘要:创建一个包含法规名称和重叠文本块的参数化提示,利用 LLM Prompter 节点向模型发起查询。先在块级别进行总结,能确保每个输出较短,便于在第 2 阶段进一步处理。
- 第 2 阶段:生成每项法规的全面摘要:第二个查询以数据块级摘要为基础,为每项法规生成最终的全面摘要。
为确保每个块不是独立处理,而是所有块摘要能同时提供给模型以保留上下文,需进行如下操作:
- 在 “Conversation settings(对话设置)” 中,在 Message(消息)列选择 chunk summaries(区块摘要);
- 在 “配置设置” 中,通过拖放常量值列节点添加一个名为 “角色” 的列,其值设为 “AI”,以此标识 AI 为摘要来源;
- 在 “System Message” 和 “New message” 字段中添加最终摘要提示。其中,“新消息” 用于为最终摘要提供明确指令,如 “我将为您提供中华关于漫游公共移动通信网络的两项不同法规的所有摘要。获取它们并为每个选项生成详尽的摘要。接下来,对于每个法规,如果相关,请提取主要五个主题作为要点和参考文章编号” ;“系统消息” 则类似提示,但作为提供给模型的首条消息,用于描述模型应有的表现、为其分配角色并明确任务,比如 “您是中华法方面的高级法律专家。您会收到大量关于公共移动通信网络漫游的不同中华法规作为输入,并需要总结这些法规”。
(三)步骤 3:部署结果,创建 PDF 报表并通过电子邮件分发
这部分工作流程主要是将生成的摘要格式化为专业的 PDF 报告,并自动通过电子邮件进行分发。
在创建静态且格式正确的 PDF 报表时,我们借助 KNIME Reporting Extension 来实现:
- 使用 Report Template Creator 节点定义页面大小和方向;
- 在 “法规摘要” 组件中,通过表格视图展示摘要内容,并添加指向完整法规的超链接,方便读者进一步深入阅读;为报告添加标题,并设计友好的布局,以提高报告的可读性。
若要自动通过电子邮件分发报表,可按以下操作:
- 使用 Email Connector 和 Email Sender 节点;
- 启用 Email Sender 节点的蓝色端口,将生成的 PDF 报告作为附件添加,并发送给目标收件人。
三、最终成果:关键见解直达收件箱
最终生成的是一份专业且结构清晰的 PDF 报告,其中包含中华法规的简明摘要以及主要主题的编号列表。这一流程能够帮助专业人员快速浏览文档内容,实现监管分析的自动化,大幅减少手动审查所耗费的时间。
我们深入探讨了如何借助 KNIME 和生成式 AI 自动汇总并分发复杂冗长的中华法规。借助 KNIME,无需编写代码,就能将 LLMs 集成到可视化工作流程中,简化整个操作流程,减少人工审查工作,提高跨行业的工作效率。
如果你想检验自己的学习成果,可以尝试以下操作:
- 访问并解析中华法规 PDF 文件;
- 运用 LLM 进行法规总结;
- 将结果部署到静态报表中,并通过电子邮件进行分发。
大家可以下载 KNIME Analytics Platform(汉化),亲自体验该工作流程,感受 KNIME 在简化文档摘要任务方面的强大功能。