用大模型吃瓜更智能了！阿里通义实验室提出新时间线总结框架

菲龙网编辑部7 发表于 2025-1-8 09:25

用大模型吃瓜更智能了！阿里通义实验室提出新时间线总结框架

Chronos团队投稿量子位 | 公众号 QbitAI
现在，大模型可以帮你梳理新闻时间线了，以后吃瓜就更方便了！
AI Agent的风，咱们赛博乐子人也得吹吹。
这就是来自阿里巴巴通义实验室上海交通大学的新研究，他们提出了一种基于Agent的新闻时间线摘要新框架——CHRONOS
它不仅可以帮你从海量新闻中总结出重要事件，更重要的是，它还可以梳理出清晰的时间线，以后上网冲浪时各种复杂事件都一目了然。

其中的CHRONOS一词取自希腊神话中的时间之神柯罗诺斯。

该框架通过迭代多轮的自我提问方式，结合检索增强生成技术，从互联网上检索相关事件信息，并生成时间顺序的新闻摘要，为新闻时间线摘要生成提供了一种全新的解决方案。
先来一起瞅瞅几个例子。
比如对于新闻“国足1-0巴林”，CHRONOS能够总结海量新闻，呈现事件的来龙去脉。

对于覆盖时间更长的新闻“中国探月工程”，CHRONOS也能聚焦重点事件，呈现时间线发展，使得用户能够一目了然。

补齐开放域TLS短板
时间线总结（Timeline Summarization, TLS）任务是一种自然语言处理领域的经典技术挑战，它旨在从大量文本数据中提取关键事件，并按时间顺序排列，以提供对某一主题或领域历史发展的结构化视图。
例如，在新闻领域，时间线总结可以帮助用户快速了解一个新闻事件的来龙去脉。该任务不仅要求识别出重要的事件，还需要理解事件之间的时间关系和因果联系，以便生成一个连贯、简洁且信息丰富的时间线摘要。

根据可检索事件的来源，可以将TLS任务细分为封闭域（closed-domain）和开放域（open-domain）两个设定：在封闭域TLS任务中，时间线是从一组预定义的、与特定主题或领域相关的新闻文章中创建的，而开放域TLS指的是从互联网上直接搜索和检索新闻文章来生成时间线的过程。
过去的工作主要集中于解决封闭域上时间线生成问题，而开放域TLS则需要强大的信息检索和筛选能力，以及在没有全局视图的情况下识别和建立事件之间联系的能力，为这项任务提出了新的要求和挑战。
迭代检索的CHRONOS框架
为了应对上述挑战，团队提出CHRONOS框架，通过迭代提问进行相关事件检索，生成准确、全面的时间线摘要，能够有效地解决开放域和封闭域两种设定下的TLS任务。
1. 动机
时间线生成的核心在于建立事件之间的时间和因果关系。
每个新闻事件都可以被表示为一个不同的节点，任务的目标是建立这些节点之间的边，以展示它们的相关性，并最终形成一个异构图，从主题新闻的节点开始。
因此，通过一个检索机制来检索相关的新闻文章，可以有效建立这些边，形成事件之间的联系。
2. 概述
CHRONOS利用大模型的能力，通过模拟人类信息检索的过程，即通过提出问题、基于检索结果进一步提出新的问题，最终收集关于相关事件的全面信息并总结为时间线。

CHRONOS包括以下几个模块：
自我提问 (Self-Questioning)：首先搜索粗粒度的新闻背景信息，然后迭代地提出问题，以检索更多相关新闻。
问题改写 (Question Rewriting)：将复杂或表现不佳的问题分解为更具体、更易检索的查询。
时间线生成 (Timeline Generation)：通过合并每一轮检索生成的时间线来总结一个突出重要事件的时间线。
3. 自我提问
3.1 粗粒度背景调研
在自我提问的初始阶段，CHRONOS使用目标新闻的标题作为关键词进行搜索，以收集与目标新闻最直接相关的信息。
这些信息构成了新闻背景（News Context），为自我提问打下初步基础。
3.2 提问示例选择
在粗粒度背景调研之后，CHRONOS利用大模型的上下文学习能力，通过少量样本提示来指导模型生成关于目标新闻的问题。
为了评估问题样本质量，引入了时序信息量（Chrono-Informativeness, CI）的概念，用来衡量模型提出的问题检索与参考时间线对齐事件的能力，即高CI值的问题更有可能引导检索到与目标新闻事件相关的文章，用检索生成的时间线和参考时间线中包含日期的F1分数进行衡量。
基于最大化问题集时序信息量的目标，构建一个“新闻-问题”的示例池，用于指导新目标新闻的问题生成。
对于每个新的目标新闻，通过余弦相似性动态检索与目标新闻最相似的样本，确保了样本的上下文相关性和时间信息的准确性。
3.3 迭代提问
CHRONOS通过连续迭代提问，逐步深入探索事件的细节。
每一轮迭代都基于前一轮的检索结果，以发现新的问题和信息，直到满足时间线中事件数量或达到最大迭代次数。
3.4 问题改写
查询改写（Query Rewriting）是检索增强生成中常用的优化方法。
在CHRONOS框架中，团队通过对初始提问阶段产生的宽泛或复杂问题改写为2-3个更易于检索的子问题，能够生成更具体、更有针对性的查询，从而提高搜索引擎的检索效果。
他们同样在提示中加入少量样本，指导大模型进行有效改写，将复杂问题转化为更具体的查询，同时保持问题的原始意图。
3.5 时间线生成
CHRONOS通过两阶段生成完整的时间线总结：生成（Generation）和合并（Merging）。
生成：通过分析每一轮检索到的新闻文章来识别关键事件和详细信息。利用大模型的理解和生成能力，提取每个事件的发生日期和相关细节，并为每个事件撰写简洁的描述。这些事件和描述被组织成初步的时间线，按照时间顺序排列，为后续的合并阶段提供基础。
合并：将多轮检索生成的初步时间线整合成一个连贯的最终摘要。这一过程涉及对齐不同时间线中的事件、解决任何日期或描述上的冲突，并选择最具代表性和重要性的事件。
全新数据集OPEN-TLS
为了评估TLS系统，研究团队还收集了由专业记者撰写的关于近期新闻事件的时间线，构建了一个名为Open-TLS的新数据集。
与以往封闭域的数据集相比，Open-TLS不仅在数据集规模和内容上更加多样化，覆盖政治、经济、社会、体育和科学技术等多个领域，而且在时效性上更具优势，为开放域TLS任务提供了一个更全面和更具挑战性的基准。

实验结果
1. 实验设定
实验基于GPT-3.5-Turbo、GPT-4和Qwen2.5-72B分别构建CHRONOS系统，评测开放域和封闭域两个设定下TLS的性能表现。使用的评估指标主要有：
ROUGE-N: 衡量生成时间线和参考时间线之间的N-gram重叠。具体包括：（1）Concat F1：通过将所有日期摘要连接起来计算ROUGE，以评估整体的一致性；（2）Agree F1：仅使用匹配日期的摘要计算ROUGE，以评估特定日期的准确性；（3）Align F1：在计算ROUGE之前，先根据相似性和日期接近性对预测摘要和参考摘要进行对齐，评估对齐后的一致性。
Date F1：衡量生成时间线中日期与参考时间线中真实日期匹配程度。
2. 开放域TLS
在开放域TLS的实验中，CHRONOS与几个基线方法进行了比较，包括直接搜索目标新闻（DIRECT）和重写目标新闻以创建查询用于检索（REWRITE）。
对比之下，CHRONOS通过迭代自我提问和检索相关新闻文章的方法，显著提高了事件总结的质量和日期对齐的准确性，在所有指标上都领先于基线方法

3. 封闭域TLS
在封闭域TLS的实验中，CHRONOS与之前的代表性工作进行了比较，包括：（1）基于事件聚合方法的CLUST (Gholipour Ghalandari and. Ifrim, 2020);（2）基于事件图模型EGC（Li et al., 2021）和（3）利用大模型进行事件聚类的LLM-TLS（Hu et al., 2024）。
在Crisis和T17这两个经典数据集上的比较结果显示，CHRONOS达到了与这些工作类似的表现，在两个数据集的AR-2指标上取得了SOTA效果，证明了其在不同类型事件和时间跨度上的强大性能和适应性。

4. 运行时间分析
CHRONOS的另一个优势体现在效率方面。
与同样基于大模型、但需要处理新闻库中所有文章的LLM-TLS方法相比，它通过检索增强机制专注于最相关的新闻文章，显著减少了处理时间
这种效率的提升使其在实际应用中更为实用，尤其是在需要快速响应的场景中。

案例研究：苹果产品发布时间线
团队深入分析了模型在处理具体新闻事件时的表现，通过选择具有代表性的新闻事件，如苹果公司的重大产品发布，能够观察到CHRONOS如何通过由浅入深的自我提问和信息检索来生成时间线。
在案例研究中，CHRONOS展示了其能够准确提取关键事件和日期的能力，同时也揭示了在某些情况下可能需要改进的地方，例如对某些事件的遗漏或日期幻觉。

结语
CHRONOS框架通过结合大型语言模型的迭代自我提问检索增强生成技术，为时间线总结任务提供了一种新颖且有效的解决方案。
这种方法的核心在于模拟人类的信息检索过程，通过不断地提出和回答新问题来逐步深入理解事件，最终生成一个全面且连贯的时间线摘要。
实验结果已经充分证明了CHRONOS在复杂事件检索和构建时间线方面的能力，展示了该框架在实际新闻时间线生成应用中的应用潜力和准确性。
同时，这种迭代提问的检索生成方法是否具有泛化到通用任务上的能力也值得未来进一步研究。
论文：https://arxiv.org/abs/2501.00888
Github:https://github.com/Alibaba-NLP/CHRONOS
Demo:https://modelscope.cn/studios/vickywu1022/CHRONOS
Reference:
Demian Gholipour Ghalandari and Georgiana Ifrim. 2020. Examining the state-of-the-art in news timeline summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 1322–1334, Online. Association for Computational Linguistics.
Manling Li, Tengfei Ma, Mo Yu, Lingfei Wu, Tian Gao, Heng Ji, and Kathleen McKeown. 2021. Timeline summarization based on event graph compression via time-aware optimal transport. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 6443–6456, Online and Punta Cana, Dominican Republic. Association for Computational Linguistics.
Qisheng Hu, Geonsik Moon, and Hwee Tou Ng. 2024. From moments to milestones: Incremental timeline summarization leveraging large language models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 7232–7246, Bangkok, Thailand. Association for Computational Linguistics.

页: [1]

菲龙网's Archiver

用大模型吃瓜更智能了！阿里通义实验室提出新时间线总结框架