谋略天下让大模型基于「图像事实」说话：用事实文本+自适应编辑，让语言偏见无处遁形

多模态大模型看图，有时像在"脑补"。

比如明明是"人拿着头盔"，它偏说"人戴着头盔"——语言先验压过了视觉证据。

在大模型广泛走向真实应用的今天，大视觉语言模型（LVLM）虽然在图文理解与生成上进步飞快，但一个关键"信任危机"始终绕不开：对象幻觉（Object Hallucination）——模型会把图里没有的物体"编"出来，或把属性、关系说错。更麻烦的是，这类幻觉往往来自语言偏置（language bias）：模型更相信"语言先验"，而不是眼前的真实视觉证据。

近期一种很有前景的方向是：不训练、不微调，只在推理时编辑模型的内部激活（activation editing），用极低成本让模型"说真话"。但已有方法大多只在视觉侧做"退化 / 扰动"来构造编辑方向，忽略了一个更积极、更直接的信号——事实性的文本语义；同时也常用"同一条编辑向量"应对所有问题，难以处理不同问题关注点不同带来的偏置差异。

为了解决这些痛点，来自北航的研究团队提出了AFTER（Adaptive Factual-guided Visual-Textual Editing foR hallucination mitigation）：一种自适应、事实引导的视觉 - 文本激活编辑框架，在多个主流 LVLM 与标准基准上显著降低幻觉，并保持极低推理开销。

AFTER：用"事实"把激活拉回真实世界

团队提出的 AFTER 模型核心包含两个模块：

1. Factual-Augmented Activation Steering（FAS）：把标注"事实"变成正向编辑指南

以往方法常通过给图像加噪、模糊等方式得到"可信 / 不可信"的激活对比；而FAS 反其道而行：直接从数据的ground-truth 标注中提取事实，并把这些事实"文本化"，形成事实增强的文本描述，作为可信语义来源。FAS 的关键步骤包括：

事实抽取（覆盖三类幻觉）：把 COCO 数据集的目标类别、目标检测框等标注转成类别、属性和关系三类事实，其中：

类别事实包含有哪些目标对象；

属性事实包含目标的颜色、形状和数量等属性信息；

关系事实包含目标与目标间的重叠、空间关系等信息。

事实文本化：将离散事实组织成连贯的事实描述 t+。值得注意的是，这里只用于"整合事实"，不会在编辑后的模型推理中引入额外信息，保证公平对比。

构造正向编辑方向：用"事实文本输入"得到的激活与"原始图像输入"激活做差并平均，得到通用的、正向的视觉 - 文本编辑向量

2. Query-Adaptive Offset Optimization（QAO）：同一张图，不同问题，编辑也要"因题制宜"

现实交互里，同一张图可能被问到完全不同的重点：问"车顶上有什么"，和问"图里有几个人"，模型需要关注的视觉证据不一样——语言偏置的表现也不一样。QAO正是为此设计：在通用编辑向量的基础上，学习一个轻量的、问题自适应的偏移量（offset），实现更精细的编辑。QAO 的核心做法：

提取问题中提到的对象 / 概念，并从事实描述中抽取与之对应的"问题聚焦事实文本"；若问题提到的对象根本不在图里，则明确写出"不存在"。

以此构造"问题聚焦"的可信激活，并与原激活对比得到该问题的"最优编辑向量"；再减去通用向量得到期望 offset，训练一个单层 MLP 的 offset 估计器（训练高效且不需微调 LVLM）。

推理时，把"通用向量 + 预测 offset "应用到受语言偏置影响最大的 Top-K 注意力头，实现更精准的纠偏。

实验结果：显著超越现有方法，且几乎不增加推理负担

团队在三种主流 LVLM（LLaVA-v1.5、InstructBLIP、Shikra）上，使用多个标准幻觉基准进行评测（POPE、MME、AMBER）：

POPE（判别式）：平均Accuracy +4.1%、F1 +2.6%，并超过当时强力的激活编辑方法 ICT（Accuracy +1.3%、F1 +0.9%）。

MME 幻觉子集：相对原始模型，在三种 LVLM 上分别提升 45.0/46.6/73.4 分，且优于所有对比方法。

AMBER（生成式）：在 CHAIR 与 Hal 指标上平均分别降低 2.9%/12.6%；当应用到 Shikra 时，幻觉最高降低 16.3%，并且 Cover（回答覆盖度）几乎不变，说明"更真实"并没有明显牺牲"更全面"。

AFTER 不仅抑制幻觉，还能保持 / 增强基础视觉能力。在基础视觉 - 语言能力评估上，AFTER 也在多维度超过基线与 ICT，并在三种 LVLM 上带来平均+130.7的综合提升，说明 AFTER 并非"强行压制输出"，而是通过更可靠的视觉对齐带来整体收益。

此外，在对比多种推理时方法时，AFTER 同时做到"效果最好 + 推理最快"，速度可达29.7 tokens/s，显存占用也较适中（约 16.3GB）。

意义与前景：更可信的多模态助手，离落地更近一步

AFTER 的价值不只是"分数更高"，更在于它提供了一条非常实用的路径：

无需训练 / 微调主模型，以推理时激活编辑实现幻觉抑制，部署成本更可控；

用事实语义显式对抗语言偏置，比单纯"视觉扰动式"的编辑更直击问题本质；

问题自适应带来更细粒度、更稳健的纠偏，为真实交互场景（开放式提问、不同关注点）提供了关键能力。

团队也指出了未来方向：AFTER 依赖可访问的内部激活，因此更适用于开源模型；在医疗等强专业领域，还需要补充领域数据以进一步增强专业视觉感知与偏置抑制。

论文：

AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-guided Activation Editing

论文链接：

https://arxiv.org/pdf/2601.01957

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 � �

感兴趣的小伙伴欢迎关注 � � 了解详情

� � 点亮星标 � �

科技前沿进展每日见

配先查提示：文章来自网络，不代表本站观点。

谋略天下让大模型基于「图像事实」说话：用事实文本+自适应编辑，让语言偏见无处遁形

云策略寻找未被满足的临床需求（3）：HR+_HER2-BC：多种新机制药物有望_治疗_患者_化疗

掌尚策二季报点评：华夏医药ETF基金季度涨幅339%

米配资 1945年蒋介石撵走所有警卫夜访毛泽东，主席卫士直言：这是老蒋的又一次精心表演吗？

掌尚策二季报点评：华夏医药ETF基金季度涨幅339%

万光证券家族信托“金钟罩”，何以被宗馥莉拿住“命门”？

趣操盘冯仑：关于非洲房地产考察的几点思考

创同配资知名女演员宣布结婚并怀孕！男方为小8岁模特