
多模态大模型看图,有时像在"脑补"。
比如明明是"人拿着头盔",它偏说"人戴着头盔"——语言先验压过了视觉证据。

在大模型广泛走向真实应用的今天,大视觉语言模型(LVLM)虽然在图文理解与生成上进步飞快,但一个关键"信任危机"始终绕不开:对象幻觉(Object Hallucination)——模型会把图里没有的物体"编"出来,或把属性、关系说错。更麻烦的是,这类幻觉往往来自语言偏置(language bias):模型更相信"语言先验",而不是眼前的真实视觉证据。
近期一种很有前景的方向是:不训练、不微调,只在推理时编辑模型的内部激活(activation editing),用极低成本让模型"说真话"。但已有方法大多只在视觉侧做"退化 / 扰动"来构造编辑方向,忽略了一个更积极、更直接的信号——事实性的文本语义;同时也常用"同一条编辑向量"应对所有问题,难以处理不同问题关注点不同带来的偏置差异。

为了解决这些痛点,来自北航的研究团队提出了AFTER(Adaptive Factual-guided Visual-Textual Editing foR hallucination mitigation):一种自适应、事实引导的视觉 - 文本激活编辑框架,在多个主流 LVLM 与标准基准上显著降低幻觉,并保持极低推理开销。
AFTER:用"事实"把激活拉回真实世界

团队提出的 AFTER 模型核心包含两个模块:
1. Factual-Augmented Activation Steering(FAS):把标注"事实"变成正向编辑指南
以往方法常通过给图像加噪、模糊等方式得到"可信 / 不可信"的激活对比;而FAS 反其道而行:直接从数据的ground-truth 标注中提取事实,并把这些事实"文本化",形成事实增强的文本描述,作为可信语义来源。FAS 的关键步骤包括:
事实抽取(覆盖三类幻觉):把 COCO 数据集的目标类别、目标检测框等标注转成类别、属性和关系三类事实,其中:
类别事实包含有哪些目标对象;
属性事实包含目标的颜色、形状和数量等属性信息;
关系事实包含目标与目标间的重叠、空间关系等信息。
事实文本化:将离散事实组织成连贯的事实描述 t+。值得注意的是,这里只用于"整合事实",不会在编辑后的模型推理中引入额外信息,保证公平对比。
构造正向编辑方向:用"事实文本输入"得到的激活与"原始图像输入"激活做差并平均,得到通用的、正向的视觉 - 文本编辑向量
2. Query-Adaptive Offset Optimization(QAO):同一张图,不同问题,编辑也要"因题制宜"
现实交互里,同一张图可能被问到完全不同的重点:问"车顶上有什么",和问"图里有几个人",模型需要关注的视觉证据不一样——语言偏置的表现也不一样。QAO正是为此设计:在通用编辑向量的基础上,学习一个轻量的、问题自适应的偏移量(offset),实现更精细的编辑。QAO 的核心做法:
提取问题中提到的对象 / 概念,并从事实描述中抽取与之对应的"问题聚焦事实文本";若问题提到的对象根本不在图里,则明确写出"不存在"。
以此构造"问题聚焦"的可信激活,并与原激活对比得到该问题的"最优编辑向量";再减去通用向量得到期望 offset,训练一个单层 MLP 的 offset 估计器(训练高效且不需微调 LVLM)。
推理时,把"通用向量 + 预测 offset "应用到受语言偏置影响最大的 Top-K 注意力头,实现更精准的纠偏。
实验结果:显著超越现有方法,且几乎不增加推理负担
团队在三种主流 LVLM(LLaVA-v1.5、InstructBLIP、Shikra)上,使用多个标准幻觉基准进行评测(POPE、MME、AMBER):

POPE(判别式):平均Accuracy +4.1%、F1 +2.6%,并超过当时强力的激活编辑方法 ICT(Accuracy +1.3%、F1 +0.9%)。
MME 幻觉子集:相对原始模型,在三种 LVLM 上分别提升 45.0/46.6/73.4 分,且优于所有对比方法。
AMBER(生成式):在 CHAIR 与 Hal 指标上平均分别降低 2.9%/12.6%;当应用到 Shikra 时,幻觉最高降低 16.3%,并且 Cover(回答覆盖度)几乎不变,说明"更真实"并没有明显牺牲"更全面"。
AFTER 不仅抑制幻觉,还能保持 / 增强基础视觉能力。在基础视觉 - 语言能力评估上,AFTER 也在多维度超过基线与 ICT,并在三种 LVLM 上带来平均+130.7的综合提升,说明 AFTER 并非"强行压制输出",而是通过更可靠的视觉对齐带来整体收益。

此外,在对比多种推理时方法时,AFTER 同时做到"效果最好 + 推理最快",速度可达29.7 tokens/s,显存占用也较适中(约 16.3GB)。

意义与前景:更可信的多模态助手,离落地更近一步
AFTER 的价值不只是"分数更高",更在于它提供了一条非常实用的路径:
无需训练 / 微调主模型,以推理时激活编辑实现幻觉抑制,部署成本更可控;
用事实语义显式对抗语言偏置,比单纯"视觉扰动式"的编辑更直击问题本质;
问题自适应带来更细粒度、更稳健的纠偏,为真实交互场景(开放式提问、不同关注点)提供了关键能力。
团队也指出了未来方向:AFTER 依赖可访问的内部激活,因此更适用于开源模型;在医疗等强专业领域,还需要补充领域数据以进一步增强专业视觉感知与偏置抑制。
论文:
AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-guided Activation Editing
论文链接:
https://arxiv.org/pdf/2601.01957
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 � �
感兴趣的小伙伴欢迎关注 � � 了解详情

� � 点亮星标 � �
科技前沿进展每日见
配先查提示:文章来自网络,不代表本站观点。