SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model (SIDA)¶
- 作者:Zhenglin Huang
- 年份:2024
- 机构:University of Liverpool, UK
- 论文链接:arXiv
1. 论文背景与动机¶
社交媒体图像伪造检测面临多模态、复杂场景和解释性需求。SIDA关注于多任务大模型的设计,兼顾检测、定位和文本解释能力,适应社交媒体多样化伪造场景。
2. 方法原理与实现细节¶
- 核心思想:
- 设计多任务大模型,联合检测、分割掩码和文本生成三大任务。
- 多模态特征融合,提升对复杂伪造的适应性。
- 网络结构:
- 主干为多模态Transformer,分支输出检测结果、像素级掩码和文本描述。
- 创新点:
- 多任务损失联合训练,兼顾检测、定位和解释。
- 文本生成分支提升模型可解释性。
- 损失函数:
- 检测损失、分割掩码损失(BCE+Dice)、文本生成损失(交叉熵)。
- 训练目标详细公式:
- Detection loss (\(\mathcal{L}_{det}\)):交叉熵损失。
- Segmentation mask loss (\(\mathcal{L}_{mask}\)):BCE与Dice加权: $$ \mathcal{L}{mask} = \lambda} \mathcal{L{BCE}(\hat{M}, M) + \lambda, M) $$} \mathcal{L}_{DICE}(\hat{M
- Text generation loss (\(\mathcal{L}_{txt}\)):描述文本的交叉熵损失: $$ \mathcal{L}{txt} = \mathcal{L}}(\hat{y{des}, y) $$
- 总损失:
- 初始训练: $$ \mathcal{L} = \lambda_{det} \mathcal{L}{det} + \lambda $$} \mathcal{L}_{mask
- 微调阶段: $$ \mathcal{L}{total} = \lambda} \mathcal{L{det} + \lambda} \mathcal{L{mask} + \lambda $$} \mathcal{L}_{txt
- 其中 \(\lambda_{det}\)、\(\lambda_{mask}\)、\(\lambda_{txt}\) 为各损失项权重。
- 数据集:
- 构建了社交媒体图像伪造检测数据集(SID-Set),包含真实与多种伪造类型样本。
- 流程图/结构图:
3. 实验设置与结果分析¶
4. 主要贡献与不足¶
- 贡献:
- 提出多任务多模态大模型,兼顾检测、定位和解释。
- 适配社交媒体复杂伪造场景。
- 不足:
- 多任务训练对数据和算力要求较高。
5. 个人点评/启示¶
SIDA为多模态、多任务伪造检测提供了新范式。文本生成解释机制值得在其他安全场景推广。
💬 Comments Share your thoughts!