本项目是对 DUT-lujunyu/ToxiCN_MM 项目的改进与增强。
在 ToxiCN_MM 原有的 MHKE (多模态知识增强) 模型基础上,我们进行了以下核心改进:
-
引入深度融合机制:
- 将原始模型简单的特征拼接 (Concatenation) 策略,升级为基于 双向交叉注意力 (Bi-directional Cross-Attention) 的深度融合模块。
- 这使得模型能够实现对文本和图像特征的早期交互与深度融合,更有效地捕捉跨模态的复杂语义关联,解决了原模型融合层次较浅的问题。
-
增强的可视化展示:
- 我们使用 Gradio 构建了一个交互式的Web界面 (
app.py),用于直观地展示模型的预测能力。 - 演示系统不仅支持对单个Meme的实时预测,还提供了一键式的批量验证功能,能够自动在测试集上运行并生成包括混淆矩阵、各类别性能指标图在内的多维度性能分析报告。
- 我们使用 Gradio 构建了一个交互式的Web界面 (
-
环境配置:
pip install -r requirements.txt
-
运行演示系统:
python app.py
在浏览器中打开提供的本地或公网链接即可访问。
交互式预测界面
批量评估与分析界面
感谢 ToxiCN_MM 的作者们提供了出色的基线工作和数据集。

