由于本课题中数据来源较为多种多样(大体上为文本【交易文本】和数字【表格形式】),且部分数值的含义并未清晰,故想寻求一种较好的数据融合的方式来解决该问题。
多模态的技术点
多模态表示学习(Representation)
联合表示(joint representation):将多模态的信息映射到一个统一的多模态向量空间
协同表示(coordinated representation):每个模态分别映射到各自的表示空间,但映射之后满足一定的相关性约束
处理噪声与缺失数据的问题是研究难题(文本是符号,图片是RGB矩阵)
模态转化(Translation)
将一个模态的信息映射或转化为另一个模态的信息
主要是有open-ended(并不知道结束位在哪里)与subjective(主观判断性)连特征
主要应用于:机器翻译、图片描述、语音合成
对齐(Alignment)
来自同一个实例的两个/多个模态中寻找子成分之间的关系和联系
显式对齐:在向量上对齐,在无监督(聚类、深度文本表征特征),找到内在的结构关系
隐式对齐:通过图神经网络,通过有向图的图模型的关系来获得,间接的表示关系
模式对齐需要有较大的数据、模态之间的相似度比较难以进行定义、不一定每个元素都能够对应上
相关任务:图像语义分割、视频流将音频流生成
多模态融合(Fusion)
联合多个模态的信息,进行目标预测(分类或回归)
分类:
- Pixel level:原始数据,一般情况下结果不好
- Feature level:抽象特征,有投票的操作【修改权重】(常用融合方案)
- Decision level:决策层/组合融合,在模型层面有改动(在不同层数上进行融合),对于模型的理解要求更高
相关任务:视觉-音频识别(HM/隐马尔可夫提取音频信息)、多模态情感分析(数据融合/特征融合)、手机身份认证
协同学习(Co-learning)
通过利用资源丰富(数据量大)的模态知识来辅助资源稀缺(比如较小数据)的模态建立模型,迁移学习(基于预训练的模型)属于协同学习。
图像特征提取:Resnet50/101等这样的模型多个上,得到特征拼接在一起,得到的特征向量的信息会更加丰富
根据数据形式划分:
- 并行化:co-training,transfer learning
- 非并行化:transfer learning,concept grounding,zero-shot learning(数据量少的时候)
- 两者结合:bridging
多模态在文本分类中的应用
讽刺检测
Cai, Y., Cai, H., & Wan, X. (2019, July). Multi-modal sarcasm detection in twitter with hierarchical fusion model. In Proceedings of the 57th annual meeting of the association for computational linguistics (pp. 2506-2515).
使用Resnet与LSTM来提起“文本信息+图片信息+图片属性信息”的特征,用transformer将信息综合在一起,得到三种最终的特征向量加权平均,放到分类器中进行分类(效果非常不错)
情感分类
Ghosal, D., Akhtar, M. S., Chauhan, D., Poria, S., Ekbal, A., & Bhattacharyya, P. (2018). Contextual inter-modal attention for multi-modal sentiment analysis. In proceedings of the 2018 conference on empirical methods in natural language processing (pp. 3454-3466).
将得到的每一个特征向量通过GRU(序列模型),融合时更多考虑上下文信息,加入attention获得更好的情绪展示,最后需要拼接,但缺少了实际的落地产出。
情感分析
Shad Akhtar, M., Singh Chauhan, D., Ghosal, D., Poria, S., Ekbal, A., & Bhattacharyya, P. (2019). Multi-task learning for multi-modal emotion recognition and sentiment analysis. arXiv e-prints, arXiv-1905.
音频+文本,多任务识别,对情感判断与情绪分析(音频判断正面/负面,文本信息中判断情绪方向),使用了上下文相关的attention来提取相关信息(较为复杂的attention),靠谱一些
假新闻图片识别
Qi, P., Cao, J., Yang, T., Guo, J., & Li, J. (2019, November). Exploiting multi-domain visual information for fake news detection. In 2019 IEEE international conference on data mining (ICDM) (pp. 518-527). IEEE.
从像素域转化到频域,从CNN模型捕获该图像的物理特征;在像素领域会再得到文字统计(在图像上)
Wang, Y., Ma, F., Jin, Z., Yuan, Y., Xun, G., Jha, K., ... & Gao, J. (2018, July). Eann: Event adversarial neural networks for multi-modal fake news detection. In Proceedings of the 24th acm sigkdd international conference on knowledge discovery & data mining (pp. 849-857).
结合事件识别器来预测事件辅助标签,损失越大差异越小(对抗网络的启发)。通过CNN从帖子的文本信息与视频中自动提取特征,做特征融合后使用事件识别器来检测(不使用attention全连接层输出)
分辨器的作用
- 事件识别器:事件识别器作为分辨器的一部分,其任务是根据文本和视频的融合特征预测与新闻相关的事件标签。通过这种方式,模型被迫从文本和视频中提取有关同一事件的信息,从而确保特征的一致性和真实性。
- 对抗训练:通过对抗性损失,模型被迫优化事件识别器的预测,使其更接近真实的事件标签。这迫使模型学习如何更好地从文本和视频中提取和融合与事件相关的信息。
- 特征融合:文本和视频特征首先通过CNN进行提取,然后进行融合。这些融合的特征不仅被用于假新闻检测,还被用于事件识别,确保所提取的特征是与事件相关的。
简言之,分辨器(在这里是事件识别器)在模型中的作用是确保从文本和视频中提取的特征确实与真实的新闻事件相关。这样,当模型检测假新闻时,它可以更好地捕捉到文本和视频之间的不一致性。
商品分类
Is a picture worth a thousand words? A deep multi-modal architecture for product classification in e-commerce.AAAI 2018
训练深层次的策略网络(为每一种信息设置优先级,但论文中并未作详细介绍)来人为设置哪个模态更加重要,实践性更强
总结
特征提取器→特征向量→拼接/Attention→输出
1. 特征提取:
- 文本:为了捕捉序列信息,常用的结构包括LSTM、GRU,而对于全局的文本表示,Transformer结构,例如BERT,已经被广泛采用。
- 图像:CNN结构,如ResNet和VGG,经常被用于提取图像的局部和全局特征。
- 音频:特定于音频的网络,如MFC(Mel Frequency Cepstral)特征与CNN结合,用于捕捉声音的时序和频谱特性。
2. 融合策略:
- 早期融合:在模型的输入阶段将不同模态的特征组合,通常通过拼接或加权平均。
- 中期融合:在模型的中间阶段(例如某些隐藏层)将特征组合,可能通过特定的融合策略或操作。
- 晚期融合:对每个模态分别训练独立的模型,并在最终输出之前或输出时结合它们的预测。
3. Attention策略:
- 直接Attention:为不同模态的特征分配权重,没有特定的上下文考虑。
- 上下文Attention:在加权特征时考虑到相关的上下文信息,例如序列中的前后关系或模态间的相互关系。
4. 直接加上分辨器:在对抗中进行分类
CLIP
Contrastive Language-Image Pre-Training 利用文本的监督信号训练一个迁移能力强的视觉模型