File tree Expand file tree Collapse file tree 2 files changed +23
-1
lines changed Expand file tree Collapse file tree 2 files changed +23
-1
lines changed Original file line number Diff line number Diff line change @@ -25,4 +25,26 @@ author:
25
25
26
26
多模态模型在过往发展的过程中,曾有一段时期一直在追求更大的网络架构(image encoder 和 text encoder/decoder)和 数据集,从而导致更大的训练代价。例如CLIP,400M数据,需要数百个GPU训练数十天,如何降低模型训练成本,同时具有很好的性能?
27
27
28
- 这就是BLIP-2的起因,回顾下之前的多模态网络设计,三个模块(图像分支、文本分支、融合模块):
28
+ 这就是BLIP-2的起因,回顾下之前的多模态网络设计,三个模块(图像分支、文本分支、融合模块):
29
+
30
+ ![ 多模态网络设计] ( 庖丁解牛BLIP2/1.png )
31
+
32
+ (a) 早期的图文多模态:图像分支依赖目标检测器,模态融合比较弱,如VSE++。
33
+
34
+ (b) 重点训练图像和文本特征提取,模态融合比较轻量,如CLIP。
35
+
36
+ (c) 图像特征提取和模态融合都很重。
37
+
38
+ (d) 侧重模态融合,特征提取网络相对轻量,如ViLT。
39
+
40
+ | 模块 | (a) | (b) | (c) | (d) | 理想情况 |
41
+ | --------------| -----| -----| -----| -----| ----------|
42
+ | 视觉分支 | 重 | 重 | 重 | 轻 | 重 |
43
+ | 文本分支 | 轻 | 重 | 轻 | 轻 | 重 |
44
+ | 融合模块 | 轻 | 轻 | 重 | 重 | 轻 |
45
+ | 性能 | 一般| 好 | 好 | 一般| 好 |
46
+ | 训练代价 | 中 | 非常高 | 非常高 | 高 | 中 |
47
+
48
+ BLIP-2 基于 BLIP 架构,利用已有的ViT 和 LLM(均冻结)+ 一个的轻量Q-Former模块做模态融合,大幅降低训练成本。具有很强的zero-shot image-to-text generation能力,同时因LLM而具有了视觉推理能力。
49
+
50
+
You can’t perform that action at this time.
0 commit comments