Skip to content

Commit d453f6a

Browse files
authored
Merge pull request #2 from BinaryOracle/master
updates
2 parents 3f878a0 + c9d1ccb commit d453f6a

File tree

2 files changed

+23
-1
lines changed

2 files changed

+23
-1
lines changed

src/MMLLM/庖丁解牛BLIP2.md

Lines changed: 23 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -25,4 +25,26 @@ author:
2525

2626
多模态模型在过往发展的过程中,曾有一段时期一直在追求更大的网络架构(image encoder 和 text encoder/decoder)和 数据集,从而导致更大的训练代价。例如CLIP,400M数据,需要数百个GPU训练数十天,如何降低模型训练成本,同时具有很好的性能?
2727

28-
这就是BLIP-2的起因,回顾下之前的多模态网络设计,三个模块(图像分支、文本分支、融合模块):
28+
这就是BLIP-2的起因,回顾下之前的多模态网络设计,三个模块(图像分支、文本分支、融合模块):
29+
30+
![多模态网络设计](庖丁解牛BLIP2/1.png)
31+
32+
(a) 早期的图文多模态:图像分支依赖目标检测器,模态融合比较弱,如VSE++。
33+
34+
(b) 重点训练图像和文本特征提取,模态融合比较轻量,如CLIP。
35+
36+
(c) 图像特征提取和模态融合都很重。
37+
38+
(d) 侧重模态融合,特征提取网络相对轻量,如ViLT。
39+
40+
| 模块 | (a) | (b) | (c) | (d) | 理想情况 |
41+
|--------------|-----|-----|-----|-----|----------|
42+
| 视觉分支 ||||||
43+
| 文本分支 ||||||
44+
| 融合模块 ||||||
45+
| 性能 | 一般||| 一般||
46+
| 训练代价 || 非常高 | 非常高 |||
47+
48+
BLIP-2 基于 BLIP 架构,利用已有的ViT 和 LLM(均冻结)+ 一个的轻量Q-Former模块做模态融合,大幅降低训练成本。具有很强的zero-shot image-to-text generation能力,同时因LLM而具有了视觉推理能力。
49+
50+

src/MMLLM/庖丁解牛BLIP2/1.png

90.6 KB
Loading

0 commit comments

Comments
 (0)