BinaryOracle
diff --git a/‎src/MMLLM/庖丁解牛BLIP2.md
Lines changed: 23 additions & 1 deletion b/‎src/MMLLM/庖丁解牛BLIP2.md
Lines changed: 23 additions & 1 deletion
diff --git a/‎src/MMLLM/庖丁解牛BLIP2/1.png
90.6 KB b/‎src/MMLLM/庖丁解牛BLIP2/1.png
90.6 KB
@@ -25,4 +25,26 @@ author:
 
 多模态模型在过往发展的过程中，曾有一段时期一直在追求更大的网络架构（image encoder 和 text encoder/decoder）和 数据集，从而导致更大的训练代价。例如CLIP，400M数据，需要数百个GPU训练数十天，如何降低模型训练成本，同时具有很好的性能？
 
-这就是BLIP-2的起因，回顾下之前的多模态网络设计，三个模块（图像分支、文本分支、融合模块）:
+这就是BLIP-2的起因，回顾下之前的多模态网络设计，三个模块（图像分支、文本分支、融合模块）:
+
+![多模态网络设计](庖丁解牛BLIP2/1.png)
+
+(a) 早期的图文多模态：图像分支依赖目标检测器，模态融合比较弱，如VSE++。
+
+(b) 重点训练图像和文本特征提取，模态融合比较轻量，如CLIP。
+
+(c) 图像特征提取和模态融合都很重。
+
+(d) 侧重模态融合，特征提取网络相对轻量，如ViLT。
+
+| 模块         | (a) | (b) | (c) | (d) | 理想情况 |
+|--------------|-----|-----|-----|-----|----------|
+| 视觉分支     | 重  | 重  | 重  | 轻  | 重       |
+| 文本分支     | 轻  | 重  | 轻  | 轻  | 重       |
+| 融合模块     | 轻  | 轻  | 重  | 重  | 轻       |
+| 性能         | 一般| 好  | 好  | 一般| 好       |
+| 训练代价     | 中  | 非常高 | 非常高 | 高 | 中   |
+
+BLIP-2 基于 BLIP 架构，利用已有的ViT 和 LLM（均冻结）+ 一个的轻量Q-Former模块做模态融合，大幅降低训练成本。具有很强的zero-shot image-to-text generation能力，同时因LLM而具有了视觉推理能力。
+
+