Skip to content

Commit c6318cd

Browse files
authored
Merge pull request #3 from BinaryOracle/master
updates
2 parents d453f6a + a3165b2 commit c6318cd

File tree

2 files changed

+10
-0
lines changed

2 files changed

+10
-0
lines changed

src/MMLLM/庖丁解牛BLIP2.md

Lines changed: 10 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -47,4 +47,14 @@ author:
4747

4848
BLIP-2 基于 BLIP 架构,利用已有的ViT 和 LLM(均冻结)+ 一个的轻量Q-Former模块做模态融合,大幅降低训练成本。具有很强的zero-shot image-to-text generation能力,同时因LLM而具有了视觉推理能力。
4949

50+
## 模型结构
51+
52+
BLIP-2 框架按照 Two-Stage 策略预训练轻量级查询 Transformer 以弥合模态差距。
53+
54+
Stage 1: 不同模态数据的提取与融合。 Stage 2: 把数据转换成LLM能识别的格式。
55+
56+
![Two-Stage流程](庖丁解牛BLIP2/2.png)
57+
58+
从冻结的Image Encoder引到Vision-Language表征学习。 从冻结的LLM引到Vision-Language生成学习,实现Zero Shot图文生成。
59+
5060

src/MMLLM/庖丁解牛BLIP2/2.png

161 KB
Loading

0 commit comments

Comments
 (0)