Skip to content

Commit 08815d8

Browse files
committed
updates
1 parent a3165b2 commit 08815d8

File tree

2 files changed

+20
-2
lines changed

2 files changed

+20
-2
lines changed

src/MMLLM/庖丁解牛BLIP2.md

Lines changed: 20 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -51,10 +51,28 @@ BLIP-2 基于 BLIP 架构,利用已有的ViT 和 LLM(均冻结)+ 一个的
5151

5252
BLIP-2 框架按照 Two-Stage 策略预训练轻量级查询 Transformer 以弥合模态差距。
5353

54-
Stage 1: 不同模态数据的提取与融合。 Stage 2: 把数据转换成LLM能识别的格式。
54+
Stage 1: 不同模态数据的提取与融合。
55+
56+
Stage 2: 把数据转换成LLM能识别的格式。
5557

5658
![Two-Stage流程](庖丁解牛BLIP2/2.png)
5759

58-
从冻结的Image Encoder引到Vision-Language表征学习。 从冻结的LLM引到Vision-Language生成学习,实现Zero Shot图文生成。
60+
从冻结的Image Encoder引到Vision-Language表征学习。
61+
62+
从冻结的LLM引到Vision-Language生成学习,实现Zero Shot图文生成。
63+
64+
### Stage 1: Representation Learning (表征学习)
65+
66+
![tage 1: Representation Learning (表征学习)](庖丁解牛BLIP2/3.png)
67+
68+
Q-Former 由两个transformer模块组成,输入包含三部分:
69+
70+
1. 冻结参数的Image Encoder提取的图像embeddings
71+
2. Learned Queries
72+
73+
> - Queries是一组可学习的embeddings,是第一个transformer模块的input,可认为是模型参数一部分
74+
> - 推理时,Queries被用来从image encoder输出的embeddings里提取与input text最相关的视觉信息
75+
76+
3. Input Text
5977

6078

src/MMLLM/庖丁解牛BLIP2/3.png

154 KB
Loading

0 commit comments

Comments
 (0)