updates

BinaryOracle · BinaryOracle · commit 834775b0f142 · 2025-06-01T16:03:31.000+08:00
diff --git a/src/MMLLM/庖丁解牛BLIP2.md b/src/MMLLM/庖丁解牛BLIP2.md
@@ -685,49 +685,66 @@ class Blip2Qformer(Blip2Base):
     ...
     def generate(
         self,
-        samples,
-        use_nucleus_sampling=False,
-        num_beams=3,
-        max_length=30,
-        min_length=10,
-        top_p=0.9,
-        repetition_penalty=1.0,
+        samples,                   # 输入样本，包含图像和可选文本
+        use_nucleus_sampling=False, # 是否使用核采样（top-p采样）
+        num_beams=3,               # beam search的beam数量
+        max_length=30,             # 生成文本的最大长度
+        min_length=10,             # 生成文本的最小长度
+        top_p=0.9,                 # 核采样的概率阈值
+        repetition_penalty=1.0,    # 重复惩罚系数
     ):
+        # 1. 图像编码阶段
         image = samples["image"]
-        image_embeds = self.ln_vision(self.visual_encoder(image))
+        # 通过视觉编码器（如ViT）提取图像特征 (B, 257, D)
+        image_embeds = self.ln_vision(self.visual_encoder(image))  
 
+        # 2. 处理beam search扩展
         if not use_nucleus_sampling:
+            # 如果是beam search，需要复制图像特征以匹配beam数量
+            # (B, 257, D) -> (B*num_beams, 257, D)
             image_embeds = image_embeds.repeat_interleave(num_beams, dim=0)
         else:
+            # 核采样时不扩展beam
             num_beams = 1
+
+        # 创建图像注意力掩码（全1，表示所有图像token有效）
         image_atts = torch.ones(image_embeds.size()[:-1], dtype=torch.long).to(
             image.device
         )
 
+        # 3. 准备生成参数
         model_kwargs = {
-            "encoder_hidden_states": image_embeds,
-            "encoder_attention_mask": image_atts,
+            "encoder_hidden_states": image_embeds,  # 图像特征作为cross-attention的输入
+            "encoder_attention_mask": image_atts,   # 图像注意力掩码
         }
 
+        # 4. 初始化文本输入（以BOS token开头）
+        # 形状: (batch_size, 1)，初始为[BOS]
         input_ids = (
             torch.LongTensor(image.size(0), 1)
             .fill_(self.tokenizer.bos_token_id)
             .to(image.device)
         )
+
+        # 5. 扩展可学习的query tokens
+        # query_tokens形状: (batch_size, num_query_tokens, D)
         query_tokens = self.query_tokens.expand(image_embeds.shape[0], -1, -1)
 
+        # 6. 调用Q-Former的生成方法
         outputs = self.Qformer.generate(
-            input_ids=input_ids,
-            query_embeds=query_tokens,
-            max_length=max_length,
-            min_length=min_length,
-            num_beams=num_beams,
-            do_sample=use_nucleus_sampling,
-            top_p=top_p,
-            eos_token_id=self.tokenizer.sep_token_id,
-            pad_token_id=self.tokenizer.pad_token_id,
-            **model_kwargs
+            input_ids=input_ids,         # 初始文本token [BOS]
+            query_embeds=query_tokens,  # 可学习query tokens
+            max_length=max_length,       # 最大生成长度
+            min_length=min_length,       # 最小生成长度
+            num_beams=num_beams,        # beam数量
+            do_sample=use_nucleus_sampling, # 是否采样
+            top_p=top_p,                 # 核采样参数
+            eos_token_id=self.tokenizer.sep_token_id,  # 结束符
+            pad_token_id=self.tokenizer.pad_token_id,   # 填充符
+            **model_kwargs              # 图像特征和掩码
         )
+
+        # 7. 解码生成的token id为文本
         captions = self.tokenizer.batch_decode(outputs, skip_special_tokens=True)
         return captions
 ```