Skip to content

Commit 446b994

Browse files
committed
updates
1 parent d8db00a commit 446b994

File tree

1 file changed

+23
-0
lines changed

1 file changed

+23
-0
lines changed

src/3DVL/LASO.md

Lines changed: 23 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -240,3 +240,26 @@ class AffordQ(Dataset):
240240

241241
LASO 数据集基于 3D-AffordanceNet 的点云和功能标注,结合人工+GPT-4 生成的多样化问题,构造出 19,751 个点云-问题配对,旨在实现语言引导下的 3D 功能区域分割,推动 3D 视觉与大语言模型(LLM)的深度融合。
242242

243+
## 模型实现
244+
245+
论文提出了一个全新的模型:**PointRefer**,用于解决一个新颖的任务 —— **语言引导的 3D 对象功能区域分割(LASO)**
246+
247+
模型目标: 给定一个 3D 点云对象和一个自然语言问题(例如:“Where would you grasp this mug?”),PointRefer 的目标是预测出与该问题相关的点云区域,即生成一个二值掩码,表示哪些点属于目标功能区域。
248+
249+
PointRefer 包括以下核心模块:
250+
251+
1. **3D 骨干网络(3D Backbone)**
252+
- 使用 PointNet++ 编码点云特征;
253+
- 多阶段编码-解码结构提取多尺度点特征;
254+
255+
2. **自适应融合模块(Adaptive Fusion Module, AFM)**
256+
- 在不同解码层注入语言信息;
257+
- 实现语言引导下的跨模态融合;
258+
- 增强点特征的语义判别能力;
259+
260+
3. **参考点解码器(Referred Point Decoder, RPD)**
261+
- 引入一组可学习的“问题条件化查询”(affordance queries);
262+
- 利用 Transformer 解码器将这些查询与点云特征进行交互;
263+
- 生成动态卷积核(dynamic kernels);
264+
- 最终通过卷积操作生成分割掩码;
265+

0 commit comments

Comments
 (0)