File tree Expand file tree Collapse file tree 1 file changed +23
-0
lines changed Expand file tree Collapse file tree 1 file changed +23
-0
lines changed Original file line number Diff line number Diff line change @@ -240,3 +240,26 @@ class AffordQ(Dataset):
240
240
241
241
LASO 数据集基于 3D-AffordanceNet 的点云和功能标注,结合人工+GPT-4 生成的多样化问题,构造出 19,751 个点云-问题配对,旨在实现语言引导下的 3D 功能区域分割,推动 3D 视觉与大语言模型(LLM)的深度融合。
242
242
243
+ ## 模型实现
244
+
245
+ 论文提出了一个全新的模型:** PointRefer** ,用于解决一个新颖的任务 —— ** 语言引导的 3D 对象功能区域分割(LASO)** 。
246
+
247
+ 模型目标: 给定一个 3D 点云对象和一个自然语言问题(例如:“Where would you grasp this mug?”),PointRefer 的目标是预测出与该问题相关的点云区域,即生成一个二值掩码,表示哪些点属于目标功能区域。
248
+
249
+ PointRefer 包括以下核心模块:
250
+
251
+ 1 . ** 3D 骨干网络(3D Backbone)**
252
+ - 使用 PointNet++ 编码点云特征;
253
+ - 多阶段编码-解码结构提取多尺度点特征;
254
+
255
+ 2 . ** 自适应融合模块(Adaptive Fusion Module, AFM)**
256
+ - 在不同解码层注入语言信息;
257
+ - 实现语言引导下的跨模态融合;
258
+ - 增强点特征的语义判别能力;
259
+
260
+ 3 . ** 参考点解码器(Referred Point Decoder, RPD)**
261
+ - 引入一组可学习的“问题条件化查询”(affordance queries);
262
+ - 利用 Transformer 解码器将这些查询与点云特征进行交互;
263
+ - 生成动态卷积核(dynamic kernels);
264
+ - 最终通过卷积操作生成分割掩码;
265
+
You can’t perform that action at this time.
0 commit comments