
通晓物体的物理属性,对机器东谈主践诺操作非常进军,然则应该何如终了呢?
光轮智能与清华 AIR、同济大学等机构麇集建议了一种基于 3D 高斯溅射的才调——
PUGS(Zero-shot Physical Understandingwith Gaussian Splatting)
无需闇练、零样本,它就简略从多视角图像中重建物体,并对各式指定的物理属性进行密集重建。
该论文已被 ICRA 2025 吸收。

在非结构化环境中,准确通晓物体的物理属性不仅能匡助机器东谈主更好地筹算持取战略,还能幸免因失实臆测导致的操作失败(比如下手太重导致物体损坏)。
现存的才调如 NeRF2Physics 诈欺 NeRF 来对物体进行重建,并联接视觉谈话模子(VLM)与大谈话模子(LLM)进行物理属性计算。
然则,此类才调存在计算效力碎屑化、物理属性不一语气不对理的问题。
商酌团队通过 3D 高斯溅射算作重建表征,并引入区域感知特征来增强区域区别的能力。
在此基础上,联接基于 VLM 的物理属性计算和基于特征的属性传播,不错达到更好的物体重建和愈加合理的物理属性计算效力。
为了保安闲建效力的几何一致性,商酌团队还引入了几何感知的正则化损成仇寥落赔本,确保高斯散播与物体的本色空间方式散播一致。
高斯溅射 + 视觉大模子,通晓物理属性
PUGS 框架分为三个阶段——方式与区域感知的 3DGS 重建、基于视觉谈话模子(VLM)的物理属性计算,以及基于区域特征的属性传播。
关于物体级别的物理属性(举例质料),则还包含高斯体积积分模块以得到举座的物理属性效力。

PUGS 以物体的多视角图像算作输入,同期允许给定需要计算的物体属性(如密度、硬度悉数、杨氏模量等),最终输出则是物体的重建效力,其中包含了物体的 RGB 信息,以及随便位置的物理属性。
方式与区域感知的 3DGS 重建
PUGS 领先使用 3DGS 来从多视角 RGB 图像中重建物体。
然则原始的 3DGS 重建时常会出现 Floater,这导致重建效力的细节发达欠安,况且在几何的准确性上存在问题。
商酌团队参考现存才调,引入几何感知的正则化损成仇寥落赔本,赔本项如下(如披露不齐全,请傍边滑动):
其中,是图像中的像素聚会,是归一化到 0 到 1 的图像梯度;
是基于像素点的局部平面诡计得到的法向量,是基于 PGSR 建议的无偏深度渲染诡计得到的法向量,是每个高斯的不透明度。
这里是几何感知的正则化赔本,是寥落赔本。
前者通过两种不同方式来渲染法线图,并饱读舞输出效力尽可能一致,从而确保高斯散播与物体的本色空间方式一致;
此后者则饱读舞每个高斯的不透明度围聚 0 或 1,减少中间效力的存在。
引入几何感知的正则赔本(Geometry-Aware Regularization Loss, GARL)后,不错有用缓解 Floater 问题,增强几何的准确性。

此外,PUGS 还引入了区域感知的特征对比赔本,通过对比学习闇练高斯散播的特征,使其简略区别物体的不同区域。
在执行场景中,物体名义可能存在不同的材料,如金属、木料、塑料等,而这些材料在物体上时常发达为不同的区域。
对区域的区别有助于提高物理属性计算的准确性。
商酌团队领先向每个 Gaussian 上引入一个新的可学习特征,并使用 -blending 来渲染出不同视角下的特征图,然后使用 SAM 对多视角图像进行分割,以区别物体的不同区域。
之后,诈欺对比学习来闇练该特征。赔本函数如下:
其中,线路两个像素是否属于归拢个区域,是两个像素点在特征空间中的余弦雷同性。
直不雅来说,如若两个像素点属于归拢个区域,那么它们在特征空间中的余弦雷同性应该越大越好,反之则应该越小越好。

△几何感知赔本与方式感知特征闇练的线路图基于 VLM 的物理属性计算
在重建阶段完成后,PUGS 诈欺视觉谈话模子(VLM)进行零样本物理属性计算。
NeRF2Physics 给与两阶段的才调来进行物理属性计算。
它领先通过 VLM 来从物体的图像计算物体的文本状貌,然后将该文本状貌输入给 LLM 来计算材质和物理属性。
与 NeRF2Physics 不同,PUGS 凯旋使用 VLM 对多视角图像中的某一张进行材质和物理属性计算,幸免了图像到文本调养经过中的信息丢失。
该阶段 VLM 输出的效力包括物体可能的材质,以及这些材质的物理属性领域等。
这些属性在后续剖判过 CLIP 特征传播到重建的 3DGS 中。
基于区域特征的属性传播
为了将计算的物理属性传播到重建效力中,PUGS 使用 CLIP 特征算作基础进行映射,并使用区域感知特征算作依据进行属性传播。
领先商酌团队从 3DGS 中就地采样一些高斯点算作 source point,并诡计这些 source point 投影到多视角图像上得到的 patch 对应的 CLIP 特征。
这些特征与上一阶段得到的候选材质进行雷同性的诡计,以分拨不同的材质到对应的 source point 上。诡计方式如下:
其中,是 source point 的物理属性值,是 source point 的 CLIP 特征与候选材质的 CLIP 特征之间的余弦雷同性,是一个温度参数。

△基于方式感知特征的物理属性传播
为了完成密集的物理属性计算,商酌团队使用区域特征算作依据进行属性传播。诡计方式如下:
其中,和分别是高斯和的区域感知特征。
基于区域感知特征的属性传播方式使得物理属性计算效力愈加均匀和精准。
高斯体积积分
通过上头三个阶段,PUGS 依然不错完成物体的重建以及密集的物理属性计算,即在物体名义的每个点齐简略得到相应的物理属性。
而关于物体级别的物理属性(如质料),PUGS 建议了基于高斯体积积分的模块来进行诡计。
以物体质料的计算为例,通过上述阶段,PUGS 不错得到每个 3D 高斯点对应的物理属性,即密度值。
之后每个 3D 高斯被视为一个 3D 椭球体,通过其不透明度进行加权,同期联接计算的密度值进行积存诡计,得到物体的初步体积计算。
这个初步体积计算效力是存在误差的,因为 3DGS 重建效力时常只会对物体的名义进行建模,而物体里面发达出虚浮。
为了进一步提高精度,PUGS 引入了" pure volume "成见,这代表一个物体忽略虚浮区域后的体积,一般会远小于时常好奇下物体的体积。
PUGS 通过提醒 VLM 来得回物体的 pure volume,并以此修正最终的计算效力。
计算准确性大幅进步
定性效力披露,NeRF2Physics 的材质计算发达出碎屑化等不对理的情况,PUGS 的计算效力则愈加准确和合理。

在物体的持取实验中,PUGS 准确计算了一个棉布包裹的杨氏模量(0.5+GPa),使机械臂的夹持器简略以顺应的启齿大小得手持取物体。
比拟之下,NeRF2Physics 失实地计算了该物体的杨氏模量(30+GPa),导致夹持器启齿接近物体宽度,最终持取失败。

商酌团队还在 ABO-500 数据集上进行了物体质料臆测的实验,并与 NeRF2Physics 进行了对比,效力 PUGS 在多个操办上齐发达更优。

此外,商酌团队还对上述 PUGS 的 Pipeline 中的不同模块进行消融实验,包括几何感知的正则化赔本、区域感知的特征闇练以及基于高斯体积积分模块,效力标明这些模块齐有助于进步定量效力。
其中不仅在 ABO-500 数据集上举座有所进步,况且在一些具有荒谬特征的物体上进步愈加彰着。
下表的 subset A 指的是 ABO-500 中一些具有较为概述结构的物体构成的子集,而 subset B 指的是那些具有多种区域和材质的物体子集。
这线路几何感知的正则化赔本对具有概述结构的物体进步较大,而区域感知模块则对多种材质和区域的区别愈加有用。

总之,PUGS 不仅简略准确重建物体的几何方式,还能保持物理属性计算的材质一致性,这关于本色的机器东谈主应器用有进军好奇。
同期该重建效力也简略算作一种佩戴相干物理属性的重建财富,用于其他相干的下流任务。
论文地址:
https://arxiv.org/pdf/2502.12231
技俩主页:
https://evernorif.github.io/PUGS/
GitHub:
https://github.com/EverNorif/PUGS
— 完 —
投稿请职责日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 技俩主页邻接,以及相干方式哦
咱们会(尽量)实时复兴你

一键柔柔 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「注意心」
接待在议论区留住你的思法!开云kaiyun中国官方网站
XINWENZIXUN
国产 AI 上大分的节拍云开·全站APPkaiyun,根蒂停不下来—— 就在刚刚,全球最快的AI 视频生成,负责来袭! 有多快呢? 数个1、2、3、4、5(五秒钟),啪的一下,一个高质地的 AI 视频就生成出来了。 划要点: 这次还不仅仅速率,这个国产 AI 还作念到了把声息还给视频——是东谈主声、配景声……声声不断的那种。 当今,我们就来听一段视频。Prompt 是酱紫的: 试验 Prompt:生成一个视频,小一又友拿着棒球对着镜头含笑,配景是室外棒球场。 东谈主物台词 Prompt:Wat
据经济参考报报说念,部分中介机构违纪为成东说念主评释注解学生提供从报名到毕业的全程教务工作,而部分高校解决不到位,使其成东说念主评释注解流于体式,沦为“证书批发厂”。 线上代刷课、线下代签到,期末查验邮寄试卷和谜底……这些违纪不法步履令东说念主畏俱。名义看,这些乱象的根源是中介机构一味追求利益,但是果真的根源在于个别高校里面。 个别高校对这种违纪步履"睁一只眼闭一只眼",把成东说念主评释注解当成了"创收名堂"。学校是宽心了、中介也收获了、学生拿到了证书,看似王人赢得了利益,但独一丢弃了评释注解
如何让大模子感知常识图谱常识?开云kaiyun中国官方网站 蚂蚁聚首实验室:期骗多词元并行量度给它"上课"。 大说话模子的速即发展冲突了很多天然说话处理任务间的壁垒。通常情况下,大说话模子以量度下一个词元(Token)为教师标的,这与很多天然说话处理任务至极契合。 但关于常识图谱而言,实体算作最基本的数据单位,通常需要多个天然说话词元才气准确描写,这导致常识图谱与天然说话之间存在明显的粒度不匹配。 为了责罚这一问题,蚂蚁团队提倡了一种基于大说话模子的多词元并行量度法子 K-ON,其期骗多词元并
通晓物体的物理属性,对机器东谈主践诺操作非常进军,然则应该何如终了呢? 光轮智能与清华 AIR、同济大学等机构麇集建议了一种基于 3D 高斯溅射的才调—— PUGS(Zero-shot Physical Understandingwith Gaussian Splatting) 无需闇练、零样本,它就简略从多视角图像中重建物体,并对各式指定的物理属性进行密集重建。 该论文已被 ICRA 2025 吸收。 在非结构化环境中,准确通晓物体的物理属性不仅能匡助机器东谈主更好地筹算持取战略,还能幸免因
【#初中生乱丢垃圾被当众放大屏品评#】#校长致歉大屏品评初中生乱扔垃圾# 4月7日开云kaiyun官方网站,广西一网民发音问称,广西河池金城江区第四低级中学(以下简称“金四中”),别称初中生因为乱丢垃圾,被学校责任主说念主员当着全校师生的面放在大屏幕上品评。 视频中,金四中的别称中学生乱扔垃圾的行为被拍摄下来,有关视频及学生信息被公开投放到学校大屏幕上。台上,别称中年男性不仅对扔垃圾的男同学公开品评,同期还伴跟着拉拽的算作,其余师生则枚举成队在台下不雅看。 该视频被发到酬酢平台后激励等闲温轻柔