在建立一般人工智能,世界模型和化身智能等关键技术的竞争中,能力变得越来越核心:高质量3D场景的产生。在过去三年中,该领域的研究成倍增长,几乎是文档数量的两倍,这反映了多模式理解,机器人技术,自动驾驶甚至虚拟现实系统的关键立场。注意:到2025年4月底的数据是,Nanyang技术大学的S-LAB研究人员全面研究了该领域中最先前的研究方法,发表了一篇评论,“ 3D场景的产生:调查”,系统地在系统上汇总了300多个代表性文档,并将现有类别分为四个类别。这篇评论还总结了场景几代在3D场景下游任务中的应用,作为3D场景的版本,人类场景的互动,融合了智能,机器人,自动驾驶等等,研究了详细的挑战和未来的方向。文档标题:3D场景的生成:文档链接调查:https://arxiv.org/abs/2505.05474选择列表:https://github.com/hzxie/awsome-awsome-3d-scene-3d-scene-generation route oute oution oution route四个主要一代范式是第一个3D场景的一代。自2021年以来,由于生成模型(尤其是扩散模型)的增加以及新的3D表示(例如NERF和3D高斯)的建议,该领域进入了增长的爆炸性阶段。越来越多样化的方案建模方法和能力的持续改进促进了研究工作数量的迅速增加。这种趋势强调了对系统评论的迫切需求和对该领域的整体评估。在这篇综述中,研究团队建立了系统的技术分类系统,将3D场景的现有方法划分为四个常规范式,每种类型的方法都与代表性研究结合在一起。这四个范式为生成3D场景建立了一条明确的技术途径,研究人员还比较了多个维度的性能指标,包括现实主义,多样性,视角的一致性,语义一致性,效率,可控性和物理可靠性。不同方法之间的可控性;发现可靠性,效率和一致性之间的补偿。诸如程序化场景之类的方法使用预定义的规则,物理或空间限制,或以前对大型语言模型(LLM)的了解来自动构建复杂的三维环境,例如地形,建筑物,道路,房间,房间,甚至整个城市。由于其良好的空间一致性,过程生成方法被广泛用于游戏和图形游戏中。根据某些范式,这种类型的方法是她的分散:基于规则的一代:通过预定义算法或仿真过程产生。它通常用于生成地形和自然环境。基于限制优化的生成:通过诸如物理规则和场景设计规则之类的限制来优化场景设计目标函数。它通常用于生成内部场景。大规模语言模型的生成:在LLM的帮助下生成场景设计,或将其用作代码和控制生成的程序化生成工具(例如Blender)的代理。基于基于3D的神经生成素3D(基于3D的神经生成)可用于直接在3D空间中建模,并为3D场景(场景图,场景参数)或直接生成3D表示(点,网格,网格,NERFS,3D高斯等)的结构设计,并具有强大的3D理解能力和表达能力。根据场景的设计,可以是D分入:参数控制:通过明确的场景参数(例如对象位置,指导,大小,几何嵌入等)设计控制场景的设计,并通过提取对象或对象的生成来改进详细信息。图形结构的表示:使用场景图来表示实体及其关系,通过对象提取或对象的产生来改善细节。语义设计:通过2D或3D语义图提供设计,并提供控制生成。图:学会通过隐式设计和生成空间结构和外观的末端来控制场景的设计。基于图像的一代技术的快速发展为3D场景建模带来了新的可能性。这种类型的方法基于2D图像生成模型,生成多个视觉图像并重建场景的三维结构。它主要包括两种策略。一般一代:基因同时对场景的完整视图进行评分。通常,它看起来是全景。迭代生成:逐渐扩展场景以生成图像序列。显式3D特征通常是通过深度估计方法获得的,以确保一致性。基于视频的几代人将3D场景作为临时序列图像扩展序列进行处理,并且视频生成范式集成了空间建模和临时一致性。借助诸如视频传播模型之类的新技术,这种类型的方法允许以鼓舞人心的观点和动态演化的身份综合身份效果。根据不同的生成过程,它们可以分为以下:一个阶段方法:结束视频生成,时间的协作建模,空间信息。两个阶段方法:视频生成分为两个阶段,具有单独控制的场景的时间连续性和空间一致性。 Th我们面临的四个主要挑战是在3D场景中的显着进步,但是有一个很棒的3D世界建模差距,这确实是“可控制的,非常忠诚和身体上现实的”。发电能力仍然不平衡。当前,在几种方法中都有独特的经验,尽管程序生成方法和3D神经非常适合结构建模和空间控制,但很难实现真实的纹理和照明。图像和视频生成技术的视觉效果是现实的,但通常会导致性能低以保持空间一致性,并且容易出现几何扭曲和其他问题。 。应提高3D表征。尽管3D表征表现不断发展,但它们在代表和效率方面有自己独特的不便。近年来,诸如3D高斯之类的新表达形式具有先进的效率,但是身体支持不好。如何构建3D表示紧凑而有效的场景水平具有物理重要性和视觉现实是一个困难的问题,目前必须打破。高质量的数据仍然是瓶颈。现有的数据集是两极分化的,并且S数据集的标签很明显,但它们缺乏多样性和现实主义。实际扫描数据是现实的,但是,没有精确的结构语义信息。此外,现有数据很少包含物理属性,材料或交互式信息,并支持诸如机器人学习和融合智能等任务的要求,这使得很难支持产生物理真实场景的生成。缺乏评估标准:当前的资格指标已分散,并且通常取决于以独特方式定义的视觉或几何指标。缺乏主观评估系统和统一目标。最近的参考点主要关注图像和视频分类,而没有直接3D属性es。 3D参考点作为eval3d,仅限于在对象级别进行建模,并为场景的评估计算场景提供有限的支持。未来的四个主要发展讲话更加忠实。未来的3D生成模型应同时实现未来3D生成模型的调整和统一性,专注于结构和外观,提高空间一致性,捕获阴影,阻止并改善对其他详细场景元素的关注,提高材料质量和照明建模。真实场景级别的高忠诚还要求本地细节与全球空间和语义设计紧密协调,以生成具有高现实和沉浸感的3D场景。物理限制的引入:尽管当前一代方法在视觉效果方面取得了重大进步,但通常会忽略物理真实性。未来的研究必须在Generati中引入身体进步,限制或模拟机制在确保结构,语义和身体行为结果的一致性的过程中。例如,可以通过可区分的物理模拟器和其他方式引入物理反馈。对于需要在物理一致的环境中(例如,智能和机器人)中制定决策和控制的应用程序,该地址尤为重要。支持交互的场景的产生:随着4D场景的开发,当前方法能够使用移动对象生成动态环境。但是,大多数当前场景几代人都没有响应并根据用户输入提供评论,而Entornone的更改可以做到。交互式场景的创建不仅需要实现“被动”动力学,而且还需要在物理互动下提供合理的响应,usuari指令o环境条件的变化。这要求模型具有逻辑以了解OBJEC的可用性TS,因果关系和多种药物之间的相互作用。感知产生的整合:统一的感知和世代能力是下一代3D场景的关键开发方向。诸如细分,重建和产生之类的任务取决于相同的空间和语义信息。将来,双向功能可以通过统一的体系结构来实现。精度还通过世代技能提高了对场景的理解。这种类型的模型是“感知生产”的一般树干网络,该网络提供了合并空间推理的集成视觉推断功能,语言和3D的代理。
校园风采
>校区风采 MD文件具有400多颗星。这篇评论详尽地分析了四个主要范式的3D场景的产生。
2025-06-13