ICCV 2023 | 沉浸式体验3D室内设计装修,基于三维布局可控生成最新技术

2023-09-13 22:23:18

文章链接: https://arxiv.org/abs/2307.09621

360°场景布局可控合成(360-degree Image Synthesis)目前已成为三维计算机视觉领域一个非常有趣的研究方向,在虚拟三维空间中沉浸式的调整和摆放场景对象,可以为用户带来身临其境的感觉,非常适合应用在3D家居模拟装饰领域。本文提出了一种拥有三维感知能力的对象布局生成器(object layout generator),其可以学习360全景照片中的对象隐藏向量,以便实现场景中各种布局的控制。为了实现精确且逼真的场景对象控制合成,作者使用生成对抗网络来实现该对象布局生成器。对于生成对抗网络的优化,作者巧妙设计了一个简单而高效的场景布局清空器(scene emptier),其可以移除场景中任意位置的对象来为模型生成对应拍摄角度的空场景来构成一致性循环约束。该文目前已被计算机视觉顶级会议ICCV 2023录用,作者在Structure3D数据集上对本文方法进行训练和评估,并将模型扩展到真实环境拍摄的Zillow室内场景数据集上,通过一系列的实验表明,本文方法已达SOTA效果,同时能够在现实环境中实现非常逼真的生成和编辑效果,为用户提供较好的沉浸式体验。

01. 介绍

全景图(360°图像)可以实现一种身临其境的用户体验,目前已广泛应用于各种虚拟现实(VR)应用中,例如苹果在今年六月份发布的vision Pro眼镜就是全景技术的综合应用。目前已有研究者开始考虑将这一技术应用在建筑和室内设计行业,实现360°视图室内场景的自动生成和编辑

这一领域目前主要面临两大挑战:

(1)所设计的生成方法在生成过程必须能够遵循全景图中的空间扭曲原则(如上图中画面接缝处的扭曲现象)

(2)所构建的模型必须实现内容的可控性,例如需要实现空间中对象的编辑和移动等等。

本文方法灵感来源于神经场景装饰(neural scene decoration,NSD)方法[1],NSD方法旨在从给定的背景图像和用户定义的家具布置来生成三维场景装饰图像,但是NSD方法有一些明显的局限性。例如它需要用户对家具的布置进行详细地对象布局建模,这使得模型的生成过程不是自动化的。其次,它的对象布局(用矩形表示)不适用全景投影的3D视图。此外,NSD方法没有明确的家具属性控制机制,这限制了生成内容的可控性和多样性。相反,本文采用不同的场景表示方法,并提出了一种在三维场景设置下完全自动的条件场景装饰合成方法。并使用360°感知的对象布局生成器来提取场景中家具的向量表示,并使用生成对抗网络来不断调节生成的内容,通过对生成对抗网络施加条件控制,本文方法可以轻易实现多样化且可控的场景装饰效果。

02. 方法

2.1 360°条件布局生成器

2.2 条件场景装饰器

2.3 场景清空器

03. 实验效果

本文的实验主要在在Structured3D和Zillow Indoor数据集上进行,前者包含了大量成对的未装饰和已装饰的全景图像,共涵盖了3500个室内场景。本文作者仅在Structured3D数据集的卧室子集和客厅子集上进行实验验证,随后在Zillow室内数据集的测试集上测试了模型的性能。性能评估指标使用图像生成领域常用的FID分数和KID分数,FID和KID通过测量该方法生成的图像与真实图像之间的相似性(在特征空间中)来评估方法的生成质量,本文方法与其他基线方法的对比结果如下表所示,可以看到本文方法在FID和KID分数上均优于其他所有基线方法。

下图展示了本文方法与其他基线方法生成效果的定性对比,图中第一行为当前场景真实的全景图像,第二行为输入图像,最后一行为本文方法生成的效果。可以观察到,本文方法生成的室内场景渲染图不仅具有逼真的效果,与其他方法相比也拥有更加合理的家具布置

为了综合评估本文方法的泛化能力,作者将其直接扩展到Zillow真实数据集上进行测试,如下图所示,左侧为模型的输入图像,右侧为输出,模型可以根据输入的真实全景图像生成合理的装饰版本,同时可以生成精美的物品来适应不同的卧室结构

除了主观的视觉效果,作者还对模型的泛化性能进行了定量评估,在Zillow数据集上与其他所有baseline方法的对比结果如下图所示,由于在Zillow数据集中缺少真实的装饰场景对象标签,因此在该实验中去掉了基于布局方法的效果,可以看到本文方法在真实场景数据集上仍然能够达到SOTA性能。

04. 总结

本文基于3D全景图像提出了一种条件图像生成方法,该方法可以为用户提供室内场景的沉浸式体验,同时保持了生成内容的合理性和可控性。通过在模拟数据集和真实场景数据集上的实验表明,本文方法具有强泛化的场景装饰自动渲染能力。由于360°全景图像为三维场景理解提供了相比2D图像更为丰富的上下文,作者也在未来工作中考虑将场景结构和场景语义引入布局设计和图像生成中,以此来改善家具布置和对象可控性,到那时,室内设计师就可以以一种极低成本的方式坐在办公室完成繁重的设计任务了。

参考

[1] Hong-Wing Pang, Yingshu Chen, Phuoc-Hieu Le, Binh-Son Hua, Duc Thanh Nguyen, and Sai-Kit Yeung. Neural scene decoration from a single photograph. In ECCV, 2022.

[2] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko ehtinen, and Timo Aila. Analyzing and improving the image quality of StyleGAN. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

更多推荐

Hadoop:Hive操作(二):数据表操作,复杂数据类型,Sampling采样,虚拟列

数据表操作上接:Hadoop:YARN、MapReduce、Hive操作_独憩的博客-CSDN博客分桶表分桶表创建分区的作用可以把数据分成n个文件夹单独存放,而分桶表则可以把一个表的数据放在一个文件夹下,但是分成n个文件存放分区是将表拆分到不同的子文件夹中进行存储,而分桶是将表拆分到固定数量的不同文件中进行存储。分桶和

深入理解CI/CD流程:改变你的开发生命周期

🌷🍁博主猫头虎(🐅🐾)带您GotoNewWorld✨🍁🦄博客首页——🐅🐾猫头虎的博客🎐🐳《面试题大全专栏》🦕文章图文并茂🦖生动形象🐅简单易学!欢迎大家来踩踩~🌺🌊《IDEA开发秘籍专栏》🐾学会IDEA常用操作,工作效率翻倍~💐🌊《100天精通Golang(基础入门篇)》🐅学会Gol

Linux网络编程|TCP编程

一.网络基础1.1网络发展史Internet-“冷战”的产物1957年10月和11月,前苏联先后有两颗“Sputnik”卫星上天1958年美国总统艾森豪威尔向美国国会提出建立DARPA(DefenseAdvancedResearchProjectAgency),即国防部高级研究计划署,简称ARPA1968年6月DARP

互联网摸鱼日报(2023-09-20)

互联网摸鱼日报(2023-09-20)36氪新闻国货美妆这五年:押注头部主播,追求极致流量中遭反噬​处于水深火热之中的奈飞该如何自救?一头“灰犀牛”将冲击美国年轻人花钱的样子变了金V之后再推橙V,微博正试图重建创作者生态超级富豪们,盯上了“抗衰老”赛道不爱换手机爱换手机壳?年轻人的手机消费究竟怎么了?单届莱德杯吸金2.

开始为 Android 开发 PWA 或混合 Web 应用

🎬岸边的风:个人主页🔥个人专栏:《VUE》《javaScript》⛺️生活的理想,就是为了理想的生活!目录PWA或混合Web应用的功能ApacheCordovaIonic通过安装所需工具开始使用Ionic使用IonicCordova和Angular创建新项目使用IonicCapacitor和Angular创建新项目

模板学堂|数据可视化仪表板大屏设计流程梳理

DataEase开源数据可视化分析平台于2022年6月正式发布模板市场(https://dataease.io/templates/)。模板市场旨在为DataEase用户提供专业、美观、拿来即用的仪表板模板,方便用户根据自身的业务需求和使用场景选择对应的仪表板模板,并在优质模板的基础上轻松制作自己的仪表板。目前,Dat

可视化图表组件之股票数据分析应用

股市是市场经济的必然产物,在一个国家的金融领域之中有着举足轻重的地位。在过去,人们对于市场走势的把握主要依赖于经验和直觉,往往容易受到主观因素的影响,导致决策上出现偏差。如今,通过数据可视化呈现,便可将历年数据和市场情报进行深度挖掘、分析,从中找到规律和趋势,帮助用户做出更准确的判断。回顾2022年A股市场的表现可谓是

Python爬虫从端到端抓取网页

网页抓取和RESTAPI简介网页抓取是使用计算机程序以自动方式从网站提取和解析数据的过程。这是创建用于研究和学习的数据集的有用技术。虽然网页抓取通常涉及解析和处理HTML文档,但某些平台还提供RESTAPI来以机器可读格式(如JSON)检索信息。在本教程中,我们将使用网络抓取和RESTAPI创建真实的数据集。如何运行代

Git学习笔记1

任务要求:1、使用git提交代码到仓库;2、实现自动代码发布系统;1、了解DevOps的发展历程和思想;2、学会git版本控制;3、会使用github公有仓库和gitlab私有仓库;4、了解CI/CD;5、使用jenkins实现自动发布;DevOps是一种实现Dev(开发)与Ops(运维)工作流有效联合的思想。最终目标

深入探索OCR技术:前沿算法与工业级部署方案揭秘

深入探索OCR技术:前沿算法与工业级部署方案揭秘注:以上图片来自网络1.OCR技术背景1.1OCR技术的应用场景OCR是什么OCR(OpticalCharacterRecognition,光学字符识别)是计算机视觉重要方向之一。传统定义的OCR一般面向扫描文档类对象,现在我们常说的OCR一般指场景文字识别(SceneT

服务器数据恢复-热备盘同步过程中硬盘离线的RAID5数据恢复案例

服务器数据恢复环境:华为OceanStor某型号存储,11块硬盘组建了一组RAID5阵列,另外1块硬盘作为热备盘使用。基于RAID5阵列的LUN分配给linux系统使用,存放Oracle数据库。服务器故障:RAID5阵列1块硬盘由于未知原因离线,热备盘激活开始同步数据,在热备盘同步的过程中又有1块硬盘离线,RAID5阵

热文推荐