UIUC & Zillow提出LayoutNet：從單個RGB圖像中重建3D房間佈局

摘要：近日，來自
UIUC和Zillow的研究者在arXiv上發布論文，提出LayoutNet——一種僅通過單張透視圖或全景圖就能估算室內場景3D

佈局的深度卷積神經網絡（CNN）。該方法在全景圖上的運行

近日，來自
UIUC 和 Zillow 的研究者在 arXiv 上發布論文，提出 LayoutNet——一種僅通過單張透視圖或全景圖就能估算室內場景 3D

佈局的深度卷積神經網絡（CNN）。該方法在全景圖上的運行速度和預測精度比較好，在透視圖上的性能是最好的方案之一。該方法也能夠推廣到非長方體的曼哈頓佈局中。目前，該論文已經被
CVPR 2018 接收。

引言

對於機器人和虛擬現實、增強現實這樣的應用來說，從圖像中估算出房間的三維佈局是一個重要的任務。房間的佈局指牆壁相對於相機中心的位置、方向以及高度。佈局可以表示為一組經過投影處理的角落位置或邊界，或者表示為一個
3D 網格。現有的研究被應用於一些特定的問題，例如通過透視圖或全景圖預測長方體形狀的室內佈局。

本論文提出了
LayoutNet，它是一個僅通過單張透視圖或全景圖（如圖 1 所示）就能估算室內場景 3D
佈局的深度卷積神經網絡（CNN）。該方法在全景圖上的運行速度和預測精度比較好，在透視圖上的性能是最好的方案之一。該方法也能夠推廣到非長方體的曼哈頓佈局中，例如「L」形的房間。

代碼地址：https://github.com/zouchuhang/ LayoutNet

圖 1. LayoutNet 根據單張等距柱狀投影的全景圖預測一個非長方體房間的佈局。

LayoutNet
方法的工作流程包含三個步驟（如圖 2 所示）。首先，系統分析消失點，並且將圖像與地面對齊在一條水平線上（見 Sec.
3.1）。這種對齊方式確保了牆與牆的邊界是垂直的線，根據實驗結果，該操作大大降低了誤差。第二步，使用一個帶有編碼器-解碼器結構和跳躍連接的捲積神經網絡直接預測圖像上的角（佈局中的連接處）和邊界的概率圖。每個角落和邊界都提供了房間佈局的完整表示。研究者發現，在單個網絡中一起預測它們將得到更好的估計結果。最終，研究者對三維佈局參數進行了優化，用於擬合預測出的角落和邊界（見
Sec. 3.4）。最後三維佈局優化過程的損失很難在網絡中進行反向傳播，但是訓練過程中對 3D 參數執行的直接回歸（direct
regression）起到了有效的替代作用，這最大化提升了最終預測的準確度。

本文的突出貢獻有：

提出了一種更加通用的根據 RGB 圖像推斷出佈局的算法，它適用於曼哈頓佈局的透視圖和全景圖。該系統在全景圖像上有較好的運行速度和預測準確度，在透視圖圖像上取得了第二優的綜合預測性能和最優的運算速度。
展示了利用預先計算出的消失點線索、幾何約束以及後處理優化的好處，說明深度神經網絡方法仍然能夠從幾何線索和約束中受益。研究者還展示了添加目標函數以直接回歸 3D 佈局參數，從而更好地預測用於最終解決佈局預測問題的邊界和角落。
擴展了斯坦福「2D-3D」數據集的註釋 [1]，提供了可用於後續工作的房間佈局註釋。

圖 2. 概述。 LayoutNet 遵循編碼器-解碼器策略。網絡的輸入是單張 RGB 全景圖和曼哈頓線圖的級聯。該網絡將一同預測佈局的邊界和角落的位置。 3D 佈局參數損失使得預測準確率最大化提升。最終的預測結果是一個曼哈頓約束下的佈局重建。

網絡架構

LayoutNet
網絡架構如圖 2 所示。該網絡遵循編碼器-解碼器策略。深度全景編碼器：輸入為一個 6 通道的特徵映射，即使用 Sec. 3.1
中提到的對齊方法將分辨率為 512*1024 的單個 RGB 全景圖（或者分辨率為 512*512
的透視圖）和三個正交消失方向上的曼哈頓線圖的特徵映射級聯起來。編碼器包含 7 個卷積層，卷積核的大小為 3*3。每個卷積之後會跟隨一個 ReLU
操作和最大池化層，其下採樣因子為 2。第一個卷積層有 32
個特徵，研究者在每次卷積操作之後將特徵規模擴大到之前的兩倍。這個深度神經網絡結構確保從高分辨率圖像中學習到更好的特徵，有助於簡化解碼步驟。研究者嘗試在每一個卷積層之後進行批量歸一化操作，但是發現這樣做預測準確率降低。研究者還探索了另一種網絡結構，單獨將一個編碼器應用於輸入圖像和曼哈頓線圖上，但它與研究者目前使用的簡單設計相比，性能沒有得到提升。

表
1. 使用 PanoContext 數據集 [33] 從全景圖中得到的長方體佈局量化預測結果。研究者比較了 PanoContext
方法，並且在本文提出方法的各種配置參數上引入了模型簡化分析。粗體數字表示訓練 PanoContext 數據時得到的最佳性能。

表 3. 在研究者標註的斯坦福 2D-3D 註釋數據集上的模型評估結果。研究者通過對各種變量的模型簡化分析評估了 LayoutNet 方法。粗體數字表示僅僅在斯坦福 2D-3D 訓練數據集上的最佳訓練結果。

圖
3. 在 PanoContext 數據集 [33] 上對長方體佈局預測的定性分析結果（隨機抽樣）。研究者展示了其方法（偶數列）和當前最優方法
[33]（奇數列）的性能。每個圖像由給定計算方法預測出的佈局（橙色的線）和標定的真實佈局（綠色的線）組成。本文方法在像素層面上是十分準確的，但是正如定量分析結果中交並比（IoU）這一測度所顯示的那樣，三維佈局預測對即使是很小的二維預測誤差都很敏感。

圖
4. 在斯坦福 2D-3D 註釋數據集上對長方體佈局預測的定性分析結果（隨機抽樣）。與 PanoContext
數據集相比，這個數據集更加棘手，因為它垂直方向的視場更小，而且更加閉塞。研究者展示了其方法預測出的佈局（橙色的線），並將其與真實的佈局（綠色的線）進行了對比。

圖 5. 對透視圖的定性分析結果。研究者展示了輸入的 RGB 圖像，預測了邊界/角落圖以及最終估算出來的分佈（橙色的線），並將其與真實的佈局（綠色的線）進行了對比。

論文：LayoutNet: Reconstructing the 3D Room Layout from a Single RGB Image

論文鏈接： https://arxiv.org/abs/1803.08999

摘要：我們提出了一種根據單張圖像預測房間佈局的算法，它能夠被推廣到全景圖、透視圖、長方體佈局和更一般化的佈局中（如
L 形房間）。我們的方法可直接在全景圖像上運行，而不是像近來的一些研究那樣將全景圖分解成多個透視圖。我們的網絡架構類似於
RoomNet，但是我們展示了一系列改進：根據消失點將圖像對齊、預測多個佈局元素（角落、邊界、大小和圖像轉化），並且將一個帶約束的曼哈頓佈局和最終的預測結果進行了擬合。在全景圖上，我們的方法在運算速度和預測準確度上有較好的性能；在透視圖上，我們方法的預測準確度是最優方法之一，並且能夠處理長方體形狀佈局和更一般的曼哈頓佈局。

本文僅代表作者觀點，不代表百度立場。
本文係作者授權百度百家發表，未經許可，不得轉載。

相關推薦