Дмитрий Вихарев. Построение 3D модели сцены по одному

реклама
Построение 3D модели сцены
по одному фотоснимку
Cornell University
Make3D Project:
http://make3d.cs.cornell.edu/
Дмитрий Вихарев
студент магистратуры ГУ-ВШЭ
twitter.com/vikds
Наглядный пример
http://www.flickr.com/photos/lofink/4501610335/
Особенность проекта
diff
monocular cues
Современно?
Ashutosh
Saxena
Andrew
Y. Ng
Learning Depth
from Single
Monocular Images
2005
2006
3-D Depth
Reconstruction
from a Single Still
Image
2007
Основная статья, разъясняющая
механизм обработки фотоснимков:
Make3D: Learning 3-D Scene
Structure from a Single Still Image
(2008)
Make3D:
Learning 3-D
Scene Structure
from a Single Still
Image
2008
2009
i23 - Rapid
Interactive 3D
Reconstruction
from a Single Image
2010
2011
http://www.flickr.com/photos/lofink/4501610335/
Computer vision machine learning
Обычная фотография
3D Модель сцены
MRF: Markov Random Field
Модель Изинга
𝐽
𝑈𝑖 𝜔 = −
2
𝜔𝑖 𝜔𝑗 − 𝑚𝐻
𝑗−𝑖 =1
𝜔𝑖
𝑖
Свойство Марковского типа
𝑃 𝜔𝑗 = 𝑎 𝜔𝑘 , 𝑘 ≠ 𝑗) = 𝑃 𝜔𝑗 = 𝑎 𝜔𝑘 , 𝑘 ∈ 𝑁𝑗 )
1
𝑃 𝜔 =
𝑍
1
−𝑘𝑇 𝑈𝑖 (𝜔)
𝑒
𝑖
Сегментация
Efficient Graph-Based Image Segmentation (2004)
http://www.flickr.com/photos/lofink/4501610335/
Постановка задачи
Нужно будет определить параметры:
Плоскостей 𝛼 ∈ ℝ3
определяемые нормальным вектором
Расстояния до суперпикселей вычисляются по
𝑑𝑖 =
1
𝑅𝑖𝑇 𝛼
𝛼=
𝛼
𝛼
В MRF учитывались
Local features
Coplanarity
Connection
Collinearity
Monocular cues
𝐸𝑖 𝑛 =
𝐼 𝑥, 𝑦 ∗ 𝐹𝑛 𝑥, 𝑦
𝑘
𝑥,𝑦 ∈𝑆𝑖
𝑘 = 2,4
1
2
3
4
5
…
…
…
31
32
33
34
+14
http://www.flickr.com/photos/lofink/4501610335/
Monocular cues: контекст
Итого:
1
34 ∗ 4 + 1 ∗ 3 + 14 = 524
2
3
4
5
…
особенности для «суперпикселя»
…
…
521
522
523
524
Edge detection
bool
1
2
3
4
5
…
…
…
11
12
13
14
Формальная постановка задачи
Output:
Input:
𝑋
Входные параметры
суперпикселей (local features)
𝜃
Параметры обученной
модели MRF
𝜐
«Доверие» к расстоянию до объекта,
вычисленному опираясь только на
локальные свойства суперпикселя
𝑦
Оценка того, насколько четко мы
определили границу между
суперпикселями
𝑃 𝛼 𝑋, 𝜐, 𝑦, 𝑅; 𝜃) =
1
𝑍
𝛼 Параметры плоскости,
определяющие положение и
ориентацию суперпикселя в
пространстве
𝑓1 𝛼𝑖 | 𝑋𝑖 , 𝜐𝑖 , 𝑅𝑖 ; 𝜃
𝑖
𝑓2 𝛼𝑖 , 𝛼𝑗 | 𝑦𝑖𝑗 , 𝑅𝑖 , 𝑅𝑗
𝑖,𝑗
http://www.flickr.com/photos/lofink/4501610335/
Local features
𝑑𝑖,𝑠𝑖 − 𝑑𝑖,𝑠𝑖
𝑑𝑖,𝑠𝑖
𝑇
𝑇
=
− 1 = 𝑅𝑖,𝑠
𝛼
𝑥
𝜃 −1
𝑖
𝑖,𝑠
𝑖
𝑖 𝑟
𝑑𝑖,𝑠𝑖
𝑑𝑖,𝑠𝑖
𝑆𝑖
𝑇
𝑇
𝜐𝑖,𝑠𝑖 𝑅𝑖,𝑠
𝛼
𝑥
𝜃 −1
𝑖
𝑖,𝑠
𝑖
𝑖 𝑟
𝑓1 𝛼𝑖 | 𝑋𝑖 , 𝜐𝑖 , 𝑅𝑖 ; 𝜃 = exp −
𝑠𝑖 =1
Connection
ℎ𝑠𝑖 ,𝑠𝑗 𝛼𝑖 , 𝛼𝑗 , 𝑦𝑖𝑗 , 𝑅𝑖 , 𝑅𝑗 = exp −𝑦𝑖𝑗
𝑇
𝑇
𝑅𝑖,𝑠
𝛼
−
𝑅
𝛼 𝑑
𝑖
𝑗,𝑠
𝑖
𝑗 𝑗
Coplanarity
ℎ𝑠′′ 𝛼𝑖 , 𝛼𝑗 , 𝑦𝑖𝑗 , 𝑅𝑗,𝑠′′ = exp −𝑦𝑖𝑗
𝑗
𝑗
𝑇
𝑇
𝑅𝑗,𝑠
′′ 𝛼𝑖 − 𝑅 ′′ 𝛼𝑗 𝑑𝑠 ′′
𝑗,𝑠
𝑗
𝑗
𝑗
Collinearity
ℎ𝑠𝑗 𝛼𝑖 , 𝛼𝑗 , 𝑦𝑖𝑗 , 𝑅𝑗,𝑠𝑗
= exp −𝑦𝑖𝑗
𝑇
𝑇
𝑅𝑗,𝑠
𝛼
−
𝑅
𝛼 𝑑
𝑖
𝑗,𝑠
𝑗
𝑗 𝑗
Решение
Обучение:
MCL (Multi-Conditional Learning)
Методы линейного программирования (LP) min 𝐿1 -нормы
𝜃𝑟∗ = arg max
𝜃𝑟
log 𝑓1 𝛼𝑖 | 𝑋𝑖 , 𝜐𝑖 , 𝑅𝑖 ; 𝜃𝑟 +
𝑖
Построение модели:
log 𝑓2 𝛼𝑖 , 𝛼𝑗 | 𝑦𝑖𝑗 , 𝑅𝑖 , 𝑅𝑗
𝑖,𝑗
Оценивается и максимальная апостериорная
вероятность (MAP) для параметров плоскостей
Методы линейного программирования (LP) min 𝐿1 -нормы
Модифицированный метод Ньютона для эффективного нахождения Гессиана
𝛼 ∗ = arg max log 𝑃 𝛼 | 𝑋, 𝜐, 𝑦, 𝑅; 𝜃𝑟
𝛼
Технические детали
Фотоснимки
2272x1704
Всего снимков
400
Матрицы расстояний
55x305
150 Мб
MATLAB + C++
*.cpp, *.c  *.mex
VRML
*.wrl
Ограничения
В текущей реализации:
•
•
•
•
•
Обучение проводилось только на снимках ландшафтов местности
Небольшое количество обучающего набора фотографий (400)
Фотографии – ландафты местности Пало-Альто в летнее время
Низкая разрешающая способность лазера (55x305)
Несмотря на из разрешение фотографий, они все перед обработкой
приводятся к одному и тому же небольшому разрешению
• В математической модели жестко заданы параметры фототехники
(фокусное расстояние, диафрагма…)
Дальнейшее развитие проекта
Построение трехмерной модели сцены по нескольким фотоснимкам
Добавление элементов Интерактивности
Возможное применение
Microsoft «3DVIA Shape»
Google
«SketchUp»
Демонстрация
Спасибо за внимание
Дмитрий Вихарев
студент магистратуры ГУ-ВШЭ
[email protected]
twitter.com/vikds
Скачать