Stable Diffusion 2의 Depth-to-Image Model

2022. 12. 1. 19:47Stable Diffusion 2.0

Stable Diffusion 2의 주요한 업데이트 내용 중 하나인 Depth-to-Image Model은 이미지의 깊이를 추론하고 텍스트와 깊이 정보를 모두 사용하여 새로운 이미지를 생성하는 Stable Diffusion 2의 새로운 깊이 기반 모델(depth-guided model)이다.

 

기본 이미지에서 깊이 정보를 추론하여, 이를 공간으로 치환하고, 같은 공간내 이미지를 생성하므로 사용자의 기대값에 근접하는 3차원적인 구조를 특정하고, 유지할 수 있는 장점이 있으며, 평면적인 이미지 생성에 많이 쓰이는 경향이 있던 인공지능 생성 이미지를 좀 더 공간적인 영역으로 확장할 수 있는 장점이 있다.

 

또한 깊이 기반 이미지의 생성이 가능하게 되면서 단순한 2차원적인 이미지의 연속적인 레이어의 생성 이상으로 3차원적인 모델링을 생성할 수 있는 기능적 확장을 기대할 수 있게 되었다고 할 수 있다.

 

Stable Diffusion 2의 깊이 기반 이미지 생성은 MiDaS에 기반하고 있다.

 

https://github.com/isl-org/MiDaS

 

GitHub - isl-org/MiDaS: Code for robust monocular depth estimation described in "Ranftl et. al., Towards Robust Monocular Depth

Code for robust monocular depth estimation described in "Ranftl et. al., Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer, TPAMI 2022" - Git...

github.com