본문 바로가기

AI 소식

한 장의 이미지로 3D 시점을 구현하는 AI, Stable Virtual Camera를 소개합니다.

안녕하세요,

최근 Stability AI에서 매우 흥미로운 AI 모델을 공개했습니다. 바로 "Stable Virtual Camera"입니다. 이 모델은 2D 이미지를 마치 영화처럼 생생한 3D 영상으로 변환할 수 있는 기술로, 복잡한 3D 재구성 없이도 깊이감과 카메라 움직임이 자연스럽게 구현된다는 점에서 큰 주목을 받고 있습니다.

이번 글에서는 Stable Virtual Camera가 어떤 기능을 가지고 있으며, 어떤 성능을 보여주는지 함께 살펴보겠습니다.


반응형

Stable Virtual Camera

2025년 3월 18일, Stability AI는 새로운 AI 모델인 Stable Virtual Camera를 공개했습니다. Stability AI는 이미지 생성 모델 개발로 잘 알려진 기업으로, 이번에는 이미지를 기반으로 3D 비디오를 생성할 수 있는 기술을 선보였습니다.

이 모델은 2D 이미지를 현실적인 깊이감과 원근감을 갖춘 3D 비디오로 변환할 수 있으며, 단일 이미지부터 최대 32장까지 입력이 가능합니다. 다중 시점 확산 모델(Multi-View Diffusion Model) 기반으로 작동하며, 복잡한 3D 재구성이나 장면별 최적화 없이도 자연스럽고 일관된 결과를 생성합니다. 특히, 다양한 시점에서 일관성 있는 움직임과 깊이 표현이 가능해 영상의 품질과 연속성이 크게 향상되었으며,
이를 통해 하나의 장면에서도 여러 시점의 비디오를 자유롭게 생성할 수 있습니다.

 

Introducing Stable Virtual Camera: Multi-View Video Generation with 3D Camera Control — Stability AI

Introducing Stable Virtual Camera, currently in research preview. This multi-view diffusion model transforms 2D images into immersive 3D videos with realistic depth and perspective—without complex reconstruction or scene-specific optimization.

stability.ai

 

 

주요 특징

  • 다중 시점 영상 생성 : 단일 이미지로부터 360도 회전, 이동, 패닝 등 다양한 카메라 동작을 적용한 입체적 비디오 생성 가능
  • 3D 카메라 제어 : 사용자가 카메라의 위치, 방향, 줌 등을 자유롭게 설정해 원하는 시점의 영상 연출 가능
  • 유연한 입력 : 최소 1장부터 최대 32장까지 이미지 입력 가능, 사용자 지정 각도에서 새로운 시점 생성
  • 카메라 경로 프리셋 : 14가지 프리셋 제공 (예: 360° 회전, 나선형, 달리 줌, 이동, 패닝 등)
  • 다양한 출력 포맷 : 비디오 비율: 1:1, 9:16, 16:9 등 지원 / 최대 1,000프레임까지 생성 가능

 

 

Stable Virtual Camera 데모 버전

아래 링크를 통해 Stable Virtual Camera 데모 버전을 사용해보실 수 있습니다.

출처: Stable Virtual Camera 허깅페이스

 

 

기술적 성능

Stable Virtual Camera는 기존의 ViewCrafter나 CAT3D와 같은 모델들보다 뛰어난 성능을 보여주며, 특히 Novel View Synthesis(NVS) 벤치마크 테스트에서 최첨단(SOTA, State-of-the-Art) 결과를 기록했습니다. 이 모델은 고정된 시퀀스 길이로 사전 학습되었지만, 실제 생성 단계에서는 훨씬 더 유연하게 작동하는 생성 렌더러 역할을 수행합니다.

즉, 입력 이미지 수나 원하는 출력 길이에 맞춰 유동적으로 대응할 수 있어 다양한 시나리오에 활용 가능합니다. Stable Virtual Camera는 2단계 절차적 샘플링 구조를 통해 더욱 자연스러운 결과를 만들어냅니다:

  1. 앵커 뷰(anchor view) 생성: 기준이 되는 시점을 먼저 생성하고
  2. 대상 시점(target view) 렌더링: 이후 나머지 시점들을 청크 단위로 렌더링하여 비디오를 완성합니다.

이 구조는 시점 전환을 매끄럽게 해주며, 전반적인 영상의 일관성과 품질 향상에 크게 기여합니다. 복잡한 움직임이나 다양한 카메라 경로에서도 안정적인 결과를 보여주는 점이 이 모델의 큰 강점입니다.

 

 

라이선스

Stability AI의 Stable Virtual Camera는 상업적 용도로 사용할 수 없습니다. 현재는 연구 및 비상업적 목적에 한해 무료로 제공되며, 수익을 창출하는 서비스나 제품, 콘텐츠에 사용하는 것은 허용되지 않습니다. 즉, 연구용이나 개인 프로젝트에서는 자유롭게 사용할 수 있지만, 유료 앱, 기업용 서비스, 상업 콘텐츠 등에 사용하는 것은 제한됩니다.

자세한 라이선스 조건은 아래 공식 문서를 참고해 주세요.

 

 

오픈 소스 공개

Stable Virtual Camera는 아래 깃허브와 허깅페이스에서 코드와 모델 가중치를 공개하고 있습니다.

 

 

현재 한계점

Stable Virtual Camera는 아직 연구 프리뷰 단계로, 몇 가지 기술적인 제한이 존재합니다. 우선, 사람, 동물, 물결치는 물처럼 복잡하거나 움직임이 많은 텍스처가 포함된 이미지에서는 생성된 비디오의 품질이 떨리거나 왜곡될 수 있습니다.
또한, 장면이 모호하거나, 카메라가 복잡한 경로로 물체나 표면을 가로지르는 경우, 또는 형태가 불규칙한 물체를 포함할 경우에는 영상에서 깜빡임 현상이 발생할 수 있습니다. 특히 목표 시점이 입력 이미지와 크게 다를 때 이러한 문제가 발생할 수 있습니다.

즉, 대부분의 정적 이미지에서는 안정적인 결과를 보여주지만, 다이나믹하거나 복잡한 시각적 요소가 포함된 경우에는 아직 개선이 필요한 단계입니다.


 

Stable Virtual Camera는 2D 이미지로부터 몰입감 있는 3D 비디오를 생성하는 놀라운 가능성을 보여주는 기술입니다. 비록 현재는 연구 프리뷰 단계로 일부 한계가 존재하지만, 이러한 시도들이 쌓여감에 따라 더 정교하고 실용적인 AI 영상 생성 모델들이 지속적으로 등장할 것입니다.

 

앞으로의 AI 기술은 더욱 사실적인 표현력과 더 넓은 활용 범위를 갖춘 형태로 발전해 나갈 것이며, Stable Virtual Camera는 그 진화의 출발점 중 하나로 주목할 만합니다. 빠르게 발전하는 생성형 AI의 흐름 속에서, 이 기술이 어떤 방식으로 확장되고 응용될지 지켜보는 것도 흥미로운 일이 될 것입니다.

 

 

감사합니다. 😊

 

반응형