[영상 생성 AI] [로컬 환경] ComfyUI 이용하여 영상 생성하기 3탄 : Stable Video Diffusion 활용하기

안녕하세요,

AI를 활용하면 이제 이미지 생성뿐만 아니라 다양한 콘텐츠 생성이 가능해졌습니다. 노래, 작곡, 심지어 영상 생성까지도 AI 모델을 통해 생산할 수 있습니다. 이번 포스팅에서는 텍스트나 이미지를 입력받아 영상을 생성하는 AI 모델인 Stable Video Diffusion(SVD)를 소개하고자 합니다. 이 모델은 이미지 생성 AI 모델 Stable Diffusion을 오픈 소스로 공개하여 유명한 Stability AI에서 개발한 것입니다. 작년에 출시되었지만 여전히 뛰어난 퀄리티를 자랑해 소개드리게 되었습니다. 그럼 이제 SVD 모델에 대해 자세히 알아보겠습니다.

Stable Video Diffusion (SVD)

Stable Video Diffusion(SVD) 모델은 Stability AI에서 2023년 11월 21일에 개발한 모델로, 이미지와 텍스트를 기반으로 고해상도 비디오를 생성하는 이미지 기반 비디오 생성 모델입니다. 이 모델은 Stable Diffusion의 2D 이미지 합성 능력을 확장하여 14프레임(SVD) 또는 25프레임(SVD-XT)의 비디오를 생성할 수 있습니다. 이를 통해 576x1024 해상도의 짧은 비디오 클립을 생성할 수 있습니다.

Stability AI SVD 소개 페이지 : https://stability.ai/news/stable-video-diffusion-open-ai-video-model

Introducing Stable Video Diffusion — Stability AI

Stable Video Diffusion is a proud addition to our diverse range of open-source models. Spanning across modalities including image, language, audio, 3D, and code, our portfolio is a testament to Stability AI’s dedication to amplifying human intelligence.

stability.ai

이 모델은 다양한 애플리케이션에 적용될 수 있으며, 예를 들어 텍스트나 이미지를 입력으로 받아 짧은 비디오를 생성하는 방식으로 작동합니다. 비디오의 프레임 속도는 최대 30FPS까지 조정할 수 있으며, 생성된 비디오는 학습된 데이터의 특성에 따라 매우 고품질의 결과물을 제공합니다.

Stable Video Diffusion (SVD) 라이선스

Stability AI 라이선스에 따르면, 연구 및 비상업적 목적(개인적, 학문적 사용)으로 Stability AI의 자료를 무료로 사용할 수 있으며, 연 매출이 미화 100만 달러 이하인 경우 상업적 사용도 가능합니다. 상업적 사용 시 Stability AI에 등록해야 하며, 100만 달러를 초과할 경우 별도의 라이선스가 필요합니다. Stability AI 자료나 파생작업물을 배포할 때는 라이선스 사본과 함께 "Powered by Stability AI" 문구를 명시해야 하며, 수정된 작업물의 경우 수정 내용을 표시해야 합니다. 모델을 사용해 생성한 결과물(output)은 사용자에게 소유권이 있으며 상업적으로 사용할 수 있지만, Stability AI의 모델을 수정하거나 재학습하여 만든 파생작업물(Derivative Work)은 Stability AI의 원본 모델에 대한 권리가 유지됩니다.

Stability ai 라이센스 : https://stability.ai/license

사전준비사항

이 포스팅은 ComfyUI에서 SVD 모델을 활용하는 방법에 대한 내용입니다. 따라서 본문을 읽기 전에 ComfyUI와 ComfyUI-Manager를 미리 설치해 주시기 바랍니다.

ComfyUI 설치 방법 : [Macus' Story] - [이미지 생성 AI] [로컬 환경] ComfyUI 이용하여 이미지 생성하기 1탄
ComfyUI-Manager 설치 방법 : [Marcus' Story] - [이미지 생성 AI] [로컬 환경] ComfyUI 이용하여 이미지 생성하기 2탄 : ComfyUI-Manager

목차
1. 실행 환경
2. 다운로드 모델 및 커스텀 노드
3. 노드 구성
4. 실행 (영상 생성)
5. 영상 비교

1. 실행 환경

운영체제 : Windows 11
ComfyUI : 0.2.2
ComfyUI-Manager : V2.51
Python : 3.10.14
torch : 2.4.1 + cu121
GPU : NVIDIA GeForce RTX 4060 Ti

2. 다운로드 모델 및 커스텀 노드

1) ComfyUI 커스텀 노드

ComfyUI-VideoHelperSuite 노드
1. ComfyUI를 먼저 실행합니다.
2. 그다음 Manager를 실행한 후, Custom Nodes Manager를 선택하세요.
3. 검색창에 VideoHelperSuite를 입력한 뒤, 검색 결과에서 ComfyUI-VideoHelperSuite 노드를 찾아 설치합니다

2) 모델 파일 다운로드 및 디렉토리 설정

아래의 SVD 모델들을 다운받습니다.

img2vid 모델 : https://huggingface.co/stabilityai/stable-video-diffusion-img2vid/tree/main
img2vid-xt 모델 : https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt/tree/main

출처: Stability ai 허깅페이스 (svd / svd_xt 모델)

모델 파일을 다운로드가 완료되셨으면, 해당 파일을 아래 경로에 있는 checkpoints 폴더로 이동시켜 주세요.

(ComfyUI 폴더) → (models 폴더) → (checkpoints 폴더)

두 모델의 차이점

img2vid-xt 모델은 img2vid 모델을 기반으로 미세 조정(finetuning)된 버전입니다. 두 모델의 주요 차이점은 다음과 같습니다.

프레임 생성 수 : img2vid 모델은 14프레임을 생성하며, img2vid-xt 모델은 이를 미세 조정하여 25프레임을 생성할 수 있습니다.
해상도 : 두 모델 모두 1024x576 해상도를 사용합니다.
동작 범위 : img2vid-xt 모델은 img2vid 모델보다 더 다양한 움직임을 구현할 수 있도록 설계되었습니다.

3. 노드 구성

구성된 노드는 다음과 같습니다.

Image Only Checkpoint Loader (img2vid model)
Load Image
VideoLinearCFGGuidance
SVD_img2vid_Conditioning
KSampler
VAE Decoder
Video Combine

아래 파일은 위에서 구성한 노드 파일입니다.

comfyui_svd_node.json

0.01MB

4. 실행 (영상 생성)

이제 위에서 준비한 모델과 노드 구성을 바탕으로 영상을 생성해보겠습니다. 사용할 이미지는 이전에 Tooncrafter에서 사용했던 이미지를 활용할 예정입니다. 비교를 위해 14 프레임 영상과 25 프레임 영상을 각각 생성해보겠습니다.

1) img2vid 모델

img2vid 모델의 경우, 아래 영상을 통해 14 프레임으로 생성한 영상이 상대적으로 더 자연스럽다는 점을 확인할 수 있습니다. 25 프레임 영상의 경우에는 다소 빠르고 움직임이 부자연스러운 느낌을 받을 수 있습니다.

SVD img2vid 모델 14 프레임 영상

SVD img2vid 모델 25 프레임 영상

2) img2vid-xt 모델

img2vid-xt 모델에서는 25 프레임 영상이 더 자연스러운 결과를 보여줍니다. 프레임 수가 많아 복잡한 움직임을 더 정밀하게 표현할 수 있으며, 14 프레임 영상에 비해 보다 부드럽고 자연스러운 움직임을 제공합니다.

SVD img2vid-xt 모델 14 프레임 영상

SVD img2vid-xt 모델 25 프레임 영상

5. 영상 비교

img2vid 모델의 14프레임 영상은 프레임 수가 적어 빠른 움직임을 표현하는 데는 한계가 있지만, 전체적으로 부드럽고 자연스러운 흐름을 유지합니다. 반면, 25프레임 영상은 프레임 수가 많아 더 섬세한 움직임을 표현할 수 있지만, 프레임 속도(FPS)와 설정이 조화를 이루지 않으면 인물의 움직임이 배속된 것처럼 빠르게 보일 수 있습니다. 이를 해결하려면 프레임 보간 기술이나 FPS 조절이 필요합니다.

img2vid-xt 모델은 25프레임으로 생성된 영상에서 더 정밀한 움직임 표현이 가능합니다. 이 모델은 복잡한 장면이나 빠르게 변화하는 움직임에서도 부드럽고 자연스러운 영상을 제공합니다. 특히, 프레임 수가 증가함에 따라 시간적 일관성이 높아지며, 부드러운 화면 전환이 가능해집니다.

두 모델로 생성된 영상을 비교해보면, 각기 다른 프레임 수(14프레임, 25프레임)에서 가장 자연스러운 영상을 얻을 수 있습니다. 영상을 더욱 자연스럽게 만들기 위해서는 프레임 속도(FPS) 조절, LoRA 적용, 프레임 보간 활용 등 다양한 방법이 있습니다. 다음 포스팅에서는 영상을 조금 더 부드럽고 자연스럽게 만드는 구체적인 방법을 안내해드리겠습니다.

감사합니다. 😊

저작자표시 비영리 변경금지 (새창열림)

'ComfyUI > 영상 생성' 카테고리의 다른 글

[영상 생성 AI] [로컬 환경] ComfyUI 이용하여 영상 생성하기 6탄 : LTX-Video AI (1)	2024.12.05
[영상 생성 AI] [로컬 환경] ComfyUI 이용하여 영상 생성하기 5탄 : Mochi AI (2)	2024.11.20
[영상 생성 AI] [로컬 환경] ComfyUI 이용하여 영상 생성하기 4탄 : PyramidFlowWrapper (1)	2024.11.14
[영상 생성 AI] [로컬 환경] ComfyUI 이용하여 영상 생성하기 2탄: ComfyUI-LivePortraitKJ (16)	2024.08.31
[영상 생성 AI] [로컬 환경] ComfyUI 이용하여 영상 생성하기 1탄: ComfyUI + ToonCrafter (6)	2024.08.14

Marcus' Stroy

[영상 생성 AI] [로컬 환경] ComfyUI 이용하여 영상 생성하기 3탄 : Stable Video Diffusion 활용하기

Stable Video Diffusion (SVD)

Stable Video Diffusion (SVD) 라이선스

사전준비사항

1. 실행 환경

2. 다운로드 모델 및 커스텀 노드

3. 노드 구성

4. 실행 (영상 생성)

5. 영상 비교

'ComfyUI > 영상 생성' 카테고리의 다른 글

티스토리툴바

[영상 생성 AI] [로컬 환경] ComfyUI 이용하여 영상 생성하기 3탄 : Stable Video Diffusion 활용하기

Stable Video Diffusion (SVD)

Stable Video Diffusion (SVD) 라이선스

사전준비사항

1. 실행 환경

2. 다운로드 모델 및 커스텀 노드

3. 노드 구성

4. 실행 (영상 생성)

5. 영상 비교

'ComfyUI > 영상 생성' 카테고리의 다른 글

'ComfyUI/영상 생성' Related Articles

티스토리툴바