본문 바로가기

ComfyUI/영상 생성

[ComfyUI + Wan2.1-VACE] AI 하나로 Text to Video부터 Video 편집까지!|오픈소스|영상 생성 AI

안녕하세요,

최근 영상 생성 AI 기술은 눈부신 속도로 발전하고 있으며, 이제는 텍스트나 이미지 하나만으로도 고품질의 영상을 만드는 시대가 열리고 있습니다. 그 중 소개해드릴 모델은 바로 Wan2.1-VACE입니다.

Wan2.1-VACE는 텍스트, 이미지, 비디오, 마스크 등 다양한 입력을 활용해 영상 생성은 물론, 세밀한 편집까지 가능한 올인원 오픈소스 모델로 주목받고 있습니다. 특히 ComfyUI와 연동해 누구나 시각적으로 손쉽게 테스트할 수 있어, AI 영상 제작의 진입 장벽을 크게 낮춰줍니다.

이번 글에서는 Wan2.1-VACE 모델을 직접 활용해 Text to Video, Image to Video, Video to Video 방식으로 영상 생성하는 방법에 대해 알아보겠습니다.


반응형

Wan2.1-VACE

Wan2.1-VACE는 알리바바가 2025년 5월 공개한 오픈소스 대규모 AI 영상 생성·편집 통합 모델입니다. 이 모델은 Wan2.1 시리즈의 일원으로, 영상 생성과 편집을 하나의 프레임워크에서 모두 처리할 수 있는 업계 최초의 오픈소스 통합 모델이라는 점이 특징입니다.

 

 

주요 특징

  • 멀티모달 입력 지원 : 텍스트, 이미지, 비디오, 마스크, 포즈 등 다양한 입력을 결합해 고품질 영상 생성 및 편집이 가능합니다.
  • 올인원 영상 생성·편집 모델 : 하나의 모델로 생성(Reference2Video), 편집(Video2Video), 확장(Animation, Inpainting)까지 모두 처리할 수 있습니다.
  • 시간적 일관성 유지 : 캐릭터의 동작, 외형, 스타일을 프레임 전반에 걸쳐 자연스럽게 유지합니다.
  • 고해상도 지원 (최대 720p) : 14B 버전에서는 고해상도, 정밀 묘사, 디테일한 스타일 재현이 가능합니다.

 

 

모델 구성

Wan2.1-VACE 모델은 두 가지 크기의 모델이 제공됩니다:

  • Wan2.1-vace-1.3B
    경량 버전으로, 상대적으로 빠른 추론과 적은 리소스를 요구합니다.
    실험 및 일반적인 비디오 생성·편집 작업에 적합합니다.
  • Wan2.1-vace-14B
    고성능 대형 모델로, 더 섬세한 디테일 표현과 높은 해상도(최대 720p)를 지원합니다.
    정교한 스타일 유지, 장면 일관성, 고품질 출력이 필요한 작업에 적합합니다.

 

 

라이선스

Wan2.1-VACE 모델은 Apache License 2.0 하에 배포되며, 상업적 이용을 포함한 자유로운 사용, 수정, 배포가 가능합니다. 단, 소프트웨어를 사용할 때는 라이선스 전문에 명시된 조건을 따라야 하며, 저작권 및 라이선스 고지를 유지해야 합니다. 이로 인해 연구 목적뿐만 아니라 상업적인 프로젝트에도 유연하게 적용할 수 있는 장점이 있습니다.

 

 

사전준비사항

이 포스팅은 ComfyUI에서 Wan2.1-VACE 모델을 활용하는 방법에 대한 내용입니다. 본문을 읽기 전에 아래 항목들을 미리 설치해 주시기 바랍니다.

 

[Stabiliy Matrix&ComfyUI 설치하기] (포스팅에서 사용한 방식)

[로컬에 직접 ComfyUI 설치하기]

 

목차
1. 실행 환경
2. ComfyUI 사용 노드

3. 다운로드 및 위치 설정
4. 영상 생성 (Wan2.1-VACE 활용)

1. 실행 환경

  • 운영체제 : Windows 11
  • ComfyUI : 0.3.40
  • ComfyUI-Manager : V3.30
  • Python : 3.10.11
  • torch : 2.7.1 + cu128
  • GPU : NVIDIA GeForce RTX 4060 Ti

 

 

2. ComfyUI 사용 노드

이번 포스팅에서는 별도로 다운로드해야 할 커스텀 노드 없이 진행됩니다. 하지만 ComfyUI를 최신 버전으로 업데이트하는 것이 중요합니다. 최신 버전으로 업데이트하면 모델과의 호환성을 극대화할 수 있으며, 성능 개선 및 버그 수정을 통해 최적의 결과를 얻을 수 있습니다.

  • Stability Matrix를 사용하는 경우 → Stability Matrix 화면에서 "Update" 버튼을 클릭하여 간편하게 업데이트할 수 있습니다.
  • ComfyUI를 로컬에 설치한 경우ComfyUI-Manager에서 "Update ComfyUI" 버튼을 눌러 최신 버전으로 업데이트하세요.

(좌) Stability Matrix 화면 / (우) ComfyUI Manager 화면

 

 

3. 다운로드 및 위치 설정

Wan2.1-VACE 모델은 현재 허깅페이스에서 1.3B 버전14B 버전 두 가지로 제공되고 있습니다. 기본적으로 1.3B 버전만 사용하더라도 약 15GB 이상의 VRAM이 필요합니다. 이번 포스팅에서는 1.3B 버전을 사용하여 테스트를 진행하였습니다. 만약 더 높은 컴퓨팅 성능을 갖춘 환경이라면 14B 버전을 선택하셔도 무방합니다.

 

1) ComfyUI Workflow

Wan2.1-VACE을 사용하기 위한 Workflow는 아래와 같습니다.

[Vid] txt2Vid_wan2.1_vace.json
0.01MB

Text to Video Workflow

[Vid] Img2Vid_wan2.1_vace.json
0.01MB

Image to Video Workflow

[Vid] Vid2Vid_wan2.1_vace.json
0.01MB

Video to Video Workflow

 

2) 모델 파일 다운로드

실행 방식 필요 모델 다운로드 링크 (허깅페이스)
All-in-One
Video

Wan 2.1 Vace 모델 https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models
Text Encoder 모델 https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders
VAE 모델 https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae
CLIP Vision 모델 https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/clip_vision

 

위 모델 파일을 모두 다운로드하셨으면, 각 모델을 아래 폴더로 이동시켜줍니다.

  • Wan 2.1 모델 : StabilityMatrix → Data → Packages → ComfyUI → models → diffusion_models
  • text_encoder 파일 : StabilityMatrix → Data → Packages → ComfyUI → models → text_encoders
  • vae 파일 : StabilityMatrix → Data → Packages → ComfyUI → models → vae
  • clip_vision 파일 : StabilityMatrix → Data → Packages → ComfyUI → models → clip_vision

로컬에 직접 ComfyUI를 설치하신 경우에는 [StabilityMatrix → Data → Packages]경로는 생략하시고, 바로 ComfyUI 폴더 내 모델 폴더로 이동해주시면 됩니다.

 

4. 영상 생성 (Wan2.1-VACE 활용)

Wan2.1-VACE 모델은 올인원 모델인 만큼 다양한 방식으로 테스트를 진행해보았습니다.

 

1) Text to Video

가장 일반적인 영상 생성 방식으로, 텍스트 프롬프트를 입력해 원하는 장면의 영상을 생성합니다.

  • 긍정 프롬프트 : A busy downtown street in New York City at night, people walking on sidewalks, glowing shop signs, headlights of cars, reflections on wet pavement, realistic 3D render, cinematic lighting.
  • 부정 프롬프트 : bad quality, blurry, messy, chaotic

해당 프롬프트로 생성된 영상은 640×640 픽셀 해상도, 약 3초 분량으로 출력되었습니다. 생성 과정에서는 약 15.1GB의 VRAM이 사용되었고, 전체 실행 시간은 약 5분이 소요되었습니다. 모델 크기가 비교적 작음에도 불구하고, 매우 높은 퀄리티의 영상이 생성된 것이 인상적이었습니다.
아래는 위 프롬프트를 통해 생성된 Text-to-Video 결과물입니다.

Text to Video 생성 결과

 

2) Image to Video

이번 방식은 이미지와 프롬프트를 함께 입력하면, 이미지 속 인물을 기반으로 한 영상을 생성하는 방식입니다. 영상의 전반적인 흐름과 내용은 입력한 프롬프트에 따라 설정할 수 있습니다.

  • 긍정 프롬프트 : An icicle dragon lunges forward, mouth wide open to exhale a stream of icy mist. Ultramarine energy flickers beneath its frost-coated scales as it twists. The camera circles slowly, capturing the swirling ice particles and the backdrop of floating glaciers and frozen nebulae under a cyan-blue filter.
  • 부정 프롬프트 : bad quality, blurry, messy, chaotic
  • 입력 이미지

입력 이미지

 

해당 프롬프트로 생성된 영상은 720×720 픽셀 해상도, 약 3초 분량으로 출력되었습니다. 생성 과정에서는 약 13.3GB의 VRAM이 사용되었으며, 전체 실행 시간은 약 8분이 소요되었습니다. Text-to-Video 방식보다 더 높은 해상도로 출력되었음에도 불구하고, VRAM 사용량은 더 적은 반면, 처리 시간은 조금 더 길었던 점이 인상적입니다. 모델 크기를 고려했을 때, 전반적으로 매우 높은 품질의 영상이 생성되었습니다.

아래는 해당 프롬프트를 기반으로 생성된 Image-to-Video 결과물입니다.

Image to Video 생성 결과

 

3) Video to Video (1.3B 버전)

이번 방식은 이미지와 비디오를 함께 입력하면, 이미지 속 인물이 입력한 비디오의 동작을 따라 움직이도록 새로운 영상을 생성하는 방식입니다.

  • 긍정 프롬프트 : The girl is dancing in a sea of flowers, slowly moving her hands. There is a close-up shot of her upper body. The character is surrounded by other transparent glass flowers in the style of Nicoletta Ceccoli, creating a beautiful, surreal, and emotionally expressive movie scene with a white, transparent feel and a dreamy atmosphere.
  • 부정 프롬프트 : bad quality, blurry, messy, chaotic
  • 입력 이미지

입력 이미지

 

해당 프롬프트로 생성된 영상은 720×720 픽셀 해상도, 약 3초 분량으로 출력되었습니다. 생성 과정에서는 약 13.3GB의 VRAM이 사용되었으며, 전체 실행 시간은 약 8분이 소요되었습니다. Image-to-Video 방식과 유사한 품질로 출력되었으며, 비교적 작은 모델 크기 때문인지 손 부분이나 배경 일부가 다소 어색하게 표현된 점은 아쉬운 부분입니다. 그럼에도 불구하고 모델 규모를 고려했을 때 준수한 품질의 영상이 생성되었다고 생각됩니다.

아래는 해당 입력한 Video와 프롬프트를 기반으로 생성된 Video-to-Video 결과물입니다.

 

입력한 동영상

 

Video to Video (1.3B) 생성 결과

 

4) Video to Video (14B 버전)

1.3B 버전에서는 손 모양이 부자연스럽거나 움직임이 다소 어색하게 표현되는 아쉬운 점이 있었습니다. 이에 동일한 입력 조건을 유지한 채, 모델만 14B 버전으로 변경하여 영상을 생성해보았습니다.

생성된 영상은 720×720 픽셀 해상도, 약 3초 분량으로 출력되었으며, 생성 과정에서 약 13.3GB의 VRAM이 사용되었습니다. VRAM 사용량은 1.3B 버전과 거의 동일했지만, 전체 생성 시간은 약 40분으로 상당히 오래 소요되었습니다. 그럼에도 불구하고 14B 모델은 여러 면에서 뚜렷한 개선을 보여주었습니다.
원본 영상의 느낌을 높은 수준으로 재현해냈으며, 한쪽 손은 여전히 다소 어색했지만, 다른 한쪽은 훨씬 자연스럽게 표현되었습니다. 인물의 외형이나 세부 묘사 또한 1.3B 모델에 비해 훨씬 더 높은 퀄리티로 출력되었습니다.

아래는 해당 조건으로 생성된 14B 버전의 Video-to-Video 결과물입니다.

Video to Video (14B) 생성 결과

 

이번 테스트를 통해 Wan2.1‑VACE는 텍스트, 이미지, 비디오 등 다양한 형태의 입력을 기반으로 고품질의 영상 생성과 편집이 가능한 올인원 멀티모달 모델임을 확인할 수 있었습니다. 특히 모델 크기에 비해 매우 뛰어난 결과물을 보여주었으며, 프롬프트 반영력, 스타일 및 동작의 일관성, 해상도 품질 등 여러 측면에서 인상적인 성능을 발휘했습니다.

이번 실험에서는 1.3B 경량 모델을 사용했음에도 불구하고 기대 이상의 퀄리티를 보여주었고, 추후 14B 대형 모델을 활용할 경우 더욱 정교하고 사실적인 영상 생성이 가능할 것으로 기대됩니다.

Wan2.1‑VACE는 오픈소스로 제공되는 만큼, 앞으로도 다양한 커뮤니티 기반의 실험과 확장을 통해 영상 생성 AI의 활용 가능성을 더욱 넓혀갈 수 있을 것으로 보입니다.

 

감사합니다. 😊

 

반응형