본문 바로가기

ComfyUI/영상 생성

[ComfyUI + Wan 2.2] AI 영상 생성 오픈소스, Wan 2.2 사용법 | ComfyUI로 로컬에서 실행하기

안녕하세요,

중국 기업 알리바바에서는 최근 눈에 띄는 인공지능 모델들을 오픈소스로 활발히 공개하고 있습니다. 이번에 소개해드릴 모델은 영상 생성 분야에서 주목받고 있는 Wan 2.2 모델입니다. 특히 Wan 2.2는 고화질의 사실적인 영상 생성이 가능하다는 점에서 많은 주목을 받고 있습니다.

이 글에서는 Wan 2.2 모델에 대한 간단한 소개와 함께, ComfyUI를 활용하여 로컬 환경에서 직접 영상 생성하는 방법을 안내해드리겠습니다.


반응형

Wan 2.2 모델

Wan 2.2는 중국 알리바바가 공개한 차세대 오픈소스 AI 영상(비디오) 생성 모델로, 텍스트, 이미지, 혹은 둘을 조합한 입력을 받아 고해상도의 자연스러운 동영상을 생성하는 데 특화되어 있습니다. 이전 버전(Wan 2.1) 대비 해상도 품질, 스타일 제어, 시간적 일관성, 연산 효율, 복잡한 모션 재현력 등이 크게 개선되었습니다.

 

 

GitHub - Wan-Video/Wan2.2: Wan: Open and Advanced Large-Scale Video Generative Models

Wan: Open and Advanced Large-Scale Video Generative Models - Wan-Video/Wan2.2

github.com

 

[모델 정보 요약]

항목 내용
모델명 Wan2.2-TI2V-5B 모델 Wan2.2-I2V-A14B 모델 Wan2.2-T2V-A14B 모델
개발사 알리바바 클라우드
출시일 2025년 7월 29일
기능 텍스트/이미지 → 비디오 (하이브리드) 이미지 → 비디오 텍스트 → 비디오
지원 해상도 720P 480P 및 720P 480P 및 720P
라이선스 Apache 2.0 (상업적 사용 가능)

 

 

주요 특징

  • MoE 아키텍처 도입: 두 전문가 모델로 구성된 27B 파라미터 구조. 연산 비용은 14B 수준으로 유지하면서도 성능 향상.
  • 데이터 대규모 확장: 이전 모델 대비 65% 더 많은 이미지, 83% 더 많은 비디오로 학습되어 일반화 능력 향상.
  • 시네마틱 영상 생성: 조명·구도·색감 등을 정밀하게 조절 가능한 영상 생성 가능.
  • TI2V-5B 경량 모델 제공: 텍스트/이미지 → 영상 생성 모두 지원하며, 720P@24fps 기준 RTX 4090에서 9분 내 생성 가능.

 

 

모델 성능

Wan2.2-T2V-A14B 모델은 총 6개 평가 항목 중 4개에서 최고 점수를 기록하며 전반적으로 매우 우수한 성능을 보였습니다. 특히 미적 품질(85.3점), 텍스트 표현력(66.5점), 동작 표현력(52.0점), 카메라 제어력(39.6점) 부문에서 다른 모델들을 모두 앞질렀습니다. 영상 선명도와 객체 정확도 항목에서도 각각 2위를 기록하며 전반적으로 균형 잡힌 성능을 보여주었습니다. 이러한 결과는 MoE 아키텍처와 대규모 학습 데이터 확장이 실제 영상 품질 향상으로 이어졌음을 보여주는 지표입니다.

출처: Wan 공식 페이지 (https://wan.video/)

 

 

라이선스

Wan2.2 모델은 Apache 2.0 라이선스로 공개되어, 사용자가 모델을 자유롭게 활용할 수 있는 환경을 제공합니다. 모델은 누구나 다운로드하여 직접 수정하거나 기능을 확장할 수 있으며, 로컬 환경에 설치하여 자체적으로 구동하는 것도 가능합니다. 또한 이 라이선스는 상업적 사용과 재배포를 별도의 승인 없이 허용하므로, 연구 개발뿐만 아니라 실제 산업 현장에서도 제약 없이 적용할 수 있는 유연성을 갖추고 있습니다.

 

 

사전준비사항

이 포스팅에서는 ComfyUI와 Wan2.2 모델을 영상 생성 방법을 소개합니다. 본문을 따라 하기 전에 아래의 필수 항목들을 미리 설치해 주시기 바랍니다. 이번 글에서는 Text-to-Video 모델 (Wan2.2-TI2V-5B)을 중심으로, 텍스트 입력을 기반으로 한 영상 생성 과정을 단계별로 안내드립니다.

 

[Stabiliy Matrix&ComfyUI 설치하기] (포스팅에서 사용한 방식)

[로컬에 직접 ComfyUI 설치하기]

 

목차
1. 실행 환경
2. ComfyUI 사용 노드

3. Wan2.2-TI2V-5B 모델
  - ComfyUI Workflow
  - 모델 파일 다운로드
  - 실행 (영상 생성)

 


1. 실행 환경

  • 운영체제 : Windows 11
  • ComfyUI : 0.3.49
  • ComfyUI-Manager : V3.30
  • Python : 3.10.11
  • torch : 2.8.0 + cu128
  • GPU : NVIDIA GeForce RTX 4060 Ti (vram : 16GB)

 

 

2. ComfyUI 사용 노드

이번 포스팅에서는 별도로 다운로드해야 할 커스텀 노드 없이 진행됩니다. 하지만 ComfyUI를 최신 버전으로 업데이트하는 것이 중요합니다. 최신 버전으로 업데이트하면 모델과의 호환성을 극대화할 수 있으며, 성능 개선 및 버그 수정을 통해 최적의 결과를 얻을 수 있습니다.

  • Stability Matrix를 사용하는 경우 → Stability Matrix 화면에서 "Update" 버튼을 클릭하여 간편하게 업데이트할 수 있습니다.
  • ComfyUI를 로컬에 설치한 경우ComfyUI-Manager에서 "Update ComfyUI" 버튼을 눌러 최신 버전으로 업데이트하세요.

(좌) Stability Matrix 화면 / (우) ComfyUI Manager 화면

 

 

3. Wan2.2-TI2V-5B 모델

Wan2.2 모델은 현재 Hugging Face를 통해 다양한 버전으로 공개되어 있으며, 사용 목적과 컴퓨팅 환경에 따라 적절한 모델을 선택하여 활용할 수 있습니다. 이번 포스팅에서는 그중에서도 Wan2.2-TI2V-5B 모델을 사용하여 텍스트 기반 영상 생성 과정을 소개합니다.

 

1) ComfyUI Workflow

최신 ComfyUI에서는 웹 UI 내에서 워크플로우를 간편하게 불러올 수 있습니다.

  • ComfyUI를 실행
  • 왼쪽 상단의 "Workflow" 버튼 클릭
  • "Browse Templates"를 선택
  • "Video" 항목에서 "Wan 2.2 5B Video Generation"을 클릭

ComfyUI Workflow 불러오기

 

2) 모델 파일 다운로드

ComfyUI에서 워크플로우 파일을 불러오면, 해당 모델을 자동으로 탐색하며, 로컬에 모델이 없는 경우 다운로드 링크를 안내해줍니다. 이 링크를 통해 손쉽게 필요한 모델 파일을 다운로드할 수 있습니다.

모델 다운로드 예시

 

모델 다운로드가 완료되면, 아래와 같이 지정된 폴더 구조에 맞게 파일을 이동해 줍니다.

📂 ComfyUI/
├──📂 models/
│ ├── 📂 diffusion_models/
│ │    └─── wan2.2_ti2v_5B_fp16.safetensors
│ ├── 📂 text_encoders/
│ │    └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └── 📂 vae/
│      └─── wan_2.2_vae.safetensors

 

모든 모델 파일을 다운로드하셨다면, 위와 같은 폴더 구조에 맞춰 각 파일을 옮겨줍니다. 만약 StabilityMatrix를 통해 ComfyUI를 실행 중이라면, [StabilityMatrix → Data → Packages] 경로 내부에서 ComfyUI 폴더 위치를 먼저 확인한 후, 동일하게 위 폴더 구조로 파일을 배치하시면 됩니다.

 

3) 실행 (영상 생성)

Wan2.2-TI2V-5B 모델을 활용하여 실제로 영상을 생성한 결과, 1280×704 해상도의 고화질 영상을 안정적으로 출력할 수 있었습니다. 생성에는 약 11분이 소요되었으며, VRAM 13GB 수준의 GPU 자원으로 무리 없이 처리되었습니다.

텍스트 프롬프트만으로도 자연스럽고 역동적인 영상을 생성할 수 있었고, 고해상도 환경에서도 비교적 가벼운 리소스로 실행 가능한 점에서 로컬 환경에서의 활용 가능성이 충분히 입증되었습니다. 또한, 이 모델은 텍스트와 이미지 입력을 함께 활용한 영상 생성도 지원하여, 더 다양하고 정교한 결과물을 얻을 수 있습니다. 모델 크기가 작음에도 불구하고 우수한 생성 품질과 효율성을 모두 갖춘 점이 인상적이었습니다.

 

  • 사용 프롬프트 : The white dragon warrior stands still, eyes full of determination and strength. The camera slowly moves closer or circles around the warrior, highlighting the powerful presence and heroic spirit of the character.

[생성 결과]

영상 생성 결과

 


 

현재 Wan 2.2 모델은 14B 규모의 대형 모델도 함께 제공되고 있습니다. 보다 높은 성능의 GPU 환경을 갖추고 있다면, Wan2.2-T2V-A14B 또는 I2V-A14B 모델을 활용하여 영상 생성을 시도해보는 것을 권장드립니다.

이들 모델은 5B 모델에 비해 복잡한 장면 구성, 세밀한 디테일 표현, 텍스트 해석력 등 여러 측면에서 우수한 성능을 보이며, 전반적인 영상 품질 향상을 기대할 수 있습니다.

 

앞으로도 이처럼 뛰어난 영상 생성 모델들이 더 많이 오픈소스로 공개되기를 기대합니다.


감사합니다. 😊

 

반응형