본문 바로가기

ComfyUI/영상 생성

[ComfyUI] 알리바바가 공개한 무료 영상 생성 AI, "Wan 2.1" – ComfyUI 연동 가능한 오픈 소스!

안녕하세요,

최근 AI 기술의 발전으로 텍스트나 이미지 생성은 물론, 영상 생성 AI까지 눈부신 성장을 이루고 있습니다. 얼마전 텐센트에서 공개했던 HunyuanVideo-I2V 모델을 공개했었는데, 이번에는 알리바바에서 강력한 영상 생성 오픈소스 AI, Wan 2.1을 공개했습니다. 특히 ComfyUI와 같은 노드 기반 AI 툴과도 연동이 가능해, 복잡한 설정 없이도 쉽게 고품질 영상을 만들어볼 수 있다는 점에서 큰 주목을 받고 있는데요. 이번 글에서는 Wan 2.1의 특징, 설치 방법, 그리고 직접 활용하는 방법에 대해 알아보겠습니다.


반응형

Wan 2.1

Wan 2.1은 알리바바 산하 연구팀에서 개발한 최첨단 AI 비디오 생성 모델로, 다양한 영상 생성 및 편집 작업을 손쉽게 수행할 수 있는 강력한 기능을 제공합니다. 최신 AI 기술을 적극적으로 활용하여 현실감 넘치는 시각적 효과와 자연스러운 영상 흐름을 구현하는 것이 특징입니다. 특히 Wan 2.1은 단순한 비디오 생성뿐 아니라, 이미지 기반 애니메이션, 장면 전환, 스타일 변환 등 다양한 편집 작업에도 활용할 수 있어 활용 범위가 매우 넓습니다. 복잡한 코딩이나 전문 지식 없이도 누구나 간편하게 고품질의 영상 콘텐츠를 제작할 수 있다는 점에서 많은 관심을 받고 있습니다.

 

현재 Wan 플랫폼을 통해 간단한 회원가입만으로 Wan 2.1 최신 모델을 무료로 체험할 수 있으며, 이미지 및 영상 생성 기능을 직접 이용해볼 수 있습니다. 영상 AI에 관심 있는 분들이라면 꼭 한 번 사용해 보시기를 추천드립니다.

 

출처: Wan 플랫폼

 

 

2. 주요 특징

  • 비디오 생성 기능:
    1) Text-to-Video: 텍스트를 입력받아 비디오를 생성하는 기능을 지원합니다.
    2) Image-to-Video: 이미지에서 비디오로 변환하는 기능을 제공합니다.
    3) Video Editing: 기존 비디오의 편집 기능도 포함되어 있습니다.
  • 고품질 영상 생성
  • 중국어와 영어 텍스트 지원
  • 모델 크기: 14B 파라미터와 1.3B 파라미터 버전 제공
  • 무료 오픈 소스: Hugging Face와 Model Scope에서 오픈 소스로 공개

 

 

사전 준비 사항

이 포스팅에서는 ComfyUI에서 Wan 2.1 모델을 활용하는 방법을 다룹니다. 본문을 읽기 전에 아래 항목들을 미리 설치해 주세요. 이번 포스팅에서는 Stability Matrix와 ComfyUI를 사용하여 진행했지만, 로컬 환경에서 직접 설치하여 실행할 수도 있습니다.

 

[Stabiliy Matrix&ComfyUI 설치하기] (포스팅에서 사용한 방식)


[로컬에 직접 ComfyUI 설치하기]

 

 

목차
1. 실행 환경
2. ComfyUI 사용 노드

3. 다운로드 및 위치 설정
4. 실행 (영상 생성)

1. 실행 환경

  • 운영체제 : Windows 11
  • ComfyUI : 0.3.26
  • ComfyUI-Manager : V3.30
  • Python : 3.10.11
  • torch : 2.6.0 + cu124
  • GPU : NVIDIA GeForce RTX 4060 Ti

 

 

2. ComfyUI 사용 노드

이번 포스팅에서는 별도로 다운로드해야 할 커스텀 노드 없이 진행됩니다. 하지만 ComfyUI를 최신 버전으로 업데이트하는 것이 중요합니다. 최신 버전으로 업데이트하면 모델과의 호환성을 극대화할 수 있으며, 성능 개선 및 버그 수정을 통해 최적의 결과를 얻을 수 있습니다.

  • Stability Matrix를 사용하는 경우 → Stability Matrix 화면에서 "Update" 버튼을 클릭하여 간편하게 업데이트할 수 있습니다.
  • ComfyUI를 로컬에 설치한 경우ComfyUI-Manager에서 "Update ComfyUI" 버튼을 눌러 최신 버전으로 업데이트하세요.

(좌) Stability Matrix 화면 / (우) ComfyUI Manager 화면

 

 

3. 다운로드 및 위치 설정

ComfyUI에서 Wan 2.1을 활용하기 위해 ComfyUI Workflow 및 필요한 모델 파일을 다운로드해야합니다. 각  실행 방식에 따라 필요한 모델 필일은 다음과 같습니다.

 

1) 필수 모델 목록

실행 방식 필요 모델 다운로드 링크 (허깅페이스)
Text-to-Video

Wan 2.1 모델 https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models
Text Encoder 모델 https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders
VAE 모델 https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae
Image-to-Video



Wan 2.1 모델 https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models
Text Encoder 모델 https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders
VAE 모델 https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae
CLIP Vision 모델 https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/clip_vision

 

위 모델 파일을 모두 다운로드하셨으면, 각 모델을 아래 폴더로 이동시켜줍니다.

  • Wan 2.1 모델 : StabilityMatrix → Data → Packages → ComfyUI → models → diffusion_models
  • text_encoder 파일 : StabilityMatrix → Data → Packages → ComfyUI → models → text_encoders
  • vae 파일 : StabilityMatrix → Data → Packages → ComfyUI → models → vae
  • clip_vision 파일 : StabilityMatrix → Data → Packages → ComfyUI → models → clip_vision

로컬에 직접 ComfyUI를 설치하신 경우에는 [StabilityMatrix → Data → Packages]경로는 생략하시고, 바로 ComfyUI 폴더 내 모델 폴더로 이동해주시면 됩니다.

 

2) ComfyUI Workflow

ComfyUI의 Workflow는 영상 생성 과정을 구성하는 노드들의 연결 구조로, 복잡한 설정 없이 원하는 작업을 손쉽게 실행할 수 있도록 만들어진 일종의 작업 설계도입니다. 아래 ComfyUI 페이지에서 제공하는 Text-to-Video Workflow 이미지를 드래그하여 가져오면, 필요한 노드들이 자동으로 세팅되어 바로 영상 생성 작업을 시작할 수 있습니다.

 

 

4. 실행 (영상 생성)

1) Text-to-Video 영상 생성 (1.3B / fp16)

이번에는 Wan 2.1의 1.3B fp16 버전을 활용하여 832 x 480 해상도, 약 2초 길이의 영상을 생성해보았습니다. 테스트 환경은 VRAM 16GB의 GPU였으며, 실제 생성 과정에서 약 15GB의 VRAM이 사용되었습니다. 영상 생성에 소요된 시간은 약 200초 정도로, 비교적 가벼운 하드웨어에서도 충분히 시도해볼 수 있는 수준입니다.

 

아래는 해당 설정으로 생성된 샘플 영상입니다. Wan 2.1 모델이 제공하는 자연스러운 장면 전환과 시각적 완성도를 직접 확인해보세요.

Text-to-Video : wan2.1_t2v_1.3B_fp16 모델

 

2) Image-to-Video 영상 생성 (14B / fp8_scaled)

이번에는 Wan 2.1의 14B fp8_scaled 버전을 활용하여 768 x 768 해상도, 약 3초 길이의 영상을 생성해보았습니다. 테스트 환경은 VRAM 16GB GPU였으며, 약 15GB의 VRAM이 사용되었습니다. 다만, 고사양 모델인 만큼 영상 생성에는 약 50분 정도 시간이 소요되었습니다. 생성 시간은 비교적 길었지만, 주목할 점은 VRAM 16GB 환경에서도 문제 없이 영상 생성이 가능했다는 점입니다. 보통 모델 크기가 클 경우 VRAM 부족으로 실행 자체가 어려운 경우가 많은데, Wan 2.1의 경우 시간이 오래 걸리더라도 고품질의 영상을 안정적으로 생성할 수 있는 장점이 있었습니다.

 

아래는 해당 설정으로 생성한 샘플 영상입니다. 높은 해상도와 자연스러운 영상 퀄리티를 직접 확인해보세요.

Image-to-Video : wan2.1_i2v_720p_14B_fp8_scaled 모델

 


 

AI 영상 생성 기술이 점점 더 대중화되면서, 고성능의 오픈 소스 모델들 역시 빠르게 개발되고 있습니다. 이번에 소개해드린 Wan 2.1 모델 또한 그 중 하나로, 무료로 제공되는 오픈소스임에도 불구하고 뛰어난 영상 생성 성능과 폭넓은 활용성을 보여주고 있습니다. 특히 ComfyUI와의 연동을 통해 복잡한 설정 없이도 누구나 손쉽게 고품질 영상을 제작할 수 있다는 점이 큰 장점입니다.

 

AI 영상 생성에 관심이 있으신 분들이라면, 직접 설치하여 다양한 프로젝트에 활용해 보시길 적극 추천드립니다.

 

 

 

감사합니다. 😊

 

반응형