안녕하세요,
최근 인공지능 기술이 빠르게 발전하면서 영상 생성 AI 분야에서도 혁신적인 모델들이 등장하고 있습니다. 특히, 텐센트는 놀라운 성능을 자랑하는 영상 생성 모델을 오픈 소스로 공개하며 많은 주목을 받았습니다. 이번에는 그 두 번째 영상 생성 모델을 새롭게 공개했데, 이 모델의 성능과 사용방법에 대해 알아보겠습니다.
HunyuanVideo-I2V
HunyuanVideo-I2V는 중국의 대표적인 기술 기업 텐센트(Tencent)에서 개발한 오픈소스 이미지-비디오 생성 AI 모델입니다. 이전 포스팅 내용에서 다뤘던 기존의 Text-to-Video(T2V) 모델을 기반으로 발전하였으며, 이미지를 고품질의 유동적인 비디오로 변환하는 기능을 제공합니다. 이 모델은 13B(130억 개의 매개변수) 규모를 가지며, 로컬 GPU에서도 실행 가능하도록 설계되었습니다. 특히, ComfyUI에 네이티브 통합되어 보다 직관적인 UI 환경에서 쉽게 활용할 수 있습니다.
- HunyuanVideo 공식페이지 : https://hunyuanvideoai.com/

HunyuanVideo-I2V는 기존 폐쇄형 영상 생성 모델과 비교해도 뒤처지지 않는 성능을 자랑하며, 오픈소스 AI 생태계에서 혁신적인 도구로 자리 잡을 가능성이 높습니다. 또한, 맞춤형 비디오 효과를 위한 LoRA훈련 코드도 함께 제공하여, 사용자가 원하는 스타일의 비디오를 보다 창의적으로 제작할 수 있도록 지원합니다. 이 모델은 멀티모달 대규모 언어 모델을 활용하여 이미지와 관련된 의미적 정보를 해석하고, 텍스트 및 이미지 데이터를 효과적으로 통합할 수 있는 강력한 비디오 생성 능력을 갖추고 있습니다.
2. 주요 특징
- 고급 이미지-비디오 생성 기능 : 기존 13B 오픈소스 비디오 모델에 이미지 컨디셔닝을 추가하여 기능을 확장하고, 정적 이미지를 부드러운 영상으로 변환하여 고품질 비디오를 생성합니다. 이는 폐쇄형 모델과 유사하거나 그 이상의 성능을 제공하여 공개 소스 모델과 산업 수준 모델 간의 격차를 줄입니다.
- LoRA 훈련 코드 제공 : LoRA 훈련 코드를 통해 맞춤형 특수 효과를 제작할 수 있으며, 이를 통해 더욱 창의적인 비디오 효과를 적용할 수 있습니다.
- 고급 비디오 생성 기술 적용 : Latent Concatenation Technique를 활용해 참조 이미지 정보를 효과적으로 재구성하고, MLLM(멀티모달 대규모 언어 모델)을 적용해 이미지 의미를 분석하고 캡션 정보를 통합합니다. 이를 통해 의미적 이미지 토큰과 비디오 잠재 토큰을 결합하여 보다 정교하고 자연스러운 비디오를 생성할 수 있습니다.
- 전반적인 아키텍처 설계 : 이미지와 텍스트 모달리티 간의 시너지를 극대화하여 입력 데이터를 깊이 이해하고 해석하며, 정적 이미지에서도 일관된 비디오 콘텐츠를 생성하여 프레임 간 자연스러운 연결을 유지합니다. 이를 통해 멀티모달 입력 해석 및 활용 능력을 강화하여 생성된 비디오의 충실도와 품질을 향상시킵니다.
사전 준비 사항
이 포스팅에서는 ComfyUI에서 HunyuanVideo-I2V 모델을 활용하는 방법을 다룹니다. 본문을 읽기 전에 아래 항목들을 미리 설치해 주세요. 이번 포스팅에서는 Stability Matrix와 ComfyUI를 사용하여 진행했지만, 로컬 환경에서 직접 설치하여 실행할 수도 있습니다.
[Stabiliy Matrix&ComfyUI 설치하기] (포스팅에서 사용한 방식)
- ComfyUI 설치: [Marcus' Story] - [ComfyUI] 초보자도 쉽게 따라하는 Stability Matrix 활용하기
- ComfyUI-Manager 설치: [Marcus' Story] - [ComfyUI] Stability Matrix에 ComfyUI-Manager 설치하기
[로컬에 직접 ComfyUI 설치하기]
- ComfyUI 설치: [Marcus' Story] - [ComfyUI] [로컬 환경] ComfyUI 로컬 환경에 설치 및 실행 방법
- ComfyUI-Manager 설치: [Marcus' Story] - [ComfyUI] [로컬 환경] ComfyUI 관리 도구, ComfyUI-Manager 설치하기
목차
1. 실행 환경
2. ComfyUI 사용 노드
3. 다운로드 및 위치 설정
4. 실행 (영상 생성)
1. 실행 환경
- 운영체제 : Windows 11
- ComfyUI : 0.3.26
- ComfyUI-Manager : V3.30
- Python : 3.10.11
- torch : 2.6.0 + cu124
- accelerate : 1.4.0
- GPU : NVIDIA GeForce RTX 4060 Ti
2. ComfyUI 사용 노드
이번 포스팅에서는 별도로 다운로드해야 할 커스텀 노드 없이 진행됩니다. 하지만 ComfyUI를 최신 버전으로 업데이트하는 것이 중요합니다. 최신 버전으로 업데이트하면 모델과의 호환성을 극대화할 수 있으며, 성능 개선 및 버그 수정을 통해 최적의 결과를 얻을 수 있습니다.
- Stability Matrix를 사용하는 경우 → Stability Matrix 화면에서 "Update" 버튼을 클릭하여 간편하게 업데이트할 수 있습니다.
- ComfyUI를 로컬에 설치한 경우 → ComfyUI-Manager에서 "Update ComfyUI" 버튼을 눌러 최신 버전으로 업데이트하세요.


3. 다운로드 및 위치 설정
ComfyUI에서 영상을 생성에 필요한 ComfyUI Workflow 및 HunyuanVideo-I2V 모델, text_encoder모델, vae 모델, clip_vision 모델을 다운로드합니다.
1) ComfyUI Workflow
아래 ComfyUI 페이지에서 이미지를 드레그하여 Workflow를 가져올 수 있습니다.
- HunyuanVideo-I2V Workflow : https://raw.githubusercontent.com/Comfy-Org/example_workflows/refs/heads/main/hunyuan-video/i2v/robot.webp

2) 모델 파일 다운로드
ComfyUI 최신 버전에서는 Workflow에 필요한 모델이 없을 경우, 아래와 같은 알림이 표시되며, 해당 화면에서 바로 모델을 다운로드할 수 있습니다.

만약 위 화면에서 다운로드에 실패했다면, 아래 허깅페이스 링크에서 직접 다운로드할 수 있습니다.
- HunyuanVideo-I2V 모델 : https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/diffusion_models
- text_encoder모델 : https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/text_encoders
- vae 모델 : https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/vae
- clip_vision 모델 : https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/clip_vision
3) 모델 위치 이동
위 모델 파일을 모두 다운로드하셨으면, 각 모델을 아래 폴더로 이동시켜줍니다.
- HunyuanVideo-I2V 파일 : StabilityMatrix → Data → Packages → ComfyUI → models → diffusion_models
- text_encoder 파일 : StabilityMatrix → Data → Packages → ComfyUI → models → text_encoders
- vae 파일 : StabilityMatrix → Data → Packages → ComfyUI → models → vae
- clip_vision 파일 : StabilityMatrix → Data → Packages → ComfyUI → models → clip_vision
4. 실행 (영상 생성)
HunyuanVideo-I2V 모델을 활용하여 512 x 512 해상도의 약 2초 길이의 영상을 생성하였습니다. 현재 사용 중인 VRAM 16GB 환경에서 약 15.5GB의 VRAM을 사용했으며, 생성까지 걸린 시간은 약 4분 30초였습니다.
이전 모델에서는 약 20분 정도 소요되었기 때문에, 생성 속도가 대폭 향상된 것을 확인할 수 있습니다. 아직 긴 영상을 제작하는 것은 어려운 상태이지만, 높은 퀄리티의 영상을 빠르게 생성할 수 있다는 점에서 모델의 발전이 매우 인상적입니다.
추후 연산 최적화 및 VRAM 사용 효율 개선이 이루어진다면, 더 긴 길이의 영상 생성도 가능해질 것으로 기대됩니다. 현재 수준에서도 이미지-비디오 변환 속도와 품질의 균형을 잘 맞춘 강력한 모델이라 할 수 있습니다.
아래는 생성된 영상입니다.

HunyuanVideo-I2V는 빠른 속도와 높은 퀄리티를 동시에 제공하는 강력한 이미지-비디오 변환 모델입니다. 특히, 이전 모델 대비 생성 속도가 크게 향상되었으며, VRAM 사용량을 최적화하면서도 고품질의 영상을 구현할 수 있다는 점이 인상적입니다. 아직 긴 영상 생성에는 한계가 있지만, LoRA 훈련과 추가적인 최적화 작업을 통해 앞으로 더 다양한 활용이 가능할 것으로 기대됩니다. 또한, ComfyUI와의 네이티브 통합 덕분에 모델을 더욱 쉽게 사용할 수 있어, 영상 제작 및 AI 기반 콘텐츠 생성의 새로운 가능성을 열어줄 전망입니다.
감사합니다. 😊
'ComfyUI > 영상 생성' 카테고리의 다른 글
[ComfyUI] HunyuanVideo보다 8.5배 빠른 영상 생성 AI, AccVideo를 소개합니다 (0) | 2025.04.09 |
---|---|
[ComfyUI] 알리바바가 공개한 무료 영상 생성 AI, "Wan 2.1" – ComfyUI 연동 가능한 오픈 소스! (0) | 2025.03.17 |
[영상 생성 AI] [로컬 환경] ComfyUI 이용하여 영상 생성하기 8탄 : Nvidia-cosmos 모델 (0) | 2025.02.18 |
[영상 생성 AI] [로컬 환경] ComfyUI 이용하여 영상 생성하기 7탄 : HunyuanVideo AI (0) | 2024.12.30 |
[영상 생성 AI] [로컬 환경] ComfyUI 이용하여 영상 생성하기 6탄 : LTX-Video AI (1) | 2024.12.05 |