본문 바로가기

ComfyUI/영상 생성

[ComfyUI] HunyuanVideo보다 8.5배 빠른 영상 생성 AI, AccVideo를 소개합니다

안녕하세요,

최근 생성형 AI 기술이 빠르게 발전하면서, 텍스트만으로도 고퀄리티의 영상을 생성할 수 있는 AI 기반 영상 생성이 큰 주목을 받고 있습니다. 그 중에서도 HunyuanVideo와 같은 오픈 소스 모델은 실제 활용 가능한 수준의 영상 품질을 제공하며 많은 관심을 받고 있습니다. 하지만 이러한 모델들은 여전히 영상 하나를 생성하는 데 많은 연산 자원과 시간이 소요되는 단점이 존재합니다.

 

이러한 한계를 극복하기 위해, HunyuanVideo를 기반으로 하면서도 훨씬 더 빠른 속도로 영상을 생성할 수 있는 새로운 영상 생성 AI 모델, "AccVideo"가 등장했습니다. AccVideo는 영상의 품질을 유지하면서도 생성 속도를 무려 8.5배나 향상시킨 것이 큰 특징입니다. 이번 글에서는 AccVideo의 주요 특징을 소개하고, ComfyUI를 활용해 영상을 생성하는 방법에 대해 자세히 알아보겠습니다.


반응형

AccVideo란

AccVideo는 기존의 비디오 확산 모델의 느린 추론 속도를 극복하기 위해 제안된 효율적인 증류 기반 가속화 방법입니다. 비디오 생성에 있어 고품질의 결과를 유지하면서도 추론 속도를 크게 향상시키는 것을 목표로 하며, 특히 HunyuanVideo보다 최대 8.5배 빠른 성능을 달성합니다. 기존의 확산 기반 비디오 생성 모델들은 반복적인 노이즈 제거 과정이 필요하기 때문에 연산량이 많고 비효율적인 측면이 있었지만, AccVideo는 합성 데이터셋을 기반으로 주요 노이즈 제거 궤적만을 학습함으로써 이러한 문제를 해결합니다.

 

 

 

주요 특징

  • 합성 데이터셋 기반 증류 : 사전 학습된 비디오 확산 모델로부터 생성된 합성 데이터셋을 사용하여, 불필요한 추론 단계 없이 효율적으로 학습
  • 궤적 기반 단계 가이드 설계 : 노이즈 제거 과정 중 핵심적인 타임스텝만 선택하여 학습, 적은 단계로도 고품질 비디오 생성 가능
  • 적대적 학습 전략 도입 : 학생 모델의 출력 분포를 합성 데이터셋의 분포와 정렬시켜, 영상의 자연스러움 및 품질 향상
  • 압도적인 생성 속도 향상 : 기존 HunyuanVideo 대비 최대 8.5배 빠른 속도로 비디오 생성, 720x1280 해상도, 24fps의 고화질 영상 지원

 

 

 

사전 준비 사항

이 포스팅에서는 ComfyUI에서 AccVideo를 활용하는 방법을 다룹니다. 본문을 읽기 전에 아래 항목들을 미리 설치해 주세요. 이번 포스팅에서는 Stability Matrix와 ComfyUI를 사용하여 진행했지만, 로컬 환경에서 직접 설치하여 실행할 수도 있습니다.

 

[Stabiliy Matrix&ComfyUI 설치하기] (포스팅에서 사용한 방식)


[로컬에 직접 ComfyUI 설치하기]

 

 

목차
1. 실행 환경
2. ComfyUI 사용 노드

3. 다운로드 및 위치 설정
4. 실행 (영상 생성)

1. 실행 환경

  • 운영체제 : Windows 11
  • ComfyUI : 0.3.27
  • ComfyUI-Manager : V3.30
  • Python : 3.10.11
  • torch : 2.6.0 + cu124
  • GPU : NVIDIA GeForce RTX 4060 Ti

 

 

2. ComfyUI 사용 노드

아래는 이번 포스팅에서 사용된 ComfyUI 커스텀 노드입니다. 모델 실행에 필수적인 노드를 [필수]로 표기하였으며, 사용에 필수적이지 않은 노드는 [선택사항]으로 표기하였습니다.

  • ComfyUI-GGUF [필수] : GGUF 형식의 양자화 모델 로드를 지원하는 노드. 저사양 GPU에서도 효율적인 실행 가능.
  • ComfyUI-VideoHelperSuite [필수] : ComfyUI 내에서 비디오 제작 워크플로우를 지원하는 노드 모음. 비디오 로딩, 이미지 시퀀스 처리, 프레임 결합 등 다양한 기능을 제공하여 효율적인 영상 생성 및 편집 작업에 사용.  
  •  ComfyUI-HunyuanVideoMultiLora [필수] : AccVideo 실행 시 여러 LoRA 모델을 안정적으로 로드할 수 있도록 지원. 흐릿함 및 아티팩트 발생 방지에 효과적.

 

 

3. 다운로드 및 위치 설정

ComfyUI에서 영상을 생성에 필요한 ComfyUI Workflow 및 영상 생성 모델, text_encoder모델, vae 모델, clip_vision 모델을 다운로드합니다.

 

1) ComfyUI Workflow

이번 포스팅에서는 AccVideo 기반 영상 생성을 위한 ComfyUI 워크플로우를 아래와 같이 구성하여 사용하였습니다.

[AccVideo] txt2vid_workflow.json
0.01MB
ComfyUI AccVideo Workflow (클릭시 이미지 확대)

 

 

2) 모델 파일 다운로드

아래 Hugging Face 링크에서 모델 파일을 다운로드합니다. 이번 포스팅에서는 hunyuan_video_accvid_t2v-5-steps_Q3_K_S.gguf 모델을 사용하였습니다. 사용 환경이 더 좋다면, 이보다 더 큰 모델을 선택하여 사용하셔도 무방합니다.

모델 종류 파일명 허깅페이스 주소
gguf 모델
(영상 생성 모델)
hunyuan_video_accvid_t2v-5-steps_Q3_K_S.gguf https://huggingface.co/Kijai/HunyuanVideo_comfy/tree/main
text_encoder
모델
clip_l.safetensors,
llava_llama3_fp8_scaled.safetensors
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/text_encoders
vae 모델 hunyuan_video_vae_bf16.safetensors https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/vae
clip_vision
모델
llava_llama3_vision.safetensors https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/clip_vision

 

 

3) 모델 위치 이동

위 모델 파일을 모두 다운로드하셨으면, 각 모델을 아래 폴더로 이동시켜줍니다.

  • HunyuanVideo-I2V 파일 : StabilityMatrix → Data → Packages → ComfyUI → models → diffusion_models
  • text_encoder 파일 : StabilityMatrix → Data → Packages → ComfyUI → models → text_encoders
  • vae 파일 : StabilityMatrix → Data → Packages → ComfyUI → models → vae
  • clip_vision 파일 : StabilityMatrix → Data → Packages → ComfyUI → models → clip_vision

StabilityMatrix를 사용하지 않고 로컬에 ComfyUI를 직접 설치하신 경우에는, [StabilityMatrix → Data → Packages] 경로는 생략하시고, 바로 ComfyUI 폴더 내의 모델 디렉토리로 이동하시면 됩니다.

 

 

4. 실행 (영상 생성)

AccVideo를 활용하여 512 x 512 해상도의 약 2초 길이의 영상을 생성하였습니다. 현재 사용 중인 VRAM 16GB 환경에서 약 13.4GB의 VRAM을 사용했으며, 생성까지 약 3분이 소요되었습니다. 아래는 AccVideo를 사용하여 생성한 영상입니다.

  • 첫 번째 생성 프롬프트 : A stylish anime woman walking confidently down a neon-lit Tokyo street at night, in highly detailed Japanese anime style. She wears a sleek black leather jacket over a flowing red dress, black ankle boots, and carries a small black handbag. Her long hair sways gently as she walks, and she wears dark sunglasses and bold red lipstick. The street is wet and glossy, reflecting the vibrant neon signs and animated billboards in vivid colors.
  • 두 번째 생성 프롬프트 : A litter of playful golden retriever puppies frolicking in a snowy landscape, in ultra high-definition, natural lighting. Some of their fluffy heads poke out adorably from beneath soft piles of fresh snow, their fur dusted with snowflakes. Their eyes sparkle with curiosity and joy. The snow around them is pristine and powdery, reflecting soft winter sunlight.
첫번째 생성 영상

 

두번째 생성 영상

 

이번 테스트에서는 512 x 512 해상도, 약 2초 길이의 영상을 생성하였습니다. 해당 모델은 테스트에 사용된 해상도 외에도 544 x 960, 720 x 1280 등 더 높은 해상도의 영상 생성도 가능합니다. 이전에 포스팅했던 Hunyuan Video 모델의 경우, 해상도를 지나치게 높게 설정하면 픽셀이 깨지거나 영상 생성이 실패하는 문제가 발생하기도 했습니다. 이에 비해 AccVideo는 더 높은 해상도에서도 안정적인 생성이 가능하다는 점에서 확실한 개선을 보여줍니다.

 

또한 생성 속도 면에서도 큰 차이를 보였습니다. Hunyuan Video 모델로 영상 하나를 생성할 때는 약 20분 정도 소요되었지만, AccVideo는 훨씬 짧은 시간 내에 영상 생성이 완료되었으며, 전체적인 퀄리티도 그대로 유지되었습니다. 참고로, HunyuanVideo-I2V 모델을 사용할 때도 약 4분 이상의 시간이 걸렸던 반면, AccVideo는 이보다 약 1분 더 빠르게 생성할 수 있었습니다. 다만 이번 테스트에서는 VRAM 부족으로 인해 VAE 디코딩 과정에서 다소 시간이 지연되는 현상이 있었으며, 더 높은 사양의 환경에서는 생성 속도가 더욱 향상될 것으로 기대됩니다.


 

AccVideo는 기존 비디오 생성 모델의 한계를 극복하며, 더 빠르고 안정적인 고해상도 영상 생성이 가능한 효율적인 솔루션으로 주목할 만합니다. 특히, 짧은 생성 시간에도 불구하고 높은 품질을 유지한다는 점은 실사용 측면에서 매우 큰 장점입니다. 향후 더 고사양의 환경에서 테스트가 이루어진다면, 더욱 빠르고 정교한 결과를 기대할 수 있으며, 이를 기반으로 실시간 영상 생성이나 인터랙티브 콘텐츠 제작 등 다양한 활용 가능성도 열려 있습니다.

 

앞으로도 AccVideo와 같은 고성능 AI 영상 생성 모델이 어떻게 발전해나갈지 기대되며, 본 포스팅이 관련 내용을 탐색하시는 분들께 작은 도움이 되었기를 바랍니다.

 

 

감사합니다. 😊

 

반응형