본문 바로가기

ComfyUI/영상 생성

[ComfyUI] 중국의 영상 생성 AI 모델, HuMo를 소개합니다 | 오픈소스 AI

안녕하세요,

중국의 인공지능 기술이 빠르게 발전하면서, 다양한 모델들이 연구 성과와 함께 오픈소스로 공개되고 있습니다. 이러한 흐름 속에 HuMo라는 새로운 영상 생성 모델이 공개되었습니다. 이 모델은 텍스트, 이미지, 오디오를 함께 활용하여 사람 중심의 사실적이고 자연스러운 영상을 생성하는 멀티모달 비디오 생성 모델입니다.

이번 포스팅에서는 HuMo의 주요 특징과 실제 영상 생성 결과를 중심으로 자세히 살펴보겠습니다.


반응형

HuMo 모델이란

HuMo 모델 텍스트, 이미지, 오디오 등 다양한 입력 정보를 결합하여 사람 중심의 자연스럽고 사실적인 영상을 생성하는 최신 멀티모달 비디오 생성 모델입니다. 이 모델은 칭화대학교(Tsinghua University)와 바이트댄스(ByteDance) 인텔리전트 크리에이션 랩(Intelligent Creation Lab)이 공동으로 개발한 오픈소스 멀티모달 영상 생성 기술로, 사람의 동작과 표정을 중심에 두고 일관성 있고 현실감 있는 결과물을 생성하도록 설계되었습니다.

 

 

HuMo

Faceless Thrones A short demo video by HuMo in TA & TIA modes. Please turn on the sound for watching. Text Control / Edit Please turn on the sound for watching. Given the same subject reference images but different text prompts, our method achieves collabo

phantom-video.github.io

 

[모델 버전]

  • HuMo 1.7B : 경량화된 베이스 모델로, 빠른 추론 속도와 낮은 연산 자원을 목표로 설계되었습니다. 개인용 GPU 환경이나 로컬 테스트 환경에서도 실행이 가능하며, 텍스트·이미지 기반의 영상 생성(TI 모드)에 최적화되어 있습니다.
  • HuMo 17B : 대규모 파라미터(약 17B 규모)를 가진 고성능 버전으로, 텍스트 + 이미지 + 오디오(TIA) 조건을 모두 반영한 고품질 영상 생성을 지원합니다. 인물의 세밀한 표정 변화, 오디오-비주얼 동기화, 감정 표현 등에서 더욱 높은 사실감을 제공합니다.

 

 

주요 특징

  • 다중 모달 결합 (Multi-Modal Conditioning) : 텍스트, 이미지, 오디오를 함께 활용하여 보다 정밀한 영상 생성이 가능함
  • 사람 중심 설계 (Human-Centric Design) : 인물의 형태, 표정, 움직임을 중심으로 사실적인 결과물을 생성함
  • 일관성 유지 (Subject Consistency) : 동일 인물의 특징을 유지한 채 다양한 장면과 동작을 자연스럽게 표현함
  • 텍스트 정렬성 (Text Alignment) : 입력된 텍스트 설명이 영상의 동작과 정확히 일치하도록 설계됨
  • 오디오 동기화 (Audio Synchronization) : 음성과 입 모양, 표정이 자연스럽게 동기화되도록 생성함
  • 협력적 조건 제어 (Collaborative Conditioning) : 여러 입력 조건 간의 상호 작용을 통해 섬세한 제어가 가능함
  • 다양한 모드 지원 (TI / TA / TIA) :
    • TI: 텍스트 + 이미지
    • TA: 텍스트 + 오디오
    • TIA: 텍스트 + 이미지 + 오디오
      각 조합에 따라 세밀한 영상 표현을 달리할 수 있음

 

 

라이선스

HuMo 모델 Apache 2.0 라이선스로 공개되어 있습니다. 이 라이선스는 오픈소스 라이선스 중에서도 사용 제약이 적은 편으로, 연구·개발 목적은 물론 상업적 활용도 자유롭게 허용합니다. 다만, 모델을 사용할 때는 저작권 및 라이선스 고지(Notice) 조항을 유지해야 하며, 모델 결과물을 상업 서비스에 통합하거나 배포하는 것 역시 가능합니다. 즉, 기업이나 개인 창작자 모두 HuMo을 활용해 상업적 제품, 서비스, 콘텐츠 제작할 수 있습니다.

 

 

실전 가이드 (ComfyUI에서 HuMo 모델로 영상 생성하기)

이 포스팅에서는 ComfyUI와 HuMo 17B 모델을 사용하여 영상 생성 방법에 대해 알아보겠습니다.

목차
1. 실행 환경
2. ComfyUI 다운로드

3. Workflow 및 모델 다운로드
4. 영상 생성

 

1. 실행 환경

  • 운영체제 : Windows 11
  • ComfyUI : 0.3.65
  • ComfyUI-Manager : V3.30
  • Python : 3.10.11
  • torch : 2.8.0 + cu128
  • GPU : NVIDIA GeForce RTX 4060 Ti (vram : 16GB)

 

2. ComfyUI 설치

아래 링크를 통해 사용 중인 PC 환경에 맞는 버전을 선택하여 ComfyUI를 다운로드 및 설치합니다.

 

3. Workflow 및 모델 다운로드

최신 ComfyUI에서는 웹 UI 내에서 워크플로우를 간편하게 불러올 수 있습니다.

  • ComfyUI를 실행
  • 왼쪽탭에서 "Templates" 버튼 클릭
  • "Video" 항목에서 "HuMo Video Generaton" 클릭

ComfyUI Workflow 불러오기

 

ComfyUI에서 워크플로우 파일을 불러오면, 해당 모델을 자동으로 탐색하며, 로컬에 모델이 없는 경우 다운로드 링크를 안내해줍니다. 이 링크를 통해 손쉽게 필요한 모델 파일을 다운로드할 수 있습니다.

모델 파일 다운로드 예시

 

모델 다운로드가 완료되면, 아래와 같이 지정된 폴더 구조에 맞게 파일을 이동해 줍니다.

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── humo_17B_fp8_e4m3fn.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   ├───📂 audio_encoders/ # 해당 폴더가 없으면 생성
│   │   └─── whisper_large_v3_fp16.safetensors 
│   ├───📂 vae/
│   │   └── wan_2.1_vae.safetensors
│   └── 📂 lora/  # (선택사항) 
│       └─── lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors

 

모든 모델 파일을 다운로드한 후에는 위 구조에 맞게 정확한 위치로 옮겨야 합니다. lora 폴더의 모델 파일은 선택 사항으로, 필수는 아니지만 영상 생성 품질을 향상시키는 데 도움을 줍니다. 더 높은 퀄리티의 영상을 원하신다면, 해당 lora 파일도 함께 다운로드하는 것을 권장합니다.

 

4. 영상 생성

HuMo 17B 모델을 활용하여 이미지와 오디오 데이터를 입력하고 영상을 생성했습니다. 이는 이전에 Wan2.2-S2V 모델과 같이 입력한 이미지를 오디오에 맞는 자연스러운 영상을 생성해줍니다.

 

아래는 영상 생성에 사용한 이미지, 오디오, 그리고 프롬프트 입니다.

 

[입력 프롬프트]

A middle-aged man with short brown hair is sitting indoors, gently playing an acoustic guitar. Warm sunlight filters through the window, casting soft shadows on the wall behind him.

 

[입력 이미지]

입력 이미지

 

[입력 오디오]

입력 오디오

 

HuMo 17B 모델을 활용하여 약 5초 길이의 영상을 생성하였습니다. 입력된 오디오의 길이는 약 15초였으나, 생성 과정에서 5초 분량으로 조정하여 출력하였습니다. 이때 VRAM 사용량은 약 12.5GB였으며, 전체 생성에는 약 13분이 소요되었습니다.

 

생성 결과는 전반적으로 매우 자연스러웠습니다. 이전 포스팅에서 활용했던 Wan2.2-S2V 모델은 손 동작이 다소 어색하게 표현되는 한계가 있었으나, 이번에 사용한 HuMo 17B 모델은 손의 움직임뿐만 아니라 입 모양과 표정의 변화까지도 한층 정교하게 구현되었습니다. 실제 인물이 음악에 맞춰 노래를 부르는 듯한 사실적이고 생동감 있는 영상이 생성되었습니다. 종합적으로 볼 때, HuMo 모델은 인체 동작의 현실감과 감정 표현의 섬세함에서 뛰어난 완성도를 보여줍니다.

 

[생성 결과]

생성 영상

 


 

칭화대학교와 바이트댄스가 공동 개발한 HuMo 모델은 멀티모달 기반 영상 생성 기술의 새로운 가능성을 보여주는 모델입니다. 텍스트, 이미지, 오디오를 유기적으로 결합하여 인물 중심의 사실적인 영상을 만들어냅니다. 특히 이전에 활용했던 Wan2.2-S2V 모델과 비교했을 때, HuMo는 손의 움직임과 입 모양의 동기화, 표정 변화의 자연스러움에서 한층 높은 수준의 완성도를 보여주었습니다.

 

이러한 결과는 HuMo가 지향하는 ‘사람 중심의 몰입형 생성 경험’의 방향성을 잘 보여주는 사례라 할 수 있습니다. 앞으로는 LoRA 기반 미세 조정, 프롬프트 최적화, 프레임 수 및 해상도 제어 등을 통해 더욱 향상된 품질을 기대할 수 있으며, 실제 영상 제작 워크플로우에도 충분히 적용 가능한 실용적 모델로 평가됩니다.

 

 

감사합니다. 😊

 

 

 

 

 

 

 

 

반응형