본문 바로가기

ComfyUI/영상 생성

[영상 생성 AI] [로컬 환경] ComfyUI 이용하여 영상 생성하기 5탄 : Mochi AI

안녕하세요,

영상 생성 AI 기술의 급격한 발전으로 이제 누구나 집에서 고품질 비디오를 손쉽게 생성할 수 있는 시대가 되었습니다. 과거에는 복잡하고 고사양의 장비가 필수적이었지만, 이제 AI 기술의 접근성이 크게 향상되면서 일반 사용자들도 직접 창작에 참여할 수 있는 기회가 열리고 있습니다. 얼마 전, 오픈 소스로 공개된 영상 생성 AI 'Mochi'에 대해 소개한 적이 있었지만, 높은 시스템 요구 사항 때문에 직접 실행해보지 못한 아쉬움이 있었습니다. 그러나 이번에 ComfyUI에서 최적화가 이루어지면서, 이제 Mochi AI를 보다 쉽게 실행할 수 있게 되었습니다. 이번 포스팅에서는 이러한 내용을 자세히 소개해 드리고자 합니다.


반응형

Mochi-1 AI

Mochi-1은 Genmo에서 개발한 오픈 소스 영상 생성 모델로, 텍스트 프롬프트를 기반으로 고품질의 영상을 생성할 수 있는 AI 모델입니다. 이전 포스팅에서는 이  모델의 시스템 요구사항이 너무 높아 실제 실행에 어려움이 있었지만, 이번에 ComfyUI와의 최적화된 통합 덕분에 소비자용 GPU에서도 원활하게 고품질 비디오를 생성할 수 있게 되었습니다.

 

Mochi-1은 고충실도의 모션 표현과 우수한 프롬프트 해석 능력을 갖추고 있으며, Apache 2.0 라이선스 하에 배포되어 개발자와 창작자들이 자유롭게 사용, 수정 및 통합할 수 있는 것이 큰 장점입니다. 특히 ComfyUI와의 최적화된 통합은 비디오 생성 과정을 대폭 간소화하여, GPU 리소스가 제한된 환경에서도 더 많은 사용자들이 이 기술을 활용할 수 있도록 했습니다.

 

직접적인 내용을 확인하고 싶으신 분들은 아래 ComfyUI 블로그를 통해 자세한 정보를 확인하실 수 있습니다.

 

 

 

Run Mochi in ComfyUI with consumer GPU

We are excited to announce that ComfyUI now has optimized support for Genmo’s latest model, Mochi! This integration brings state-of-the-art video generation capabilities to the ComfyUI community, even if you're working with consumer-grade GPUs. The weigh

blog.comfy.org

 

 

사전준비사항

이 포스팅은 ComfyUI에서 Mochi-1 모델을 활용하는 방법에 대한 내용입니다. 따라서 본문을 읽기 전에 ComfyUIComfyUI-Manager를 미리 설치해 주시기 바랍니다.

 

 

목차
1. 실행 환경
2. ComfyUI 사용 노드

3. 모델 다운로드 및 위치 설정
4. 노드 구성
5. 실행 (영상 생성)

728x90

1. 실행 환경

  • 운영체제 : Windows 11
  • ComfyUI : 0.2.7
  • ComfyUI-Manager : V2.51.9
  • Python : 3.10.0
  • torch : 2.3.1 + cu121
  • GPU : NVIDIA GeForce RTX 4060 Ti

 

 

2. ComfyUI 사용 노드

이번 포스팅에서는 별도로 다운로드한 커스텀 노드는 없지만, ComfyUI의 최신 버전으로 업데이트하는 것이 중요합니다. 최신 버전으로 업데이트하면 모델과의 호환성을 최대한 확보할 수 있으며, 성능 개선 및 버그 수정을 통해 최적의 결과를 얻을 수 있습니다. ComfyUI-Manager에서 "Update ComfyUI" 버튼을 클릭하여 최신 버전으로 간편하게 업데이트할 수 있습니다. 최신 업데이트에서는 사용자 편의성과 성능 향상에 중점을 두고 있어, Mochi-1과의 통합에서도 최적의 효율성을 기대할 수 있습니다.

 

 

3. 모델 다운로드 및 위치 설정

영상을 생성에 필요한 mochi모델 및 VAE 모델, text encoder 모델을 다운받습니다.

 

1) Mochi 모델 파일 다운로드

아래 ComfyUI 허깅페이스 페이지에서 모델을 다운로드합니다. bf16 모델과 fp8 모델 두 가지 버전이 제공되며, 사용자의 환경에 맞는 모델을 선택합니다. 만약 VRAM이 24GB 이상이라면 bf16 모델을 사용하는 것이 가능합니다.

출처: ComfyUI 허깅페이스

 

모델 파일 다운로드가 완료되면 해당 모델 파일을 diffusion_models 폴더로 이동시켜줍니다.

 

(ComfyUI 폴더) → (models 폴더) → (diffusion_models 폴더)

 


2) VAE 모델 파일 다운로드

아래 ComfyUI 허깅페이스에서 vae 모델을 다운받습니다.

출처: ComfyUI 허깅페이스

 

모델 파일 다운로드가 완료되면 해당 모델 파일을 vae 폴더로 이동시켜줍니다.

 

(ComfyUI 폴더) → (models 폴더) → (vae 폴더)

 

 

3) Clip 모델 파일 다운로드

아래 ComfyUI 허깅페이스에서 clip 모델을 다운받습니다. clip 모델 또한 사용자 환경에 맞는 모델을 다운로드해주시면 됩니다.

출처: ComfyUI 허깅페이스

 

모델 파일 다운로드가 완료되면 해당 모델 파일을 clip 폴더로 이동시켜줍니다.

 

(ComfyUI 폴더) → (models 폴더) → (clip 폴더)

 

 

4. 노드 구성

영상 생성에 활용한 모델은 fp8 버전을 사용했습니다. 그리고 사용한 프롬프트는 ComfyUI에서 노드를 다운로드할 때 저장된 프롬프트를 그대로 사용했습니다. 아래는 Mochi fp8 모델로 생성한 영상입니다.

 

출처: ComfyUI

 

 

5. 실행 (영상 생성)

영상 생성에 활용한 모델은 fp8 버전을 사용했습니다. 이 모델은 VRAM 자원이 상대적으로 적은 환경에서도 높은 효율성을 보여줍니다. 사용한 프롬프트는 ComfyUI에서 노드를 다운로드할 때 기본으로 제공된 프롬프트를 그대로 사용하여 손쉽게 테스트를 진행하였습니다. 아래는 Mochi fp8 모델을 사용해 생성된 영상으로, 모션의 부드러움과 색감의 충실도가 특히 돋보입니다.

 

 

Mochi-1 fp8 생성 영상

 

결과물에서는 약간의 이미지 깨짐 현상과 일부 어색한 부분이 있긴 하지만, 전체적으로 오픈 소스 모델임에도 불구하고 매우 인상적인 품질을 보여주었습니다.

 

Mochi-1은 누구나 손쉽게 고품질 영상을 생성할 수 있도록 설계된 혁신적인 AI 모델입니다. 오픈 소스 모델과 ComfyUI의 최적화된 통합 덕분에, 소비자용 GPU에서도 뛰어난 성능을 발휘하며 창작자들에게 새로운 가능성을 열어주고 있습니다. 비디오 생성 기술은 계속해서 발전하고 있으며, Mochi-1은 그 과정에서 중요한 역할을 하고 있습니다. 특히, 올해 말에는 HD 화질을 지원하는 새로운 모델이 배포될 예정이라고 하니 앞으로의 발전이 더욱 기대됩니다.

 

 

읽어주셔서 감사합니다. 😊