본문 바로가기

AI 소식/오픈소스 AI 모델

[영상 생성 AI] [오픈 소스] [로컬 환경] Genmo에서 개발한 영상 생성 AI, Mochi-1를 소개합니다.

안녕하세요,

이번에 영상을 생성해주는 놀라운 AI 모델이 공개되었습니다. 바로 Genmo의 Mochi-1입니다. 이 AI 모델은 텍스트 프롬프트를 기반으로 생성된 영상이 마치 실제 촬영된 영상처럼 자연스럽고 사실적이어서 사람들을 놀라게 하고 있습니다. 더욱 놀라운 점은 이 뛰어난 모델이 오픈 소스로 공개되어 누구나 접근하고 활용할 수 있다는 것입니다. 이번 포스팅에서는 Mochi-1 AI의 주요 특징과 사용방법, 그리고 활용 가능성에 대해 자세히 소개해드리겠습니다.

 


반응형

Mochi-1

Mochi-1은 Genmo에서 개발한 오픈 소스 영상 생성 모델로, 텍스트 프롬프트를 기반으로 고품질의 영상을 생성할 수 있는 강력한 AI 모델입니다. 이 모델은 특히 '프롬프트 준수'와 '움직임 품질' 측면에서 높은 평가를 받고 있으며, 부드러운 움직임과 물리적 현실감을 반영한 영상을 생성할 수 있습니다.

 

Mochi-1은 비대칭 확산 트랜스포머(AsymmDiT) 구조를 채택해 효율적이고 정밀한 영상 생성이 가능하며, 현재 480p 해상도의 베이스 모델을 공개한 상태입니다. HD 버전은 올해 후반에 출시될 예정입니다. 이러한 강점을 바탕으로 창의적인 콘텐츠 생성에서 뛰어난 성능을 제공합니다.

 

이 모델은 10억 개의 매개변수를 가진 영상 생성 모델로, 비대칭 확산 트랜스포머(AsymmDiT) 아키텍처를 채택하고 있습니다. 이 모델은 텍스트와 영상 토큰을 효율적으로 처리하며, T5-XXL 언어 모델을 사용해 프롬프트를 인코딩합니다. 또한, 영상을 128배 압축할 수 있는 영상 VAE도 함께 제공되어 효율적인 영상 생성을 지원합니다. 그리고 최신 기술을 적용해 메모리 효율을 높였으며, 정교한 영상 생성이 가능합니다. 다만, 이 모델을 실행하기 위해서는 최소 4개의 H100 GPU가 필요해 높은 하드웨어 요구 사항을 가지고 있습니다.

 

 

현재 Genmo 공식 사이트에서 회원가입 후 무료로 이용해 보실 수 있습니다.

 

Genmo. The best open video generation models.

Genmo trains the world's best open video generation models. Create incredible videos with AI at Genmo

www.genmo.ai

 

아래 영상은 Genmo 공식 사이트에서 Mochi-1을 이용해 만든 생성 영상입니다.

 

생성 프롬프트 : A dynamic shot of a cyclist racing down a mountain trail, dust kicking up. The camera follows closely, capturing the intensity and focus

 

출처: Mochi-1 생성 영상

 

Mochi-1 모델 라이선스

Mochi-1은 Apache 2.0 라이선스 하에 공개되어 있습니다. 이를 통해 사용자는 모델을 자유롭게 사용, 수정, 배포할 수 있으며, 상업적 용도로도 활용할 수 있습니다. 단, 이 라이선스를 유지하고 원작자의 권리를 인정해야 하며, 수정한 소프트웨어나 파생물을 배포할 때는 라이선스 정보를 명시해야 합니다. 또한, 소프트웨어 사용으로 인한 책임은 사용자에게 있다는 점도 명확히 하고 있습니다.

 

 

Mochi-1 모델의 한계

현재 Mochi-1 모델은 480p 해상도의 영상만 생성할 수 있으며, 극단적인 움직임에서는 일부 왜곡이 발생할 수 있습니다. 이 모델은 사실적인 스타일에 최적화되어 있어 애니메이션 콘텐츠에는 적합하지 않은 특징이 있습니다. 오픈 소스로 제공되지만 실행하기 위해서는 고성능의 GPU 자원이 요구되며, 특히 4개의 H100 GPU는 상당한 비용과 인프라를 필요로 합니다. 따라서 이러한 고사양의 하드웨어를 구비하지 않은 일반 사용자나 소규모 연구팀은 직접 실행하기가 어려울 수 있습니다. 

 

아래는 Mochi-1 모델을 로컬에 설치하고 실행하는 방법을 정리한 내용입니다. 해당 내용은 모델의 깃허브 페이지에서 제공된 정보를 바탕으로 하였습니다.

 


728x90

Mochi-1 모델 설치

1) 깃허브 필요 소스 다운로드

아래 명령어를 통해 다운받을 수 있습니다.

# Windows PowerShell
git clone https://github.com/genmoai/models

 

2) 필수 패키지 다운로드

아래 명령어를 통해 다운받을 수 있습니다.

# Windows PowerShell
cd models  # 깃허브에서 다운받은 폴더로 경로 이동
pip install uv  # Python 패키지 설치 및 관리 도구 설치
uv venv .venv  # ".venv" 가상환경 생성
source .venv/bin/activate  # ".venv" 가상환경 활성화
uv pip install -e .

 

3) 모델 가중치 다운로드

아래 허깅페이스에서 다운받을 수 있습니다. 해당 페이지의 파일들을 모두 다운받습니다.

 

4) 모델 실행

Mochi-1 AI 모델을 실행하는 방법은 두 가지가 있습니다. 첫 번째는 Gradio UI를 통해 실행하는 방법으로, 사용자 친화적인 인터페이스에서 간편하게 모델을 사용할 수 있는 장점이 있습니다. 두 번째는 CLI(명령줄 인터페이스)에서 직접 명령을 입력해 모델에게 영상을 생성하도록 하는 방법입니다. 이 방법은 더욱 유연하게 커스터마이징이 가능하며, 고급 사용자를 위한 강력한 도구로 활용될 수 있습니다.

 

  • Gradio UI 실행
# Windows PowerShell
python3 -m mochi_preview.gradio_ui --model_dir [허깅페이스에서 다운로드한 모델 폴더 경로]

 

  • CLI에서 직접 영상 생성
# Windows PowerShell
python3 -m mochi_preview.infer --prompt "Your prompt here" --seed 1710977262 --cfg-scale 4.5 --model_dir [허깅페이스에서 다운로드한 모델 폴더 경로]

 


 

허깅페이스에 배포된 모델의 용량은 무려 40GB에 달하며, 이를 실행하기 위해서는 최소 320GB의 VRAM이 필요합니다. 이러한 높은 하드웨어 요구 사항은 개별 사용자나 소규모 팀에게는 큰 부담일 수 있지만, 그만큼 이 모델이 제공하는 고품질 영상 생성 능력의 잠재력을 잘 보여주는 지표라고 할 수 있습니다.

 

기술은 계속해서 발전하고 있으며, 이러한 초기 요구 사항은 점차 개선될 가능성이 높습니다. Mochi-1을 시작으로, 앞으로는 더 낮은 사양의 하드웨어에서도 고품질의 영상을 생성할 수 있는 AI 모델들이 점차 등장할 것으로 기대됩니다. 이를 통해 더 많은 사람들이 AI를 활용한 창의적인 영상 제작을 경험할 수 있게 될 것입니다.