안녕하세요,
최근 들어 영상 생성 AI 분야에서 눈부신 발전이 이어지며 다양한 혁신적인 모델들이 등장하고 있습니다. 오늘은 그중에서도 중국의 거대 기술 기업 텐센트(Tencent)가 새롭게 공개한 영상 생성 AI 모델, Hunyuan Video를 소개해 드리려고 합니다. 이 모델은 놀라운 성능을 바탕으로 텍스트 입력만으로도 자연스럽고 고퀄리티의 영상을 생성해내는 것이 특징입니다. 특히, AI 기반 영상 생성 기술의 새로운 기준을 제시하며 큰 주목을 받고 있습니다.
이번 포스팅에서는 Hunyuan Video의 주요 특징과 시스템 요구사항, 그리고 활용 가능성에 대해 자세히 살펴보겠습니다.
Hunyuan Video AI 란
Hunyuan Video는 중국의 텐센트(Tencent)가 개발한 최첨단 오픈소스 AI 비디오 생성 모델로, 130억 개의 파라미터를 기반으로 설계되었습니다. 이 모델은 텍스트 입력만으로도 고품질의 비디오를 생성할 수 있으며, 자연스러운 동작과 뛰어난 시각적 충실도를 제공합니다. Hunyuan Video는 Runway Gen-3, Luma 1.6 등 기존 상위 모델들을 성능 면에서 능가하며, 텍스트 정렬(68.5%), 모션 품질(64.5%), 시각적 선명도(96.4%)에서 우수한 평가를 받았습니다. 이러한 성능은 영화 수준의 고품질 비디오 제작에도 적합하다는 점에서 주목받고 있습니다.
- 텐센트 공식사이트 : https://aivideo.hunyuan.tencent.com/
주요 특징
1) 통합된 이미지 및 비디오 생성 아키텍처
- 하이브리드 Transformer 디자인: "듀얼 스트림에서 싱글 스트림"으로 전환되는 구조를 통해 텍스트와 비디오 간 상호작용을 효율적으로 처리.
- 텍스트-비디오 정렬 개선: 텍스트 입력과 비디오 결과물 간의 높은 일치도를 보장.
- 시각적 품질 향상: 프레임과 장면의 일관성을 유지하며 고품질 영상 제공.
2) 높은 시각적 품질과 동작 다양성
- 물리적 정확성: 생성된 장면이 물리 법칙을 준수하여 자연스러운 시청 경험 제공.
- 장면 일관성: 프레임 간의 연결성이 뛰어나 서사를 효과적으로 전달.
- 모션 안정성: 부드럽고 연속적인 동작 표현으로 복잡한 액션도 자연스럽게 구현.
- 전문적 카메라 워크: 감독 수준의 카메라 움직임과 장면 전환 지원.
3) 텍스트 인코딩 및 학습 효율성
- MLLM 기반 텍스트 인코더: 텍스트 입력을 정밀하게 해석하며 제로샷 학습(zero-shot learning)과 세부 표현 강화.
- 3D VAE: 데이터를 효율적으로 압축하면서도 고해상도 비디오 생성 지원.
4) 사용자 친화적 인터페이스 및 오픈소스 접근성
- 무료 및 직관적 인터페이스: 간단한 텍스트 프롬프트로 고품질 비디오를 빠르게 생성. 초보자도 쉽게 사용 가능.
- 오픈소스 프로젝트: GitHub를 통해 모델 코드와 사전 학습된 가중치를 공개, 개발자와 연구자들이 활용 및 개선 가능.
5) 다양한 스타일 및 품질 옵션
- 현실적 스타일과 가상 스타일 간의 전환이 자유로워 다양한 콘텐츠 제작에 활용 가능.
모델 공개
Tencent는 최신 AI 비디오 생성 모델인 Hunyuan Video를 공식적으로 공개했습니다. 이 모델은 GitHub와 Hugging Face 플랫폼을 통해 오픈소스로 제공되며, 특정 지역을 제외한 전 세계의 개발자와 연구자들이 자유롭게 접근하고 활용할 수 있습니다.
- Tencent 깃허브 : https://github.com/Tencent/HunyuanVideo
- Tencent 허깅페이스 : https://huggingface.co/tencent/HunyuanVideo/tree/main
성능 비교
Tencent의 HunyuanVideo는 5가지 주요 경쟁 모델과 비교하여 성능 평가가 이루어졌습니다. 평가 기준은 텍스트 정렬(Text Alignment), 동작 품질(Motion Quality), 시각적 품질(Visual Quality)이며, 이를 종합한 전체 점수(Overall)로 순위를 매겼습니다. 평가는 동일한 조건에서 수행되었으며, 60명 이상의 전문가들이 평가를 진행했습니다.
순위 및 점수
- HunyuanVideo: 전체 점수 41.3%
- CNTopA: 전체 점수 37.7%
- CNTopB: 전체 점수 37.5%
- GEN-3 alpha: 전체 점수 27.4%
- Luma1.6: 전체 점수 24.8%
- CNTopC: 전체 점수 24.6%
라이선스
Hunyuan Video는 오픈 소스로 공개되었지만, 현재 한국에서는 사용할 수 없습니다. Hunyuan Video 라이선스에 따르면, 이 모델은 사용 가능 지역이 제한되어 있으며, 유럽연합(EU), 영국(UK), 대한민국에서는 사용이 금지됩니다. 이외 지역에서만 사용이 가능합니다. 사용자는 Hunyuan Video를 복제, 배포, 수정하거나 파생 작업을 생성하여 상업적 또는 비상업적으로 활용할 수 있지만, 텐센트의 허용 사용 정책(Acceptable Use Policy)과 라이선스 조건을 반드시 준수해야 합니다.
상업적 조건으로, 월간 활성 사용자 수가 1억 명을 초과하는 경우 텐센트로부터 별도의 상업적 라이선스를 받아야 합니다. 허용 사용 정책에 따라 금지된 행위로는 사용 가능 지역을 벗어난 사용, Output을 다른 AI 모델의 개선에 활용하는 행위, 허위 정보 생성, 폭력, 차별, 군사적 목적 등 윤리적 문제가 있는 활동이 포함됩니다. 이 모델을 기반으로 생성된 파생물의 소유권은 사용자에게 귀속되며, 텐센트는 생성된 Output에 대해 어떠한 권리도 주장하지 않습니다. 그러나 Output의 사용에 대한 모든 책임은 전적으로 사용자에게 있습니다.
요구사항
HunyuanVideo 모델을 실행하여 비디오를 생성하기 위해서는 특정 시스템 요구사항이 필요합니다. 모델 실행 시 배치 크기(batch size)를 1로 설정했을 때 요구사항은 다음과 같습니다.
- 720px × 1280px 해상도, 129프레임 설정 : 최소 GPU 메모리 60GB 필요
- 544px × 960px 해상도, 129프레임 설정 : 최소 GPU 메모리 45GB 필요
Tencent 깃허브에서 명시된 테스트 환경 : Linux운영체제, NVIDIA GPU 80GB, CUDA 지원
놀라운 성능으로 자연스러운 고퀄리티 영상을 생성해주는 AI 모델이 공개되었습니다. 이 모델은 현재 깃허브와 허깅페이스를 통해 오픈 소스로 제공되고 있습니다. 하지만 안타깝게도 오픈 소스임에도 불구하고, 한국에서는 사용할 수 없는 상황입니다. 라이선스 페이지에 명시된 바에 따르면, 유럽연합(EU), 영국(UK), 대한민국을 제외한 나머지 국가에서만 사용이 허용됩니다. 한국이 제외된 이유는 구체적으로 알려지지 않았지만, 현재로서는 라이선스 상 허용되지 않는 것으로 보입니다. 그럼에도 불구하고 매우 뛰어난 모델이 공개된 만큼, 관련 소식을 공유하게 되었습니다.
앞으로도 AI와 관련된 유익하고 흥미로운 정보를 꾸준히 전달드릴 수 있도록 노력하겠습니다.
감사합니다. 😊
'AI 소식 > 유용한 AI 도구' 카테고리의 다른 글
[LLM AI] [이미지 생성 AI] 빅테크 기업 아마존에서 제공하는 AI, Nova를 소개합니다. (1) | 2024.12.18 |
---|---|
구글이 출시한 음악 생성 AI 도구, MusicFX를 소개합니다. (0) | 2024.12.03 |
SK텔레콤(SKT)의 자체 개발 LLM 모델, "A.X (에이닷엑스)"를 소개합니다. (4) | 2024.11.10 |
AI가 검색을 바꾸다: Perplexity AI에 대해 소개합니다. (3) | 2024.10.29 |
[오픈 소스 AI] [로컬 환경] 실시간 대화하는 AI 비서, "Moshi"를 소개합니다. (0) | 2024.10.05 |