안녕하세요,
낮은 화질의 영상을 고화질로 변환해 주는 AI가 새롭게 공개되었습니다. 영상 생성 AI는 이미 여러 모델이 등장하며 익숙한 기술이 되었지만, 이번에는 업스케일 성능이 뛰어나면서도 오픈 소스로 제공되는 모델을 소개해 드리려고 합니다. 오래된 영상을 선명하게 바꾸고 싶으신 분이라면 꼭 한번 사용해 보시길 추천드립니다. 이제 이 모델에 대해 알아보겠습니다.
STAR 란
STAR란 Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution의 약자로, 화질이 낮은 영상을 고화질로 만들어주는 AI입니다. 텍스트-투-비디오(T2V) 모델을 활용하여 실제 영상의 초해상도를 개선해줍니다. 이 프로젝트는 I2VGen-XL, VEnhancer, CogVideoX, OpenVid-1M을 기반으로 개발되었습니다.
- STAR 프로젝트 페이지 : https://nju-pcalab.github.io/projects/STAR/
이 모델은 높은 컴퓨팅 성능을 필요로 합니다. 만약 로컬 환경에서 설치가 불가능하나 직접 사용해보길 원하시는 분들은 아래 아래 허깅페이스 스페이스에서 무료로 이용해보실 수 있습니다.
- STAR 무료로 사용해보기 (HuggingFace Spaces) : https://huggingface.co/spaces/SherryX/STAR
주요 특징
- 로컬 정보 강화 모듈(Local Information Enhancement Module, LIEM)
- 글로벌 어텐션 블록 전에 배치되어 로컬 디테일을 풍부하게 하고 열화 아티팩트를 완화합니다. - 동적 주파수 손실(Dynamic Frequency Loss)
- 확산 단계별로 고주파 및 저주파 성분에 대한 제약을 적응적으로 조절하여 모델이 다양한 주파수 성분에 집중하도록 유도합니다.
라이선스
STAR에 사용된 기술은 MIT License와 CogVideoX License를 따릅니다.결론부터 말하자면 STAR는 상업적으로 사용이 가능하지만, CogVideoX License의 조건을 준수하고, 필요 시 상업 라이선스를 등록해야 합니다.
MIT License는 상업적 사용, 수정, 배포 등이 자유롭게 허용되며, 저작권 및 라이선스 공지를 유지하는 조건 외에는 제한이 없습니다. 다만, 소프트웨어는 "있는 그대로" 제공되며, 품질 보증 및 책임은 제공되지 않습니다. CogVideoX License는 STAR와 같은 모델을 학술 연구 목적으로 자유롭게 사용할 수 있도록 허용하며, 상업적 사용을 위해서는 기본 상업 라이선스를 등록하고 획득해야 합니다. 기본 상업 라이선스를 획득한 경우 월 100만 사용자 방문 수 이하의 상업적 활동이 무료로 허용되지만, 이를 초과할 경우 추가 상업 라이선스가 필요합니다. 또한, 이 라이선스는 군사적, 불법적, 혹은 공공 이익을 해치거나 중국의 국가 안전과 통합을 저해하는 행위에 소프트웨어를 사용하는 것을 엄격히 금지합니다.
필요 하드웨어
STAR 공식 깃허브에 따르면, 이 모델을 실행하려면 최소 24GB 이상의 VRAM을 갖춘 GPU가 필요합니다. 실제 예제에서 생성된 영상을 4배로 업스케일링하는 작업에는 약 39GB의 VRAM이 사용되었습니다. 메모리 문제가 발생할 경우, 설정 값을 조정하거나 영상 크기와 업스케일 배율을 줄여 문제를 해결할 수 있습니다.
STAR 설치 및 실행
STAR 모델을 로컬 환경에 직접 설치 및 실행하는 과정에 대해 알아보겠습니다.
목차
1. 실행 환경
2. STAR 설치
3. STAR 실행
1. 실행 환경
- 운영체제 : Windows 11
- Python : 3.10.0
- torch : 2.3.1 + cu121
- GPU : NVIDIA GeForce RTX 4060 Ti
2. STAR 설치
1) 깃허브 코드 다운로드
아래 STAR 깃허브 페이지에서 코드를 다운받습니다.
- STAR 깃허브 페이지 : https://github.com/NJU-PCALab/STAR

해당 코드를 다운로드 하셨으면 압축을 풀어줍니다.
2) 가상 환경 생성 (선택 사항)
아래 명령어를 사용하여 conda 가상 환경을 생성할 수 있습니다. conda가 설치되지 않았거나 설치를 원하지 않는 경우, 이 단계를 건너뛰어도 무방합니다.
# Windows PowerShell
conda create -n STAR python=3.10
conda activate STAR
3) 필수 패키지 다운로드 (1)
아래 명령어를 사용하여 필수 패키지를 설치합니다. 실행 전에 STAR 깃허브에서 다운로드한 파일의 폴더로 이동한 후 명령어를 실행해야 합니다.
# Windows PowerShell
cd E:\ai_model\STAR # 깃허브에서 다운받은 폴더 경로
pip install -r requirements.txt
4) 필수 패키지 다운로드 (2)
아래 명령어를 사용하여 필수 패키지를 설치합니다. 이번에 실행할 명령어는 Ubuntu 환경에서 실행해야 합니다. 설치되는 패키지는 Python 패키지가 아니라, 멀티미디어 처리 소프트웨어와 시스템 라이브러리입니다. 따라서 아래 명령어는 반드시 Ubuntu에서 실행합니다.
# Ubuntu
sudo apt-get update # 패키지 관리자(apt)의 패키지 목록 최신 업데이트
sudo apt-get install ffmpeg libsm6 libxext6 -y # ffmpeg, libsm6, libxext6 설치
5) 모델 다운로드 및 위치 설정
STAR 허깅페이스 페이지에서 해당 모델을 다운로드합니다. 여기에는 두 가지 모델이 제공되며, "heavy_deg.pt"는 심각한 화질 저하에, "light_deg.pt"는 가벼운 화질 저하에 최적화되어 있습니다. 용도에 맞는 모델을 선택하여 다운로드합니다.

모델 파일 다운로드가 완료되면, 해당 파일을 pretrained_weight 폴더로 이동합니다. 만약 폴더가 없다면, 새 폴더를 생성하여 사용하면 됩니다.

3. STAR 실행
모델을 실행하기 전에 화질 개선을 원하는 영상과 프롬프트를 준비해야 합니다. 준비한 영상과 프롬프트는 아래 경로와 같이 깃허브에서 다운받은 STAR폴더 안에 저장해줍니다.
- 프롬프트 폴더 위치 : C:\STAR\input/text\prompt.txt
- 영상 폴더 위치 : C:\STAR\input\video\video.mp4

영상과 프롬프트 준비가 완료되었으면 아래 명령어를 통해 모델을 실행시켜줍니다.
# Windows PowerShell
cd E:\ai_model\STAR\video_super_resolution\scripts # 깃허브에서 다운받은 폴더 경로
python inference_sr.py
준비한 영상을 프롬프트를 기반으로 새롭게 업스케일된 고화질 영상으로 변환합니다.
이 모델은 텍스트와 영상을 결합한 독창적인 방식으로 작동하며, 기존 화질이 낮은 영상에 디테일을 추가해 실제와 가까운 수준의 고품질 영상을 생성합니다. 다만, 이 모델을 실행하려면 높은 수준의 컴퓨팅 성능이 필요하기 때문에 직접 설치해 실행하지는 못했습니다. 하지만 공식 프로젝트 페이지에서 공개된 결과물을 살펴보면, 매우 높은 퀄리티의 결과를 제공하며, 기술적으로도 상당히 인상적이라는 것을 알 수 있습니다. 이러한 점에서 이 모델은 화질 개선 및 영상 처리 분야에서 획기적인 도구로 평가받을 만합니다.
감사합니다. 😊
'AI 소식 > 오픈소스 AI 모델' 카테고리의 다른 글
| [오픈 소스 AI] [로컬 환경] DeepSeek의 이미지 생성 모델, Janus를 소개합니다. (2) | 2025.01.30 |
|---|---|
| [오픈 소스 AI] 새로운 물질의 구조를 설계해주는 AI, MatterGen을 소개합니다. (0) | 2025.01.27 |
| [오픈 소스 AI] 배경 없이 객체만 그려주는 AI, TransPixar를 소개합니다. (0) | 2025.01.17 |
| [오픈 소스 AI] 중국에서 개발한 무료 ChatGPT, DeepSeek를 소개합니다. (0) | 2025.01.08 |
| [오픈 소스 AI] 구글에서 발표한 기상 예보 AI, GenCast (젠캐스트)를 소개합니다. (0) | 2024.12.13 |