[오픈 소스 AI] [로컬 환경] DeepSeek의 이미지 생성 모델, Janus를 소개합니다.

안녕하세요,

최근 AI에서 가장 핫한 회사는 바로 DeepSeek입니다. DeepSeek는 중국 기반의 회사로써, 최근 미국 앱스토어에서 가장 많이 다운로드된 앱이 되면서 빠르게 주목을 받고 있습니다. 이 현상으로 미국 기업들의 시가총액에도 그 영향을 미치고 있는데, 이번에 소개해드릴 AI 모델은 바로 DeepSeek에서 공개한 이미지 생성 모델 Janus입니다. 그럼 이 모델에 대해 알아보겠습니다.

Janus란

DeepSeek은 최근 주목받고 있는 중국의 AI 연구소이자 AI 모델 브랜드로, DeepSeek-VL, DeepSeek-Coder, DeepSeek-Math 등 다양한 AI 모델을 개발하고 있습니다. 그중에서도 Janus는 DeepSeek에서 개발하고 공개한 이미지 생성 AI 모델입니다. Janus는 글과 이미지를 동시에 이해하고 생성할 수 있는 모델로, 사용자가 입력한 프롬프트(설명)를 바탕으로 이미지를 생성할 수 있습니다. 또한, 이미지를 입력하면 해당 이미지를 설명하는 프롬프트를 생성하는 기능도 제공하여 더욱 다양한 활용이 가능합니다.

DeepSeek 공식페이지 : https://www.deepseek.com/

특히, 기존 모델들의 한계를 극복하기 위해 이미지 처리 방식(시각적 인코딩)을 따로 분리하면서도, 하나의 통합된 Transformer 구조를 사용해 데이터를 효과적으로 학습하는 것이 Janus의 큰 특징입니다. 이러한 방식 덕분에 이해(understanding)와 생성(generation) 과정에서 발생할 수 있는 충돌을 줄이고, 모델의 유연성을 높일 수 있습니다. 이를 통해 Janus는 기존 모델보다 더 뛰어난 성능을 발휘할 뿐만 아니라, 특정 작업에 최적화된 AI 모델들과 비교해도 대등하거나 더 좋은 결과를 보여줍니다.

주요 특징

자연어 처리와 컴퓨터 비전의 통합
Janus는 텍스트와 이미지를 동시에 이해하고 생성할 수 있는 AI 모델입니다. 이를 통해 텍스트 설명을 기반으로 이미지를 생성하거나, 이미지를 분석하여 적절한 텍스트 설명을 생성하는 등 다양한 작업을 수행할 수 있습니다.
오토레그레시브 프레임워크
Janus는 오토레그레시브(autoregressive) 방식을 채택하여 멀티모달 데이터를 순차적으로 처리합니다. 이를 통해 데이터의 시간적 흐름과 문맥을 효과적으로 학습하여 보다 정교한 결과를 만들어냅니다.
시각적 인코딩의 분리
Janus는 이미지 인코딩 과정을 별도의 경로로 분리하여, 이해(understanding)와 생성(generation) 과정 간의 충돌을 최소화하면서도 더 높은 유연성과 효율적인 학습이 가능하도록 설계되었습니다.

라이선스

Janus 모델은 DeepSeek 라이선스를 따르며, 복제, 수정, 배포 및 상업적 활용이 가능합니다. 다만, 불법적이거나 윤리적으로 문제가 될 수 있는 용도는 엄격히 금지됩니다. 예를 들어, 군사적 목적, 허위 정보 생성 및 유포, 개인 식별 정보의 무단 사용, 차별적이거나 혐오적인 콘텐츠 제작, 자동화된 법적 의사 결정 등에는 사용할 수 없습니다.

또한, Janus 모델을 수정하거나 배포할 경우 원본 라이선스를 유지하고 사용 제한 조항을 포함해야 합니다. DeepSeek은 라이선스 위반 시 모델 사용을 제한할 권리를 가지며, 모든 법적 분쟁은 중국(중화인민공화국) 법을 따릅니다.

목차
1. 실행 환경
2. Janus 설치
3. Janus 실행

실행 환경

운영체제 : Windows 11
Python : 3.10.0
torch : 2.3.1 + cu121
gradio : 4.44.1
GPU : NVIDIA GeForce RTX 4060 Ti

Janus 설치

1) 깃허브 코드 다운로드

아래 Janus 깃허브 페이지에서 코드를 다운받습니다.

Janus 깃허브 페이지 : https://github.com/deepseek-ai/Janus

해당 코드를 다운로드 하셨으면 압축을 풀어줍니다.

2) 가상 환경 생성 (선택 사항)

아래 명령어를 사용하여 conda 가상 환경을 생성할 수 있습니다. conda가 설치되지 않았거나 설치를 원하지 않는 경우, 이 단계를 건너뛰어도 무방합니다.

# Windows PowerShell
conda create -n Janus python=3.10
conda activate Janus

3) 필수 패키지 다운로드

아래 명령어를 사용하여 필수 패키지를 설치합니다. 실행 전에 DeepSeek 깃허브에서 다운로드한 파일 위치로 이동한 후 명령어를 실행해야 합니다.

# Windows PowerShell
cd E:\ai_model\Janus  # 깃허브에서 다운받은 폴더 경로
pip install -e .[gradio]  # 필요 패키지 다운로드
pip install gradio==4.44.1  # gradio 패키지 버전 수정
pip install torch==2.3.1+cu121 -f https://download.pytorch.org/whl/torch_stable.html  # torch 패키지 버전 수정

4) 모델 다운로드 및 실행

아래 명령어를 사용하여 Janus를 실행시켜줍니다. 이 명령어를 실행하면 Janus 실행에 필요한 모델들을 다운받게 됩니다.

# Windows PowerShell
python demo/app.py

Janus 실행

위 명령어를 통해 Janus 모델을 실행할 수 있습니다. 이 모델을 실행하면 두 가지 기능을 다뤄볼 수 있습니다.

Multimodal Understanding (멀티모달 이해)
Text-to-Image Generation (텍스트 기반 이미지 생성)

1) Multimodal Understanding

사용자가 입력한 이미지와 텍스트를 분석하여 의미를 파악한 후, 이를 바탕으로 적절한 설명을 생성하거나 특정 작업을 수행합니다.

다음과 같이 테스트를 진행했습니다.

목적 : 입력한 이미지를 인식하고 이를 설명할수 있는지 확인
이미지 삽입 : 테스트용 이미지
입력 프롬프트 : Describe the image content in detail

결과 (Janus 답변)

The image depicts a young woman standing outdoors in a bright, sunny environment. She is wearing a light-colored, long-sleeved top with a ruffled hem and a high neckline. The top appears to be made of a smooth, possibly cotton or cotton-blend fabric. The woman has long, dark hair that falls past her shoulders, and she is wearing a black mask covering her nose and mouth. Her hair is adorned with a small white flower, adding a touch of elegance to her appearance.

The background of the image features a wooden structure, possibly a door or a wall, with a visible handle. Behind the woman, there is a blossoming tree with pink flowers, suggesting that the photo was taken during springtime. The sky is clear and blue, indicating a pleasant day. In the distance, there are trees and a house, which adds to the serene and picturesque setting.

The woman is standing with her hands clasped in front of her, and she is looking directly at the camera. Her expression is neutral, and she appears to be in a relaxed and calm state. The overall composition of the image is balanced, with the subject centered and the natural elements framing her.

The image does not contain any text or additional objects that require detailed description. The focus is primarily on the woman and the natural surroundings, creating a harmonious and aesthetically pleasing scene.

2) Text-to-Image Generation 실행

사용자가 입력한 텍스트(프롬프트)에 기반하여 해당 내용에 맞는 이미지를 생성합니다.

다음과 같이 테스트를 진행했습니다.

목적 : 고양이 이미지 생성
입력 프롬프트 : A highly detailed, ultra-realistic painting of a tuxedo cat wearing an elegant black tuxedo with a white bow tie. The cat has piercing green eyes and a sophisticated expression, sitting in a luxurious Victorian-style lounge with warm lighting. The fur texture is soft and detailed, reflecting individual hairs. The tuxedo is perfectly tailored, with fine silk fabric and shiny buttons. The scene has cinematic lighting with dramatic shadows and highlights, creating a refined and elegant atmosphere. The background features a classic fireplace, a golden chandelier, and deep red velvet curtains, enhancing the aristocratic feel. The image should be 8K, ultra HD, with photorealistic rendering and artistic depth.

Janus는 비교적 가벼운 모델임에도 불구하고 이미지 인식과 생성 속도가 매우 빠르게 작동했습니다. 실제 테스트 결과, 이미지 인식은 약 5초 이내에 정확한 분석 결과를 제공했으며, 이미지 생성은 5장을 생성하는 데 평균적으로 약 18초 정도 소요되었습니다. 짧은 시간 안에 양호한 품질의 이미지를 생성할 수 있다는 점에서 모델의 성능과 최적화 수준이 상당히 인상적입니다.

특히, 빠른 속도에도 불구하고 생성된 이미지의 퀄리티가 기대 이상으로 우수했습니다. 일부 부자연스러운 요소가 나타나기도 하지만, 대체적으로 입력한 프롬프트의 내용을 충실하게 반영하는 모습을 보였습니다. 무엇보다도 짧은 생성 시간 덕분에 여러 번 시도하면서 원하는 이미지를 빠르게 얻을 수 있다는 점이 큰 장점으로 느껴졌습니다. 반복적인 조정을 통해 최적의 결과를 쉽게 도출할 수 있어, 실용적인 활용 가능성이 높아 보입니다.

현재 DeepSeek에서는 Janus의 향상된 버전인 Janus-Pro도 공개하였습니다. Janus-Pro는 기존 모델보다 더 강력한 성능과 정밀한 표현력을 갖춘 버전으로 알려져 있으며, 충분한 테스트를 거쳐 그 가능성을 확인해볼 예정입니다. 향후 Janus-Pro 모델의 성능을 검토하고, 이를 바탕으로 더욱 자세한 리뷰를 다음 블로그에서 다뤄보겠습니다.

계속해서 다양한 AI 기술을 탐색하며, 더욱 유용한 정보를 공유하도록 하겠습니다.

감사합니다! 😊

저작자표시 비영리 변경금지

'AI 소식 > 오픈소스 AI 모델' 카테고리의 다른 글

[오픈 소스 AI] Suno와 같이 노래를 생성 해주는 AI 모델, "YuE"를 소개합니다. (0)	2025.02.10
[오픈 소스 AI] [로컬 환경] DeepSeek의 두 번째 이미지 생성 모델, JanusPro를 소개합니다. (0)	2025.02.02
[오픈 소스 AI] 새로운 물질의 구조를 설계해주는 AI, MatterGen을 소개합니다. (0)	2025.01.27
[오픈 소스 AI] [로컬 환경] 저화질 영상을 고화질로 만들어주는 AI, STAR를 소개합니다. (0)	2025.01.21
[오픈 소스 AI] 배경 없이 객체만 그려주는 AI, TransPixar를 소개합니다. (0)	2025.01.17

Marcus' Stroy

[오픈 소스 AI] [로컬 환경] DeepSeek의 이미지 생성 모델, Janus를 소개합니다.

Janus란

주요 특징

라이선스

실행 환경

Janus 설치

Janus 실행

'AI 소식 > 오픈소스 AI 모델' 카테고리의 다른 글

티스토리툴바

[오픈 소스 AI] [로컬 환경] DeepSeek의 이미지 생성 모델, Janus를 소개합니다.

Janus란

주요 특징

라이선스

실행 환경

Janus 설치

Janus 실행

'AI 소식 > 오픈소스 AI 모델' 카테고리의 다른 글

'AI 소식/오픈소스 AI 모델' Related Articles

티스토리툴바