본문 바로가기

ComfyUI/이미지 생성

[ComfyUI] [이미지 생성 AI] 텍스트만으로 이미지를 생성해주는 AI모델, Lumina image 2.0을 소개합니다.

안녕하세요,

최근 OpenAI의 이미지 생성 기능이 큰 화제를 모으며 주목받고 있습니다. 기존에는 고품질 이미지를 생성하기 위해 특정한 형식의 프롬프트 입력이 필요했지만, 이제는 우리가 일상적으로 사용하는 언어(자연어)만으로도 이미지 생성과 수정이 가능해졌습니다.

이번에 소개해드릴 Lumina는 이러한 자연어 기반 이미지 생성 기능을 제공하는 오픈소스 AI 모델입니다. 이 글에서는 Lumina 모델에 대한 간단한 소개와 함께, 로컬 환경에서 설치하고 사용하는 방법을 알아보겠습니다.


반응형

Lumina image 2.0

Lumina Image 2.0은 상하이 AI 랩의 Alpha VLLM 팀이 개발한 텍스트-이미지 생성(Text-to-Image) AI 모델로, 효율성과 고품질 이미지 생성 능력을 결합한 혁신적인 프레임워크입니다. 텍스트를 기반으로 이미지를 생성하는 통합적이고 효율적인 구조를 갖추고 있으며, 이전 버전인 Lumina-Next보다 성능과 확장성 면에서 큰 발전을 이루었습니다.

 

출처: Lumina Image 2.0 깃허브 (클릭시 페이지 이동)

 

 

Lumina Image 2.0 주요 특징

  • 통합 아키텍처: 텍스트와 이미지 토큰을 함께 처리하는 Unified Next-DiT 구조로 크로스모달 표현과 다양한 작업에 확장 용이
  • 통합 캡셔닝 시스템: 정확한 프롬프트 반영을 위한 고품질 캡션 생성 → 학습 및 성능 최적화
  • 고효율 설계: SDXL보다 적은 파라미터(2.6B)로 유사한 성능 발휘, 추론 속도 향상 및 다단계 학습 전략 적용
  • 다양한 스타일 지원: 포토리얼리즘, 디지털 아트, 추상화 등
  • 다국어 지원: 영어 및 중국어 프롬프트 모두 이해 및 처리 가능

 

 

라이선스

Lumina Image 2.0은 Apache License 2.0 하에 공개된 오픈소스 모델로, 상업적인 용도로 자유롭게 사용할 수 있습니다. 사용자는 모델을 수정하거나 재배포할 수 있으며, 이를 상업 프로젝트에 적용하는 것도 가능합니다. 다만, 배포 시에는 라이선스 고지와 저작권 표시를 포함해야 합니다.

 

 

사전준비사항

이 포스팅은 ComfyUI에서 OmniGen 모델을 활용하는 방법에 대한 내용입니다. 본문을 읽기 전에 아래 항목들을 미리 설치해 주시기 바랍니다.

 

 

목차
1. 실행 환경
2. ComfyUI 사용 노드

3. 모델 다운로드 및 위치 설정
4. 이미지 생성 (Lumina 활용)

1. 실행 환경
  • 운영체제 : Windows 11
  • ComfyUI : 0.3.27
  • ComfyUI-Manager : V3.30
  • Python : 3.10.11
  • torch : 2.6.0 + cu124
  • GPU : NVIDIA GeForce RTX 4060 Ti

 

 

2. ComfyUI 사용 노드

이번 포스팅에서는 별도로 다운로드해야 할 커스텀 노드 없이 진행됩니다. 하지만 ComfyUI를 최신 버전으로 업데이트하는 것이 중요합니다. 최신 버전으로 업데이트하면 모델과의 호환성을 극대화할 수 있으며, 성능 개선 및 버그 수정을 통해 최적의 결과를 얻을 수 있습니다.

  • Stability Matrix를 사용하는 경우 → Stability Matrix 화면에서 "Update" 버튼을 클릭하여 간편하게 업데이트할 수 있습니다.
  • ComfyUI를 로컬에 설치한 경우ComfyUI-Manager에서 "Update ComfyUI" 버튼을 눌러 최신 버전으로 업데이트하세요.

 

 

3. 모델 다운로드 및 위치 설정

아래 링크를 통해 Lumina 모델 및 ComfyUI 워크플로우를 다운로드합니다.

출처: ComfyUI 허깅페이스

 

모델 파일 다운로드가 완료되면, 각 모델 파일을 아래 경로에 맞게 이동시켜 주세요. ComfyUI 워크플로우 파일은 별도로 이동할 필요 없이, ComfyUI 실행 화면에 드래그하여 바로 실행하시면 됩니다.

  • Lumina 모델 : StabilityMatrix → Data → Packages → ComfyUI → models → checkpoints

단, 로컬에 직접 ComfyUI를 설치하신 경우에는 [StabilityMatrix → Data → Packages 경로]는 생략하셔도 되며, 바로 "ComfyUI/models/checkpoints 폴더"로 이동하시면 됩니다.

 

 

4. 이미지 생성 (Lumina 활용)

ComfyUI 워크플로우를 실행하며 준비된 예시 프롬프트를 그대로 사용하여 이미지를 생성하였습니다.

Lumina 이미지 생성 (클릭시 이미지 확대)

 

1024 x 1024 해상도의 이미지를 1장 생성하는 데 약 11.4GB의 VRAM이 사용되었으며, 평균 생성 시간은 40~50초 정도 소요되었습니다. 예상보다 빠른 시간 안에 고퀄리티의 이미지를 생성해주었으며, 현재 사용 중인 GPU 환경에서도 실시간 처리에 무리가 없을 정도로 안정적이고 뛰어난 성능을 보여주었습니다.

 

무엇보다 이 모델은 앞서 설명한 바와 같이 자연어를 그대로 사용하여 이미지를 생성할 수 있습니다. 아래는 자연어를 그대로 사용하여 생성한 이미지입니다.

  • 이미지1 사용 프롬프트 : 고양이가 책을 읽는 모습
  • 이미지2 사용 프롬프트 : 고양이가 책을 읽는 모습을 지브리 스타일로 생성해줘.
  • 이미지3 사용 프롬프트 : 고양이와 생쥐가 악수하는 모습을 카툰 스타일로 생성해줘.

(좌) 이미지1 / (중앙) 이미지2 / (우) 이미지3

 

이번 테스트에서 느낀 점은 Lumina Image 2.0 모델은 한국어 프롬프트 인식 또한 매우 우수했습니다. 일반적으로 다른 이미지 생성 모델들은 한국어를 제대로 해석하지 못하거나, 의미를 왜곡해 전달하는 경우가 종종 있습니다. 그러나 Lumina Image 2.0은 그러한 문제 없이 한국어로 작성된 프롬프트를 정확히 이해하고 반영해 주었습니다. 위 테스트에서 모든 프롬프트를 한국어로 입력했음에도 불구하고, 요청한 내용을 충실하게 반영한 이미지를 생성해주었고, 언어적 오차나 왜곡 없이 일관된 품질을 보여주었습니다.

 

다만, “지브리 스타일”과 같이 다소 주관적이고 추상적인 스타일을 지정한 경우에는, 원하는 느낌과 완전히 일치하는 이미지를 생성하기보다는 유사한 분위기의 결과물을 제공하는 수준이었습니다. 특히 OpenAI의 최신 이미지 생성 모델처럼 지브리 특유의 감성과 디테일을 완벽히 재현하는 데에는 다소 아쉬움이 있었지만, 오픈소스 모델이라는 점을 고려하면 상당히 인상적인 수준이라 할 수 있습니다.

 


전체적으로 Lumina Image 2.0은 오픈소스 모델임에도 불구하고 뛰어난 이미지 품질과 효율성, 그리고 자연어 프롬프트에 대한 높은 이해도를 보여주었습니다. 특히 한국어 프롬프트 인식이 우수하고, 다양한 스타일의 이미지를 안정적으로 생성할 수 있다는 점에서 많은 사용자들에게 유용한 도구가 될 수 있을 것으로 보입니다.

 

텍스트만으로 이미지를 자유롭게 창조하고 싶은 분들, 또는 상업적으로 활용 가능한 경량화된 T2I 모델을 찾는 분들께 Lumina Image 2.0은 충분히 매력적인 선택지가 될 것입니다. 앞으로도 업데이트와 발전이 기대되는 모델이며, 직접 설치해보고 활용해보시는 것도 좋은 경험이 될 것입니다.

 

 

감사합니다. 😊

 

반응형