본문 바로가기

ComfyUI/이미지 생성 및 수정

[ComfyUI + Qwen-Image] 로컬 환경 고품질 이미지 생성 가이드 | 오픈소스 AI 활용 |

안녕하세요,

최근 알리바바는 영상 생성 모델 Wan 2.2를 오픈소스로 공개해 주목을 받았는데, 이번에는 또 다른 강력한 모델인 Qwen-Image를 새롭게 선보였습니다. Qwen-Image는 뛰어난 이미지 생성 성능을 갖춘 최신 오픈소스 모델로, 다양한 창작 작업에서 활용 가능성이 매우 높습니다.

이번 글에서는 이 모델의 주요 특징을 살펴보고, ComfyUI를 활용하여 로컬 환경에서 직접 고품질 이미지를 생성하는 방법을 자세히 소개하겠습니다.


반응형

Qwen-Image 모델이란

Qwen‑ImageQwen 시리즈 최초의 이미지 생성 기반 모델입니다. 약 200억 개의 파라미터를 갖춘 MMDiT(Multi‑Modal Diffusion Transformer) 아키텍처 기반으로, 복잡한 텍스트 표현과 세밀한 이미지 편집에서 탁월한 성능을 보입니다. 이 모델은 특히 영어와 중국어를 포함한 다국어 텍스트를 이미지 안에 자연스럽고 정밀하게 표현하는 능력에 강점을 지니며, 고품질의 이미지 생성과 일관된 편집 기능을 모두 갖춘 강력한 시각적 창작 도구로 자리잡고 있습니다.

 

출처: Qwen‑Image 깃허브 프로젝트 페이지 (클릭시 페이지 이동)

 

[모델 정보 요약]

항목 내용
모델명 Qwen‑Image 모델
개발사 알리바바 클라우드
출시일 2025년 8월 4일
기능 텍스트/이미지 → 이미지
지원 해상도 1:1 – 1328×1328  
16:9 – 1664×928  
9:16 – 928×1664  
4:3 – 1472×1140  
3:4 – 1140×1472  
3:2 – 1584×1056  
2:3 – 1056×1584
라이선스 Apache 2.0 (상업적 사용 가능)
Qwen-Image 데모 체험하기 (ModelScope 플랫폼) : https://modelscope.cn/aigc/imageGeneration?tab=advanced

 

 

주요 특징

  • 정교한 텍스트 렌더링 : 복수 줄 레이아웃, 문단 수준의 표현, 세밀한 문자 표현 등에서 우수한 성능을 보여줍니다. 알파벳 기반 언어(예: 영어)뿐 아니라 한자 기반의 중국어 같은 로고그래픽 언어에서도 뛰어난 텍스트 정합성과 타이포그래피를 유지합니다.
  • 정밀한 이미지 편집 : 스타일 전환, 객체 삽입/제거, 디테일 향상, 이미지 내부의 텍스트 수정, 인간의 포즈 조정 등 다양한 편집 기능을 직관적인 입력으로 수행할 수 있습니다.
  • 다양한 이해 및 변환 기능 : 일반적인 이미지 생성뿐 아니라, 객체 인식, 시맨틱 분할, 깊이/윤곽(엣지) 추정, 새로운 뷰 합성(view synthesis), 초해상도(super‑resolution) 등 이미지 이해형 기능도 함께 제공되어 언어와 시각을 통합한 종합 모델로 활용 가능합니다.
  • 다중 벤치마크에서의 높은 성능 : 공개된 여러 벤치마크(예: GenEval, DPG, OneIG‑Bench, GEdit, ImgEdit, GSO, LongText‑Bench, ChineseWord, TextCraft 등)에서 이미지 생성과 편집 및 텍스트 렌더링 모두 우수한 성과를 달성하여 현존 모델들 중 최고 수준의 성능을 기록했습니다

 

 

벤치마크 성능

Qwen-Image는 이미지 생성, 편집, 텍스트 렌더링 전반에서 높은 성능을 보여주었습니다.
이미지 생성 부문에서는 GenEval과 DPG에서 특히 우수한 점수를 기록했으며, 편집 부문에서도 GSO와 GEdit에서 다른 모델을 앞서는 결과를 보였습니다. 텍스트 렌더링에서는 중국어와 영어 모두에서 안정적인 상위권 성능을 유지했으며, 특히 중국어 렌더링에서는 압도적인 차이를 보였습니다.

일부 항목에서는 GPT Image 1과 비슷하거나 약간 낮은 결과도 있었지만, 전반적으로 고른 성능과 멀티언어 환경에서의 강점이 돋보이는 모델입니다.

출처: Qwen‑Image 깃허브 프로젝트 페이지 (클릭시 이미지 확대)

 

 

라이선스

Qwen-Image 모델은 Apache 2.0 오픈소스 라이선스 하에 공개되어 있습니다. 이 라이선스는 상업적 사용을 포함한 모든 형태의 활용을 명확히 허용하며, 사용자들은 모델을 자유롭게 사용, 수정, 재배포할 수 있습니다. 단, 재배포 시 라이선스와 저작권 고지를 포함해야 하며, 변경 사항이 있을 경우 이를 명시해야 합니다.

 

 

사전준비사항

이 포스팅에서는 ComfyUI와 Qwen-Image 모델을 사용하여 이미지 생성 방법을 소개합니다. 본문을 따라 하기 전, ComfyUI를 미리 설치해 주시기 바랍니다. 이번 글에서는 Qwen-Image 모델을 중심으로 이미지 생성 과정을 단계별로 안내드립니다.

 

[Stabiliy Matrix&ComfyUI 설치하기] (포스팅에서 사용한 방식) - 추천

[로컬에 직접 ComfyUI 설치하기]

 


Qwen-Image 모델 사용하기

로컬환경에서 ComfyUI에서 Qwen-Image 모델을 사용하여 이미지 생성하는 방법에 대해 알아보겠습니다.

 

1. 실행 환경

  • 운영체제 : Windows 11
  • ComfyUI : 0.3.49
  • ComfyUI-Manager : V3.30
  • Python : 3.10.11
  • torch : 2.8.0 + cu128
  • GPU : NVIDIA GeForce RTX 4060 Ti (vram : 16GB)

 

 

2. ComfyUI 사용 노드

이번 포스팅에서는 별도로 다운로드해야 할 커스텀 노드 없이 진행됩니다. 하지만 ComfyUI를 최신 버전으로 업데이트하는 것이 중요합니다. 최신 버전으로 업데이트하면 모델과의 호환성을 극대화할 수 있으며, 성능 개선 및 버그 수정을 통해 최적의 결과를 얻을 수 있습니다.

  • Stability Matrix를 사용하는 경우 → Stability Matrix 화면에서 "Update" 버튼을 클릭하여 간편하게 업데이트할 수 있습니다.
  • ComfyUI를 로컬에 설치한 경우ComfyUI-Manager에서 "Update ComfyUI" 버튼을 눌러 최신 버전으로 업데이트하세요.

(좌) Stability Matrix 화면 / (우) ComfyUI Manager 화면

 

 

3. Workflow 및 Qwen-Image 모델 다운로드

Qwen-Image 모델은 현재 허깅페이스를 통해 다양한 버전이 공개되어 있지만, 이번에는 ComfyUI에서 제공하는 모델을 사용하여 진행합니다. ComfyUI에서 제공하는 모델은 Qwen-Image 원본을 양자화하여, 로컬 환경에서 실행하기에 보다 적합하도록 최적화된 버전입니다.

 

1) Workflow 다운로드

최신 ComfyUI에서는 웹 UI 내에서 워크플로우를 간편하게 불러올 수 있습니다.

  • ComfyUI를 실행
  • 왼쪽 상단의 "Workflow" 버튼 클릭
  • "Browse Templates"를 선택
  • "Image" 항목에서 " Qwen-Image Generation"을 클릭

ComfyUI Workflow 불러오기

 

 

2) 모델 파일 다운로드

ComfyUI에서 워크플로우 파일을 불러오면, 해당 모델을 자동으로 탐색하며, 로컬에 모델이 없는 경우 다운로드 링크를 안내해줍니다. 이 링크를 통해 손쉽게 필요한 모델 파일을 다운로드할 수 있습니다.

모델 다운로드 예시

 

모델 다운로드가 완료되면, 아래와 같이 지정된 폴더 구조에 맞게 파일을 이동해 줍니다.

📂 ComfyUI/
├──📂 models/
│ ├── 📂 diffusion_models/
│ │    └─── qwen_image_fp8_e4m3fn.safetensors
│ ├── 📂 text_encoders/
│ │    └─── qwen_2.5_vl_7b_fp8_scaled.safetensors
│ └── 📂 vae/
│      └─── qwen_image_vae.safetensors

 

모든 모델 파일을 다운로드하셨다면, 위와 같은 폴더 구조에 맞춰 각 파일을 옮겨줍니다. 만약 StabilityMatrix를 통해 ComfyUI를 실행 중이라면, [StabilityMatrix → Data → Packages] 경로 내부에서 ComfyUI 폴더 위치를 먼저 확인한 후, 동일하게 위 폴더 구조로 파일을 배치하시면 됩니다.

 

3) 실행 (영상 생성)

Qwen-Image 모델을 사용하여 1328×1328 해상도의 고화질 이미지를 생성하였습니다. 생성에는 약 11분이 소요되었으며, VRAM은 약 15.4GB를 사용하였습니다. 아래는 이미지 생성에 사용한 프롬프트입니다.

  • 사용 프롬프트 : A vibrant, warm neon-lit street scene in Hong Kong at the afternoon, with a mix of colorful Chinese and English signs glowing brightly. The atmosphere is lively, cinematic, and rain-washed with reflections on the pavement. The colors are vivid, full of pink, blue, red, and green hues. Crowded buildings with overlapping neon signs. 1980s Hong Kong style.

 

[생성 결과]

Qwen-Image 모델을 활용해 생성한 이미지는 고품질 해상도로 구현되어, 다양한 색채가 어우러진 사실적인 분위기를 연출하였습니다. 사용한 프롬프트의 내용을 충실히 반영했으며, 특히 이 모델은 뛰어난 텍스트 표현 능력으로 잘 알려져 있습니다. 이번 이미지 생성에서는 별도의 문구를 추가하지 않았지만, 프롬프트에 포함된 ‘홍콩’이라는 키워드로 인해 다양한 한자가 자연스럽게 간판에 표현되었습니다. 네온사인과 빗물에 젖은 거리의 반사 표현이 탁월해, 마치 실제 홍콩의 거리를 그대로 옮겨 놓은 듯한 느낌을 줍니다.

 

아래는 실제로 생성된 이미지입니다.

이미지 생성 결과

 


 

이번 결과를 통해 Qwen-Image와 같은 고품질 이미지 생성 모델도 로컬 환경에서 안정적으로 실행할 수 있음을 확인하였습니다. 특히 복잡한 색채 표현과 섬세한 디테일 구현 능력이 뛰어나, 프롬프트에 담긴 분위기와 장면을 높은 완성도로 재현하는 우수한 성능을 보여주었습니다.

또한 해당 모델은 로컬 환경에서 무료로 활용할 수 있으며, 충분한 GPU 성능만 갖춘다면 안정적인 속도와 품질을 동시에 확보할 수 있습니다. 이를 통해 고비용의 클라우드 환경에 의존하지 않고도, 개인의 창작 작업에서 고품질 이미지를 손쉽게 구현할 수 있습니다.

 

감사합니다. 😊

 

반응형