본문 바로가기

ComfyUI/이미지 생성 및 수정

[AI 이미지 편집] Qwen-Image + ControlNet 활용 가이드|ComfyUI로 쉽게 따라하기

안녕하세요,

최근 알리바바에서 공개한 이미지 생성 모델 Qwen-Image가 큰 주목을 받고 있습니다. 특히 이를 기반으로 한 Qwen-Image-Edit 모델은 텍스트 입력만으로 이미지를 원하는 형태로 손쉽게 수정할 수 있다는 점에서 많은 관심을 모으고 있습니다.

이번 포스팅에서는 이러한 Qwen-Image 모델에 ControlNet을 결합하여 이미지를 더욱 정밀하게 편집하는 방법을 소개하고자 합니다. ComfyUI 환경에서 ControlNet을 추가해 활용하면, 사용자가 원하는 방향으로 이미지 결과를 한층 더 섬세하게 제어할 수 있습니다.


반응형

Qwen-Image + Controlnet

Qwen-Image는 알리바바에서 공개한 이미지 생성 모델로, 텍스트 프롬프트만 입력하면 사용자가 상상하는 장면을 사실적이면서도 창의적으로 그려내는 기능을 제공합니다. 여기에 ControlNet을 결합하면 단순히 이미지를 생성하는 데 그치지 않고, 생성 과정에서 세밀한 제어가 가능해집니다. 예를 들어 인물의 포즈, 배경의 구도, 세부적인 형태와 질감까지 원하는 방향으로 조정할 수 있습니다. 따라서 Qwen-Image 모델과 ControlNet 모델을 함께 활용하면 단순한 이미지 생성 이상의 경험을 제공하며, 사용자가 구상한 아이디어를 보다 정교하고 완성도 높은 결과물로 구현할 수 있습니다.

 

 

Qwen Image ControlNet & LoRA, EasyCache and Context Window in ComfyUI

The latest model support and inference optimization.

blog.comfy.org

 

 

ControlNet 모델 종류

ControlNet은 이미지 생성 과정에서 추가적인 제어를 가능하게 해주는 확장 기술로, 생성 모델이 단순히 텍스트 프롬프트에 의존하는 것이 아니라 특정 조건이나 지도를 참고하여 더 정밀한 결과를 만들 수 있도록 돕습니다. 대표적으로 윤곽선, 깊이 정보, 마스크 영역 등을 활용하여 이미지의 형태, 구도, 세부적인 수정 방향을 정밀하게 제어할 수 있습니다.

 

이번 포스팅에서 사용할 ControlNet 모델은 크게 세 가지입니다.

  • Canny (윤곽선) : 이미지의 윤곽선을 기반으로 새로운 이미지를 생성하여 구도와 형태를 유지하면서도 새로운 스타일을 적용할 수 있습니다.
  • Depth (깊이 정보) : 이미지의 깊이 정보를 활용하여 입체감과 공간감을 살린 결과물을 만들 수 있습니다.
  • Inpaint (마스크 영역) : 지정한 영역을 마스크 처리한 후 해당 부분만 새롭게 생성·수정하여 불필요한 요소를 지우거나 원하는 형태로 교체할 수 있습니다.

이처럼 Qwen-Image와 ControlNet을 결합하면 단순히 이미지를 생성하는 단계를 넘어, 사용자가 원하는 디테일을 반영한 보다 정교하고 완성도 높은 결과물을 얻을 수 있습니다.

 

 

사전준비사항

이 포스팅에서는 ComfyUI와 Qwen-Image 모델을 사용하여 이미지 생성 방법을 소개합니다. 본문을 따라 하기 전, ComfyUI를 미리 설치해 주시기 바랍니다. 이번 글에서는 Qwen-Image 모델을 중심으로 이미지 생성 과정을 단계별로 안내드립니다.

 

[Stabiliy Matrix&ComfyUI 설치하기] (포스팅에서 사용한 방식) - 추천

[로컬에 직접 ComfyUI 설치하기]

 


이미지 편집하기

로컬환경에서 ComfyUI에서 Qwen-Image + Controlnet 모델을 사용하여 이미지 편집하는 방법에 대해 알아보겠습니다.

 

1. 실행 환경

  • 운영체제 : Windows 11
  • ComfyUI : 0.3.57
  • ComfyUI-Manager : V3.30
  • torch : 2.8.0 + cu128
  • GPU : NVIDIA GeForce RTX 4060 Ti (vram : 16GB)

 

2. ComfyUI 사용 노드

이번 포스팅에서는 별도로 다운로드해야 할 커스텀 노드 없이 진행됩니다. 하지만 ComfyUI를 최신 버전으로 업데이트하는 것이 중요합니다. 최신 버전으로 업데이트하면 모델과의 호환성을 극대화할 수 있으며, 성능 개선 및 버그 수정을 통해 최적의 결과를 얻을 수 있습니다.

  • Stability Matrix를 사용하는 경우 → Stability Matrix 화면에서 "Update" 버튼을 클릭하여 간편하게 업데이트할 수 있습니다.
  • ComfyUI를 로컬에 설치한 경우  ComfyUI-Manager에서 "Update ComfyUI" 버튼을 눌러 최신 버전으로 업데이트하세요.

(좌) Stability Matrix 화면 / (우) ComfyUI Manager 화면

 

3. Workflow 및 Qwen-Image, Controlnet 모델 다운로드

Qwen-Image 및 Controlnet 모델은 ComfyUI에서 제공하는 모델을 사용하여 진행할 예정입니다. ComfyUI에서 제공하는 모델은 로컬 환경에서 실행하기에 보다 적합하도록 최적화된 버전입니다.

 

1) Workflow 다운로드

최신 ComfyUI에서는 웹 UI 내에서 워크플로우를 간편하게 불러올 수 있습니다.

  • ComfyUI를 실행
  • 왼쪽 탭에서 "Templates" 버튼 클릭
  • "Image" 항목에서 "Qwen-Image ControlNet model patch" 클릭

ComfyUI Workflow 불러오기

 

2) 모델 파일 다운로드

ComfyUI에서 워크플로우 파일을 불러오면, 해당 모델을 자동으로 탐색하며, 로컬에 모델이 없는 경우 다운로드 링크를 안내해줍니다. 이 링크를 통해 손쉽게 필요한 모델 파일을 다운로드할 수 있습니다.

모델 다운로드 예시


모델 다운로드가 완료되면, 아래와 같이 지정된 폴더 구조에 맞게 파일을 이동해 줍니다.

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── qwen_image_fp8_e4m3fn.safetensors
│   ├── 📂 loras/
│   │   └── Qwen-Image-Lightning-8steps-V1.0.safetensors  # 선택사항
│   ├── 📂 model_patches/                                 # 폴더가 없다면 생성
│   │   ├── qwen_image_depth_diffsynth_controlnet.safetensors
│   │   ├── qwen_image_canny_diffsynth_controlnet.safetensors
│   │   └── qwen_image_inpaint_diffsynth_controlnet.safetensors
│   ├── 📂 vae/
│   │   └── qwen_image_vae.safetensors
│   └── 📂 text_encoders/
│       └── qwen_2.5_vl_7b_fp8_scaled.safetensors

 

모든 모델 파일을 다운로드하셨다면, 위와 같은 폴더 구조에 맞춰 각 파일을 옮겨줍니다. 만약 StabilityMatrix를 통해 ComfyUI를 실행 중이라면, [StabilityMatrix → Data → Packages] 경로 내부에서 ComfyUI 폴더 위치를 먼저 확인한 후, 동일하게 위 폴더 구조로 파일을 배치하시면 됩니다.

 

3) 이미지 수정 (Canny 방식)

Canny 방식을 활용한 이미지 수정원본 이미지의 윤곽선을 추출하여 이를 기반으로 새로운 결과물을 만들어내는 방법입니다. 이 방식을 사용하면 기존의 구도와 형태를 그대로 살리면서도, 원하는 스타일이나 세부적인 디테일을 자유롭게 덧입힐 수 있다는 장점이 있습니다. 특히 윤곽선 정보를 직접 활용하기 때문에 구도와 형태를 고정하는 능력이 뛰어나, 원본의 구조를 안정적으로 유지하면서 변환할 수 있습니다.

실행 과정에서는 약 1분 30초 정도의 시간이 소요되었으며, 대략 15.5GB VRAM이 사용되었습니다. 비교적 높은 자원 소모가 발생하지만, 그만큼 안정적이고 일관된 결과를 얻을 수 있어 정밀한 편집 작업에 적합합니다.

  • 사용 프롬프트 : Conceptual makeup, a mysterious elf girl with silver hair, ethereal and enchanting presence, shimmering pearl-like highlights along the cheeks, soft glowing starry eyeshadow, thin delicate eyebrows, sharp and three-dimensional elven features, glossy finish, sparkling gold powder, silver fine glitter, layered and dimensional makeup design, decorated with nature-inspired golden ornaments, pearlescent pastel tones, dreamy and fantasy-inspired makeup, subtle mystical sparkles, a high-end luxurious feel, dappled light filtering through forest leaves, soft natural lighting, optimal shadow balance, deep and complex depth of field, dramatic forest-inspired lighting, clear focus, 8k ultra quality, Fujifilm cinematic filter, surreal atmosphere, a dreamy pastel woodland wonderland, vibrant yet soft colors, a starry silver-green forest background, realistic and fantasy-filled atmosphere.

[생성 결과]

왼쪽부터 차례대로 : 원본 이미지 / Canny 에지 추출 / Canny 방식을 활용해 수정된 결과

 

4) 이미지 수정 (Depth 방식)

Depth 방식을 활용한 이미지 수정원본 이미지의 깊이 정보를 추출하여 이를 기반으로 새로운 결과물을 만들어내는 방법입니다. 이 방식을 사용하면 단순히 평면적인 형태를 변환하는 것을 넘어, 인물이나 배경의 입체감과 공간감을 살리면서 원하는 스타일이나 디테일을 추가할 수 있습니다. 따라서 원본 장면의 구조와 원근은 유지하면서도, 훨씬 더 사실적이고 풍부한 결과물을 얻을 수 있다는 장점이 있습니다. 특히 공간감과 입체감을 전달하는 데 강점이 있지만, 구도 자체는 다소 유동적일 수 있다는 특성도 함께 가지고 있습니다.

실행 과정에서는 약 2분 정도가 소요되었으며, 약 15.5GB VRAM이 사용되었습니다. 결과물에서는 일부 구도가 변경되었으나, 기본적인 2D 이미지의 구도를 토대로 실사 스타일로 변환이 이루어졌습니다.

  • 사용 프롬프트 : A realistic cinematic portrait of a teenage girl standing on a railway bridge, front view, same pose as original image, shocked expression, natural sunlight, detailed facial features, realistic skin texture, casual school uniform with vest and tie, natural black hair with realistic strands, metal railing and railway tracks in sharp detail, depth of field, photorealistic, cinematic movie still frame, 8k ultra quality, dramatic lighting, Fujifilm film look, highly detailed background with lush green forest, following the depth map.

[생성 결과]

왼쪽부터 차례대로 : 원본 이미지 / Depth 추출 / Depth 방식을 활용해 수정된 결과

 

5) 이미지 수정 (Inpaint방식)

Inpaint 방식을 활용한 이미지 수정원본 이미지에서 일부 영역을 마스크 처리한 뒤, 그 부분을 새롭게 생성하거나 수정하는 방법입니다. 이 방식을 사용하면 불필요한 요소를 제거하거나 원하는 오브젝트를 새로 추가하는 등 특정 영역만 정밀하게 편집할 수 있습니다. 따라서 전체 구도와 배경은 그대로 유지하면서도, 필요한 부분만 원하는 스타일이나 디테일로 교체할 수 있다는 장점이 있습니다.

실행에는 약 40초가 소요되었으며, 약 15.5GB VRAM이 사용되었습니다. 전체 구도와 배경은 그대로 유지되었고, 프롬프트에서 요청한 대로 머리색과 피부 표현이 깔끔하게 수정되었습니다.

  • 사용 프롬프트 : a girl with black hair, flawless fair skin, no blemishes.

[생성 결과]

왼쪽부터 차례대로 : 원본 이미지 / Inpainting / Inpaint 방식을 활용해 수정된 결과

 


 

Qwen-Image와 ControlNet 모델을 함께 활용하면 단순한 이미지 생성에 그치지 않고, 사용자가 원하는 방향으로 더욱 세밀하고 정교한 편집을 진행할 수 있음을 확인할 수 있었습니다. 특히 요구되는 사양이 비교적 높지 않아 개인용 컴퓨터 환경에서도 충분히 실행할 수 있다는 점은 큰 장점입니다. 이러한 접근성 덕분에 전문 장비가 없어도 누구나 손쉽게 최신 이미지 편집 기술을 경험할 수 있습니다.

AI 이미지 생성과 편집에 관심이 있다면 직접 사용해 보시길 권장드립니다.

 

감사합니다. 😊

 

반응형