본문 바로가기

ComfyUI/영상 생성

[영상 생성 AI] [로컬 환경] ComfyUI 이용하여 영상 생성하기 4탄 : PyramidFlowWrapper

안녕하세요,

최근에는 단순히 이미지를 생성하는 것을 넘어, AI가 직접 영상을 만들어주는 시대가 열리고 있습니다. 마치 꿈을 그리듯이 텍스트 한 줄만 입력하면 원하는 스타일의 영상을 제작해주는 AI가 등장하고 있습니다. 이번 포스팅에서 소개드릴 Pyramid Flow가 바로 그 주인공입니다. ComfyUI와 통합되어 누구나 쉽게 사용할 수 있는 Pyramid Flow는 여러분의 상상력을 생동감 넘치는 영상으로 바꿔 줄 수 있는 강력한 도구입니다. 이제 복잡한 영상 편집 기술 없이도, 간단한 아이디어만으로 멋진 영상을 만들 수 있습니다.


반응형

Pyramid Flow

Pyramid Flow는 ComfyUI에서 텍스트 프롬프트만으로 고품질 영상을 생성할 수 있는 AI 모델입니다. 사용자는 이 맞춤형 노드를 기존 워크플로우에 쉽게 통합할 수 있으며, 필요한 모델 파일을 준비해 다양한 스타일과 주제의 영상을 제작할 수 있습니다. 또한, VRAM 사용이 최적화되어 있어 적은 그래픽 메모리로도 실행이 가능하며, 지속적인 업데이트와 넓은 응용 가능성 덕분에 영상 제작에 매우 유용합니다.

 

 

Pyramid Flow

Pyramidal Flow Matching for Efficient Video Generative Modeling Yang Jin1, Zhicheng Sun1, Ningyuan Li3, Kun Xu2, Kun Xu2, Hao Jiang1, Nan Zhuang2, Quzhe Huang2, Yang Song, Yadong Mu1†, Zhouchen Lin1 1Peking University, 2Kuaishou Technology, 3Beijing Univ

pyramid-flow.github.io

 

 

 

주요 특징

  • 고품질 영상 생성 : 텍스트 프롬프트를 기반으로 다양한 스타일과 주제를 가진 고품질 영상을 생성할 수 있는 기능을 제공합니다.
  • ComfyUI 통합 : ComfyUI 내에서 커스텀 노드로서 동작하며, ComfyUI 워크플로우에 간편하게 추가하여 사용할 수 있습니다.
  • 성능 최적화 : VRAM 사용량 최적화를 통해 7GB VRAM으로도 실행할 수 있는 'fluxmini' 버전을 제공하고 있어 비교적 적은 자원으로도 사용이 가능합니다. fluxmini 버전은 현재 5초 길이의 비디오만 지원하며, fp8 모드 사용 시 품질 저하가 발생하므로 필요한 경우에만 사용을 권장합니다.

 

 

사전준비사항

이 포스팅은 ComfyUI에서 Pyramid Flow 모델을 활용하는 방법에 대한 내용입니다. 따라서 본문을 읽기 전에 ComfyUIComfyUI-Manager를 미리 설치해 주시기 바랍니다.

 

 

목차
1. 실행 환경
2. ComfyUI 사용 노드

3. 모델 다운로드 및 위치 설정
4. Text to Video 노드 구성
5. 실행 (영상 생성)

728x90

1. 실행 환경

  • 운영체제 : Windows 11
  • ComfyUI : 0.2.7
  • ComfyUI-Manager : V2.51.9
  • Python : 3.10.0
  • torch : 2.3.1 + cu121
  • GPU : NVIDIA GeForce RTX 4060 Ti

 

 

2. ComfyUI 사용 노드

아래는 이번 포스팅에서 사용된 ComfyUI 커스텀 노드입니다. 모델 실행에 필수적인 노드를 "필수"로 표기하였으며, 사용에 필수적이지 않은 노드는 "선택사항"으로 표기하였습니다.

  • ComfyUI PyramidFlow Wrapper: ComfyUI에서 Pyramid-Flow 모델을 활용해 텍스트 프롬프트만으로 고품질 영상을 생성할 수 있도록 지원하는 커스텀 노드입니다. 낮은 자원으로도 실행 가능하며, 다양한 스타일의 영상 제작에 유용합니다. (필수)
  • ComfyUI-VideoHelperSuite: ComfyUI에서 비디오 워크플로우를 지원하는 노드 모음입니다. 비디오 로드, 이미지 시퀀스 처리, 비디오 결합 등 다양한 기능을 제공하여 효율적인 비디오 편집과 제작에 유용합니다. (필수)

 

 

3. 모델 다운로드 및 위치 설정

영상을 생성하기 위해서는 Pyramid Flow 모델과 VAE 모델을 다운받으셔야합니다.

 

1) Pyramid Flow 모델 파일 다운로드

아래 Pyramid Flow 허깅페이스에서 causal_video_vae 모델과 diffusion_transformer_768p 모델을 다운로드합니다. 해당 허깅페이스에서 제공되는 모델은 384p 모델과 768p 모델인데, 768p 모델이 생성하는 영상의 품질이 더 좋다고 하여 이 모델을 사용했습니다.

출처: rain1011 허깅페이스

 

모델 파일 다운로드가 완료되면 diffusion_transformer_768p 모델 파일은 diffusion_models 폴더로, causal_video_vae 모델 파일은 vae폴더로 이동시켜줍니다.

 

(ComfyUI 폴더) → (models 폴더) → (diffusion_models 폴더) / (vae폴더)

 

클릭 시 이미지 확대

 

 

4. Text to Video 노드 구성

노드 구성은 Pyramid Flow에서 기본적으로 제공해주는 노드를 사용했습니다. 해당 노드 구성 파일은 아래 경로에 있습니다.


(ComfyUI 폴더) → (custom_nodes 폴더) → (ComfyUI-PyramidFlowWrapper 폴더)  (examples 폴더)

 

클릭 시 이미지 확대

 

 

5. 실행 (영상 생성)

영상을 생성해보겠습니다. 사용한 프롬프트는 Pyramid-Flow 깃허브에서 제공하는 내용을 참고하여 작성했습니다.

  • 긍정 프롬프트 : Extreme close-up of chicken and green pepper kebabs grilling on a barbeque with flames. Shallow focus and light smoke. vivid colours, hyper quality, Ultra HD, 8K
  • 부정 프롬프트 : cartoon style, worst quality, low quality, blurry, absolute black, absolute white, low res, extra limbs, extra digits, misplaced objects, mutated anatomy, monochrome, horror

클릭 시 이미지 확대

 

생성된 영상은 다소 어색한 부분도 있지만, 대부분 매우 현실감 있게 표현되었습니다. 특히 5초 길이의 영상을 생성하는 데 약 15분 정도의 시간이 소요되었으며, 이를 통해 모델의 복잡한 연산 과정과 고품질의 영상 생성을 위한 노력이 엿보입니다.

 

흥미로운 점은 이 모델이 단순히 text to video 기능만 제공하는 것이 아니라 image to video 기능도 지원한다는 점입니다. 이를 통해 사용자는 텍스트로부터 직접 영상을 생성할 수 있을 뿐만 아니라, 이미지를 입력하여 해당 이미지에서 파생된 움직임이 있는 영상을 만들 수도 있습니다. 이러한 다양한 생성 옵션 덕분에 창의적인 아이디어를 실현하기 위한 가능성이 더욱 확장됩니다.

 

영상 생성의 품질과 속도 면에서 여전히 개선의 여지가 있지만, 기술의 발전과 함께 점점 더 자연스러운 결과물과 빠른 처리가 기대됩니다. 이 모델이 제공하는 다채로운 기능들은 사용자가 텍스트와 이미지를 활용해 새로운 방식으로 영상을 창작할 수 있게 해주며, 앞으로 더 많은 가능성을 탐구하게 만드는 도구로 자리 잡을 것입니다.

 

 

감사합니다. 😊