언어 모델과 이미지 생성의 결합, Gemini 2.0 Flash Exp를 소개합니다.

안녕하세요,

최근 성능좋고 빠른 대형 언어 모델이나 이미지 생성 모델들이 등장하고 있습니다. 하지만 이번에는 이러한 대형 언어 모델 최근 성능이 뛰어나고 빠른 대형 언어 모델과 이미지 생성 모델들이 잇따라 등장하고 있습니다. 그런데 이번에는 이 두 가지 기능을 하나로 통합한 새로운 AI 모델이 출시되었습니다. 바로 구글이 개발한 "Gemini 2.0 Flash Experimental"입니다. 기존의 이미지 생성 모델은 주로 대형 언어 모델과 별도로 연결되어 있는 방식이었지만, 이번에 구글이 선보인 모델은 대형 언어 모델 안에 이미지 생성 기능까지 통합한 것이 특징입니다. 그러면 이 모델에 대해 알아보겠습니다.

Gemini 2.0 Flash (Image Generation) Experimental 란

Gemini 2.0 Flash Exp란 Google이 개발한 최신 멀티모달 AI 모델로, 실험적 이미지 생성 기능을 제공합니다. 텍스트, 이미지, 비디오, 오디오 입력을 지원하며, 출력은 텍스트와 이미지(실험적), 추후 오디오까지 확장될 예정입니다. 자연어 이해와 추론 능력을 바탕으로 일관된 스토리와 이미지를 생성할 수 있고, 대화형 이미지 편집과 긴 텍스트 포함 이미지 생성에 강점을 보입니다. Google AI Studio 및 Gemini API에서 실험적으로 사용 가능합니다.

Gemini 2.0 Flash Exp 소개페이지 : https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/

Experiment with Gemini 2.0 Flash native image generation- Google Developers Blog

In December we first introduced native image output in Gemini 2.0 Flash to trusted testers. Today, we're making it available for developer experimentation across all regions currently supported by Google AI Studio. You can test this new capability using an

developers.googleblog.com

기존의 대형 언어 모델과 이미지 생성 모델들은 각각 별도로 존재하며, 언어 모델이 텍스트 입력을 처리한 후 이미지 생성 모델에 지시를 내려 이미지를 생성하는 방식이었습니다. 예를 들어 GPT-4o와 DALL·E의 조합은 두 모델 간 API 호출을 통해 작업을 나누어 처리합니다. 반면, Google의 Gemini 2.0 Flash Exp은 언어 모델 안에 이미지 생성 기능을 직접 내장하여, 텍스트 이해와 이미지 생성을 하나의 모델 내에서 동시에 수행합니다. 이로 인해 일관성, 속도, 멀티모달 처리 효율성이 크게 향상되었습니다.

주요 특징

텍스트와 이미지 통합 생성: 스토리텔링 시 일관된 캐릭터와 배경을 유지하며 이야기에 맞춰 이미지를 생성하고, 피드백에 따라 스타일 변경 가능.
대화형 이미지 편집: 여러 차례 자연어 대화를 통해 이미지 편집 가능, 아이디어를 반복적으로 수정.
세계 지식 기반 이해: 고도화된 추론과 세계 지식 활용해 현실적이고 세부적인 이미지 생성.
긴 텍스트 렌더링 우수: 다른 모델보다 긴 텍스트나 광고, 초대장 등에서 정확한 텍스트 표현력이 뛰어남.

사용 방법 (Google Studio)

현재 Gemini 2.0 Flash Experimental 모델은 Google AI Studio에서 무료로 체험해볼 수 있습니다.

Google Studio : https://aistudio.google.com/prompts/new_chat

이용 방법:

Google AI Studio 페이지에 접속 후 로그인
화면 우측 상단에 있는 "Model" 버튼을 통해 "Gemini 2.0 Flash Experimental" 모델 선택
원하는 프롬프트(텍스트)를 입력 → 이미지 생성, 생성된 이미지 수정 및 편집

특히, 대화형 인터페이스 덕분에 이미지 스타일을 바꾸거나, 세부 요소를 수정할 때도 자연어로 손쉽게 요청할 수 있어 AI 활용 경험이 매우 직관적이고 유연합니다. 광고, 초대장, 소셜 콘텐츠 등을 직접 제작해보고 싶으시다면 누구나 쉽게 접근해볼 수 있는 좋은 플랫폼입니다.

기존 모델 (GPT-4o)과 Gemini 2.0 Flash Exp 차이점

	기존 모델 (GPT-4o + DALL E)	Gemini 2.0 Flash Exp
구조	LLM과 이미지 생성 모델 분리	LLM 내 이미지 생성 포함
호출 방식	LLM → 별도 이미지 모델 호출	하나의 모델 내에서 처리
일관성	문맥 유지 한계	자연스러운 텍스트-이미지 일관성
속도	상대적으로 느림	더 빠름
프롬프트	한글과 영어 모두 인식 우수	영어 인식 우수
멀티모달 통합성	제한적	매우 높음

1) 한글보단 영어로!

Gemini 2.0 Flash Exp 모델은 한국어로 프롬프트를 입력할 경우 의도와 다르게 인식하는 경우가 종종 있었습니다. 예를 들어, “고양이가 뉴욕 거리를 걷고 있는 이미지 생성해줘.”라고 입력했더니 강아지나 전혀 다른 사물이 그려지는 사례가 있었습니다. 반면, 동일한 내용을 영어로 입력하면 대부분 정확하게 원하는 이미지를 생성해주었습니다. 한편, GPT-4o 모델은 한글과 영어 모두에서 프롬프트를 잘 인식해 일관된 결과를 보여주었습니다.

2) 빠른 생성 속도

Gemini 2.0 Flash Exp와 GPT-4o 모델에서 이미지 생성 속도를 비교해본 결과, 확실한 차이가 있었습니다. Gemini 2.0 Flash Exp는 평균 약 4초 만에 이미지를 생성했으며, 상당히 빠른 응답 속도를 보여줬습니다. 반면 GPT-4o 모델은 평균 10초 정도 시간이 소요되어 상대적으로 더 느렸습니다. 특히 GPT-4o는 영문과 한글 프롬프트 모두 비슷한 생성 시간을 보였습니다.

Gemini 2.0 Flash Exp 이미지 생성 결과 (클릭 시 이미지 확대)

3) 일관성

두 모델에서 이미지 수정 시 프롬프트를 얼마나 정확히 이해하고, 일관성 있게 이미지를 수정하는지 확인해보았습니다.

Gemini 2.0 Flash Exp 모델

Gemini 2.0 Flash Exp 모델은 별도의 추가 작업 없이 프롬프트만 입력해도 원하는 대로 이미지를 수정해주는 것이 인상적이었습니다. 예를 들어, 기존 이미지에서 뒤편 신호등의 불빛을 바꾸거나, 특정 텍스트를 추가하는 작업도 정확하게 수행하며, 명령의 의도를 명확히 반영했습니다.

아래는 실제로 입력한 프롬프트 순서입니다.

Change the red traffic light behind me to green.
Change the traffic light to a "Marcus" sign.
Make the "Marcus" sign blurry and natural with its surroundings.

모델은 매 단계에서 일관성을 유지하며 자연스럽게 이미지를 수정해주었습니다.

GPT-4o 모델

GPT-4o 모델에서는 이미지를 수정할 때, 먼저 생성된 이미지를 클릭한 후 수정할 부분을 직접 마스킹 처리하고, 그에 맞는 프롬프트를 입력해야 원하는 결과를 얻을 수 있습니다. 만약 이 과정을 생략하고 텍스트로만 수정 요청을 입력하면, 비슷하지만 다른 배경에서 새로운 이미지를 생성하는 경우가 많습니다.

예를 들어, 아래 오른쪽 이미지를 보면 고양이를 강아지로 바꿔달라는 프롬프트를 입력했을 때, 기존 배경과 일관성이 맞지 않는 전혀 다른 이미지가 새로 생성된 것을 확인할 수 있습니다.

또한 GPT-4o는 프롬프트를 정확히 이해하지 못하는 경우가 자주 발생합니다. 실제로 "뒤에 있는 신호등을 초록불로 바꿔달라"는 요청에 대해 결과 설명에서는 초록불로 변경했다고 답하지만, 이미지 내에서는 초록불빛이 명확히 나타나지 않는 경우가 많습니다. 텍스트 삽입 요청 역시 수행되지 않거나 누락되는 경우가 있습니다. 이러한 현상은 LLM과 이미지 생성 모델이 별도로 작동하면서 발생하는 정보 전달의 불완전성 때문으로 보이며, 그로 인해 이미지 수정의 일관성이 떨어지는 원인으로 추측됩니다.

아래는 실제로 입력한 프롬프트 순서입니다.

Change the traffic light behind me to green.
Change the traffic light to a "Marcus" sign.

Gemini 2.0 Flash Experimental은 기존 모델들과 비교해 빠른 처리 속도, 높은 일관성, 그리고 뛰어난 멀티모달 통합 능력을 보여줍니다. 텍스트와 이미지 생성을 하나의 모델 안에서 자연스럽게 연결함으로써, 보다 직관적이고 효율적인 사용자 경험을 제공합니다. 특히 긴 문맥 속에서도 텍스트와 이미지 간의 일관성을 유지하며, 실시간 편집과 수정이 가능하다는 점이 강점입니다.

앞으로도 이러한 모델들이 지속적으로 발전하여, 사용자에게 더 편리하고 자연스러운 AI 경험을 제공해주길 기대합니다.

감사합니다. 😊

저작자표시 비영리 변경금지 (새창열림)

'AI 소식 > 유용한 AI 도구' 카테고리의 다른 글

[이미지 생성 AI] 텍스트만으로 이미지 생성? GPT-4o 네이티브 이미지 생성 기능 소개 (0)	2025.03.27
[오픈 소스 AI] LG가 만든 고성능 추론 모델, EXAONE-Deep을 소개합니다. (0)	2025.03.25
문장 생성부터 코드, 이미지, 추론 모델까지! 모두 무료로 제공하는 AI, Qwen Chat을 소개합니다! (0)	2025.03.14
기존 모델보다 10배 빠른 AI, Mercury Coder에 대해 소개합니다. (0)	2025.03.13
고성능 LLM과 이미지 생성 기능을 무료로! Mistral AI를 소개합니다! (0)	2025.03.11

Marcus' Stroy

언어 모델과 이미지 생성의 결합, Gemini 2.0 Flash Exp를 소개합니다.