안녕하세요,
최근 OpenAI가 공개한 'Sora 2'가 텍스트와 이미지로 영화 같은 영상을 만들어내며 전 세계에 큰 인기를 끌고 있습니다. AI 영상 기술의 패권을 둘러싼 경쟁이 불붙자, 구글 역시 'Veo 3.1'이라는 강력한 카드를 꺼내 들었습니다. 이 모델은 영상의 품질과 오디오 표현, 편집 기능까지 모든 면에서 혁신적인 발전을 이뤄냈다고 평가받습니다.
이번 글에서는 구글의 최신 영상 생성 모델 Veo 3.1의 주요 특징과 기능, 프롬프트 작성 가이드, 그리고 실제로 활용할 수 있는 플랫폼에 대해 자세히 살펴보겠습니다.
Veo 3.1이란
2025년 10월 15일, 구글은 최신 영상 생성 모델 Veo 3.1을 공개했습니다. 이 모델은 이전 세대 모델의 강점을 계승하면서도 한층 정교한 프롬프트 해석 능력과 사실적인 시청각 표현을 구현하도록 개선되었습니다. 특히 이미지-영상 전환, 장면 확장, 세밀한 편집 등 다양한 기능을 단일 워크플로우 안에서 원활하게 처리할 수 있습니다. 또한, 오디오 생성 및 통합 기능이 한층 강화되어 더욱 완성도 높은 영상 제작 환경을 제공합니다.
Introducing Veo 3.1 and advanced capabilities in Flow
Today, we’re introducing new and enhanced creative capabilities to edit your clips.
blog.google
이용 가능한 플랫폼
- 구글 Gemini : https://gemini.google.com/?hl=ko
- 구글 Flow : https://labs.google/fx/ko/tools/flow
- 구글 API 문서 : https://ai.google.dev/gemini-api/docs/video?example=dialogue&hl=ko
- 구글 Vertex AI : https://console.cloud.google.com/vertex-ai/studio
주요 특징
- 오디오 생성 및 통합 강화 : 기존의 영상 중심 구조에서 벗어나, 오디오 생성 기능이 모든 주요 기능에 통합되었습니다. ‘Ingredients to Video’, ‘Frames to Video’, ‘Extend’ 기능에서도 사운드가 함께 생성되어 시각과 청각이 조화된 완성형 영상을 제작할 수 있습니다.
- 이미지→영상 전환 및 장면 확장 개선 : 여러 참조 이미지를 활용해 인물·객체·스타일을 조정하고, 시작과 끝 이미지를 입력하면 자연스러운 전환 영상을 생성할 수 있습니다. 또한 ‘확장(Extend)’ 기능을 통해 기존 클립을 이어 1분 이상 길이의 부드러운 장면을 제작할 수 있어, 영상의 흐름과 분위기를 한층 풍부하게 연출할 수 있습니다.
- 편집 도구의 정밀성 향상 : ‘Insert’ 기능으로 새로운 요소를 추가하거나, ‘Remove’ 기능으로 불필요한 객체를 제거할 수 있습니다. 조명과 그림자까지 자동으로 조정되어 영상의 자연스러움이 유지되며, 생성 후에도 자유로운 수정이 가능한 유연한 편집 환경을 제공합니다.
- 프롬프트 반응력 및 품질 개선 : 프롬프트 해석 정확도가 향상되어 사용자의 의도를 세밀하게 반영합니다. 실제 질감에 가까운 텍스처와 사실적인 오디오 표현을 구현하여, 보다 높은 수준의 시청각 품질을 달성했습니다.
Veo 3.1 프롬프트 작성 가이드
Veo 3.1은 프롬프트의 구체성과 구조에 따라 결과 품질이 크게 달라집니다. 프롬프트를 작성할 때는 핵심 아이디어를 먼저 설정하고, 형용사나 부사를 활용해 장면의 세부 요소를 풍부하게 묘사하는 것이 중요합니다.
[프롬프트 구성 요소]
프롬프트에는 다음과 같은 요소를 포함하는 것이 가장 효과적입니다.
- 주제(Subject): 등장하는 인물, 사물, 동물, 풍경 등
- 동작(Action): 화면 속 움직임 (예: 걷기, 달리기, 손 흔들기 등)
- 스타일(Style): 영화풍, 애니메이션풍, 빈티지, 공포 등 미학적 톤
- 카메라 시점(Camera position & motion): 눈높이, 항공뷰, 팬(pan), 트래킹 등
- 구도(Framing): 와이드샷, 클로즈업, 싱글샷 등 촬영 방식
- 렌즈 효과(Focus & Lens): 얕은 심도, 매크로, 광각 등 시각 효과
- 분위기(Mood): 색감, 조명, 시간대, 감정선 등 (예: 따뜻한 색조, 야간, 자연광)
원하지 않는 결과를 피하려면 부정 프롬프트(Negative Prompt)를 함께 작성하는 것이 좋습니다.
예: cartoon, drawing, low quality
[오디오 요소 포함]
Veo 3.1은 영상뿐 아니라 오디오도 함께 생성합니다. 따라서 프롬프트에 대화, 음향 효과, 주변 소리를 함께 묘사하면 훨씬 사실적인 결과를 얻을 수 있습니다.
- 대화: “이게 열쇠일 거야.”라고 그는 중얼거린다.
- 음향 효과: “타이어가 삐걱거리고 엔진이 굉음을 낸다.”
- 주변 소리: “잔잔한 바람소리와 파도소리가 함께 들린다.”
[입력 옵션과 확장 기능]
Veo 3.1은 다양한 입력 옵션을 제공합니다.
- 참조 이미지(Reference Images): 최대 3장까지 업로드 가능 — 스타일, 인물, 사물을 구체적으로 지정
- 시작·마지막 프레임(First & Last Frame): 두 이미지를 기반으로 자연스러운 장면 전환 생성
- 확장(Extend): 기존 영상의 마지막 부분을 이어 최대 약 148초까지 확장 생성 가능
[영상 생성 사양]
- 가로세로 비율: 16:9 또는 9:16
- 해상도: 기본 720p (1080p는 16:9 한정)
- 영상 길이: 4·6·8초 중 선택 가능
- 기타: 생성 영상에는 워터마크가 삽입되며, 일정 기간 후 서버에서 삭제될 수 있음 → 필요 시 로컬 저장 권장
[예시 프롬프트]
“노을이 지는 해변가를 배경으로 한 소녀가 천천히 걸어가며 바람에 머리카락이 흩날린다. 카메라는 인물의 뒤를 따라 부드럽게 팬(pan)하며, 따뜻한 주황빛 조명이 화면 전체를 감싼다. 파도 소리와 함께 잔잔한 피아노 선율이 배경에 흐른다.”
프롬프트 구성 해설
- 장면 묘사(Subject): 노을이 지는 해변가, 한 소녀가 걷는 장면
- 카메라 연출(Camera motion): 뒤에서 따라가는 팬(pan) 촬영
- 분위기(Mood): 따뜻한 색감, 석양, 잔잔한 감정선
- 오디오(Audio): 파도 소리 + 피아노 배경음악
사용 비용
현재 Veo 3.1은 다양한 플랫폼을 통해 제공되고 있습니다. 구글의 유료 멤버십 계정을 이용하면 Gemini 및 Flow 플랫폼에서 해당 모델을 사용할 수 있습니다. 또한 개발자를 위한 API 요금제도 함께 제공되어, 필요에 따라 유연하게 선택할 수 있습니다.
아래는 각 서비스 유형별 사용 비용입니다.
[구독 멤버십]
| 요금제 | 월 구독료 (USD / KRW) | 주요 제공 기능 |
| Google AI Pro | ₩29,000 | Veo 3.1 Fast 제한적 접근, 일일·월간 생성 한도 있음 |
| Google AI Ultra | ₩360,000 | Veo 3.1 전체 프리미엄 기능 및 고용량 저장공간 제공 |
[API 비용]
| 구분 | 비용 (초당 USD) | 주요 특징 |
| Veo 3.1 | $0.40 | 최고 수준의 화질과 오디오 품질을 제공하며, 사실적인 텍스처 표현이 강화된 프리미엄 등급 모델로 고품질 영상 제작에 적합함 |
| Veo 3.1 Fast | $0.15 | 생성 속도와 효율성을 높인 경량형 버전으로, 반복적인 프로토타입 테스트나 빠른 프롬프트 검증에 최적화됨 |
[요약]
- 현재는 유료로 Veo 3.1 모델을 사용할 수 있습니다.
- 유료 API 요금은 초당 과금 형태로, 영상의 길이에 따라 비용이 달라집니다.
- 구독형 요금제(Pro/Ultra)는 Veo 3.1 접근 범위와 생성 한도, 저장공간 등에서 차이가 있습니다.
간단한 사용 예시
1. Gemini
Gemini는 구글의 대표적인 생성형 AI 플랫폼으로, 챗봇 대화부터 이미지·영상 생성, 데이터 분석, 코드 작성 등 다양한 작업을 지원합니다. 이 플랫폼을 통해 최신 영상 생성 모델인 Veo 3.1을 직접 사용할 수 있습니다.
- Gemini 웹 플랫폼 : https://gemini.google.com/?hl=ko
프롬프트 입력창에서 ‘도구’ → ‘Veo로 동영상 생성’을 선택한 후 원하는 문장을 입력하면 영상이 생성됩니다. 생성 결과는 약 8초 길이의 영상이며, 오디오가 자동으로 포함된 형태로 출력됩니다. 전체 생성 과정은 약 1~2분 정도 소요됩니다.


2. Flow
Flow는 구글이 제공하는 AI 영상 제작 플랫폼으로, Veo 3.1 모델을 중심으로 영상 생성과 편집을 손쉽게 수행할 수 있는 환경을 제공합니다. 사용자는 텍스트 프롬프트나 이미지, 기존 영상 클립 등을 입력하여 원하는 장면을 생성하거나 확장할 수 있으며, 오디오까지 자동으로 포함된 완성도 높은 영상을 제작할 수 있습니다.
- 구글 Flow : https://labs.google/fx/ko/tools/flow
Flow는 구글이 영상 생성을 전문적으로 수행하기 위해 구축한 플랫폼으로, Gemini보다 세밀한 옵션 설정이 가능합니다. 한 번의 생성으로 약 8초 길이의 영상이 만들어지며, 오디오가 자동으로 포함된 형태로 출력됩니다. 전체 생성 과정은 약 1~2분 내외로 진행됩니다.
특히 Flow에서는 이전에 생성한 영상을 기반으로 이어지는 장면을 확장 생성할 수 있습니다. 이 기능은 ‘확장(Extend)’이라 불리며, 공식 정보에 따르면 약 148초까지 장면을 자연스럽게 이어 붙일 수 있습니다. 이를 통해 사용자는 단편적인 클립이 아닌, 하나의 스토리로 연결된 연속적인 영상을 제작할 수 있습니다.



아래는 Flow에서 Veo 3.1을 통해 생성한 영상입니다. 위 예시에서 입력한 프롬프트를 충실히 수행하여 생성되었습니다.
AI를 선도하는 기업들이 고성능 영상 생성 모델을 앞다투어 공개하며, 생성형 AI 시장의 경쟁은 더욱 치열해지고 있습니다. 이번에 공개된 Veo 3.1은 Sora 2에 견줄 만한 사실적인 고품질 영상을 선보이며, 시청각적 조화가 뛰어난 결과물을 제공합니다. 특히 영상과 오디오를 동시에 생성하는 기능은, AI가 단순한 영상 도구를 넘어 '완성형 멀티모달 창작 플랫폼'으로 진화하고 있음을 명확히 보여줍니다.
앞으로도 이러한 모델들이 개발되어, AI 영상 생성 기술이 예술과 창작의 지평을 더욱 넓혀주기를 기대합니다.
감사합니다. 😊
'AI 소식 > 유용한 AI 도구' 카테고리의 다른 글
| 틱톡 운영사 바이트댄스, AI 챗봇 ‘Cici’ 공개 | ChatGPT 대항마 등장 (1) | 2025.10.22 |
|---|---|
| 구글 지도와 Gemini의 결합 | AI가 지도 데이터를 이해하는 시대 (0) | 2025.10.21 |
| 엔트로픽의 새로운 모델, Claude 4.5 Sonnet 공개 | GPT-5, Gemini 2.5 Pro와의 성능 비교 (0) | 2025.10.13 |
| GPT-5급 성능의 오픈소스 추론 모델, 메이투안 LongCat-Flash 소개 (0) | 2025.10.01 |
| xAI 최신 모델 Grok 4 Fast 소개 – 빠르고 효율적인 차세대 추론 AI (0) | 2025.09.26 |