본문 바로가기

AI 소식

GPT-5 Pro와 Sora 2 공개! 2025 OpenAI DevDay 주요 내용 정리

안녕하세요,

최근 OpenAI가 전 세계 개발자들을 위해 개최한 연례 행사 DevDay 2025가 성황리에 진행되었습니다. 이번 행사에서는 신기술 발표를 비롯해 제품 데모, 토크 세션, 그리고 다양한 네트워킹 프로그램이 함께 열리며 많은 관심을 모았습니다. 특히 ChatGPT 안에서 직접 앱을 실행하고, AI가 스스로 영상을 생성하며, 실시간으로 사람과 대화하는 등 인공지능의 새로운 가능성을 보여주는 발표들이 이어졌습니다.

이번 포스팅에서는 OpenAI DevDay 2025에서 공개된 주요 내용과 변화의 핵심 포인트를 함께 살펴보겠습니다.


반응형

OpenAI Devday

2025년 10월 6일, OpenAI는 전 세계 개발자와 연구자를 대상으로 진행되는 OpenAI의 대표 기술 컨퍼런스, DevDay를 개최했습니다. 이 행사는 인공지능 생태계의 발전 방향을 제시하고, 새로운 모델과 개발 도구를 통해 AI 활용의 지평을 넓히는 데 목적이 있습니다. 이번 DevDay를 통해 ChatGPT를 중심으로 한 앱 생태계, 에이전트 자동화 툴킷, 영상 생성 모델, 차세대 GPT-5 Pro 등 다양한 혁신을 공개하였으며, 개발자들이 보다 쉽게 AI를 도입하고 새로운 서비스를 구축할 수 있도록 방향성을 제시하였습니다. 이번 발표는 AI가 실질적 생산성과 창의성을 실현하는 도구로 자리 잡는 시점을 선언한 행사라고 할 수 있습니다.

 

출처: OpenAI DevDay 2025 (클릭시 페이지 이동)

 

 

2025년 DevDay 발표 내용 요약

구분 간단한 요약 내용
ChatGPT 내 앱 실행 기능
(“Apps in ChatGPT”)
ChatGPT 안에서 Booking.com, Spotify, Figma 등 다양한 외부 서비스를 직접 실행할 수 있는 기능 도입
AgentKit 툴킷 생산급 AI 에이전트를 손쉽게 개발할 수 있는 도구 공개, 자동화·API 연동·시각적 빌더 지원
Sora 2 모델 오디오 동기화와 사실적 영상 합성을 지원하는 고성능 비디오 생성 모델 공개
Codex 기능 확대 코드 자동화 및 기업용 제어 기능 강화로 개발자 생산성과 관리 효율성 향상
GPT-5 Pro 및 신규 모델 GPT-5 Pro, gpt-realtime-mini, gpt-image-1-mini 등 신형 모델 및 경량 변형 모델 발표

 


1. ChatGPT 앱 생태계 확대 (Apps in ChatGPT / Apps SDK)

사용자는 이제 ChatGPT 내에서 Booking.com, Spotify, Figma, Coursera와 같은 외부 서비스를 별도의 웹사이트 이동 없이 바로 이용할 수 있습니다. 이러한 기능은 ‘Apps in ChatGPT’를 통해 구현되었으며, 모든 작업이 대화형 UI로 처리됩니다. 개발자 또한 MCP(Model Context Protocol) 기반의 Apps SDK를 활용하여 ChatGPT 내부에서 실행되는 자체 앱을 개발하고 배포할 수 있습니다.

 

[주요 기능 및 방식]

  • 대화 속 앱 호출
     사용자는 채팅 창에서 앱 이름을 언급하면, ChatGPT가 자동으로 해당 앱을 제안하거나 실행할 수 있습니다. 예를 들어 “Spotify, 이번 주 나만의 플레이리스트 만들어 줘”와 같이 요청할 수 있습니다.
  • 맞춤형 앱 제안
     대화 주제에 따라 ChatGPT가 관련 앱을 자동으로 추천합니다. 예컨대 주택 구매 대화를 나누면 Zillow 앱이 제안되어 지도 기반 매물 검색을 바로 실행할 수 있습니다.
  • Apps SDK (미리보기 제공)
     개발자들은 현재 미리보기(프리뷰) 버전의 Apps SDK를 통해 ChatGPT용 앱을 개발할 수 있습니다.
  • Model Context Protocol (MCP)
     Apps SDK는 MCP라는 개방형 표준 위에 구축되며, 이를 통해 ChatGPT와 외부 도구 및 데이터가 안전하게 연결됩니다. 기존 MCP의 기능을 확장해 앱 논리(logic)인터페이스(interface) 모두 설계할 수 있습니다.
  • 앱 제출 및 수익화 계획
     올해 말부터 개발자 앱 제출 및 게시 절차가 열릴 예정이며, ChatGPT 내 전용 디렉터리에서 검색/브라우징이 가능하도록 할 계획입니다. 또한 앱 기능에 따라 수익화 가능성도 논의 중입니다.

자세한 내용은 아래 링크를 통해 확인할 수 있습니다.

OpenAI, Apps in ChatGPT 공식블로그 : https://openai.com/index/introducing-apps-in-chatgpt/

 

 

2. 에이전트 생태계와 자동화 도구 (AgentKit)

OpenAI는 AI 에이전트의 구축·배포·최적화를 지원하는 통합 개발 도구 세트인 AgentKit를 공개하였습니다. AgentKit는 단순한 API 모음이 아니라, 개발자가 업무 자동화와 복잡한 워크플로를 손쉽게 구현할 수 있도록 설계된 에이전트 제작 플랫폼입니다. AgentKit는 엔터프라이즈 환경에서 대규모 워크플로 자동화, 고객지원, 리서치, 세일즈 등 다양한 분야에서 활용 가능합니다.

 

[주요 기능 및 구성]

  • Agent Builder: 시각적 워크플로 빌더로, 드래그 앤 드롭 방식으로 멀티 에이전트 흐름을 설계하고 버전 관리 및 평가 설정 가능
  • Connector Registry: Dropbox, Google Drive, Teams 등 데이터 연결을 중앙에서 관리하는 관리자 패널 제공
  • ChatKit: 웹사이트나 앱에 맞춤형 대화형 에이전트 UI를 손쉽게 삽입 가능

자세한 내용은 아래 링크를 통해 확인할 수 있습니다.

OpenAI AgentKit 공식블로그 : https://openai.com/index/introducing-agentkit/

 

 

3. GPT-5 Pro 정식 공개

OpenAI는 새로운 핵심 모델인 GPT-5 Pro를 정식으로 공개하였습니다. 이 모델은 현재 API 형태로 제공되고 있으며, 해당 모델은 이전 세대 GPT-4o Pro보다 정확도와 처리 속도가 크게 향상되었으며, 비용은 약 10% 수준으로 낮아졌습니다. 요금 구조는 입력 15달러, 출력 120달러(백만 토큰 기준)로 소개되었으며, 고품질 AI 기능을 보다 합리적인 가격에 사용할 수 있도록 설계되었습니다. GPT-5 Pro는 정밀한 분석, 코드 해석, 복합 추론 등 고급 작업에 적합한 모델로 평가되고 있습니다.

 

[GPT-5 Pro 모델 정보]

항목 내용
입력 형태 텍스트, 이미지
출력 형태 텍스트
입력 요금 $15.00 / 1M tokens
출력 요금 $120.00 / 1M tokens
최대 컨텍스트 길이 400,000 tokens
최대 출력 토큰 수 272,000 tokens
지식 컷오프(학습 기준일) 2024년 9월 30일
추론(Reasoning) 토큰 지원 지원함
특징 요약 대규모 컨텍스트 처리와 멀티모달(텍스트·이미지) 입력을 지원하는 고성능 모델로, GPT-4o Pro 대비 정확도·추론력·응답 품질이 향상됨

 

자세한 내용은 아래 링크를 통해 확인할 수 있습니다.

OpenAI GPT-5 Pro API : https://platform.openai.com/docs/models/gpt-5-pro

 

 

4. 영상 생성 AI ‘Sora 2’ API

OpenAI는 DevDay에서 영상과 오디오를 동시에 생성할 수 있는 차세대 모델 Sora 2를 공개하였습니다. 이전 세대 모델인 Sora가 사실적인 영상 표현과 창의적 연출 능력으로 긍정적인 평가를 받았던 만큼, 이번 Sora 2는 그 성능을 한 단계 더 끌어올린 버전으로 주목받고 있습니다.

Sora 2는 텍스트뿐 아니라 이미지 입력을 함께 받아 오디오와 영상의 완벽한 동기화, 사실적인 합성, 향상된 물리 기반 렌더링, 세밀한 디테일 표현을 지원합니다. 인물의 움직임, 조명 변화, 오브젝트 간 상호작용이 한층 자연스럽게 구현되며, 현실감 있는 장면 구성 능력이 크게 향상되었습니다. 이 모델은 단순히 이미지 프레임을 이어 붙이는 수준을 넘어, 텍스트 기반 비디오 생성 시대의 본격적인 개막을 알리는 기술로 평가되고 있습니다.

 

[주요 기능 및 특징]

  • Sora 2는 텍스트 입력뿐 아니라 이미지 입력도 받아서 영상을 생성할 수 있는 멀티모달 모델입니다.
  • 영상과 오디오가 동기화된 상태로 생성됩니다. 즉, 대사, 배경음, 효과음 등이 영상 흐름과 자연스럽게 어우러집니다.
  • 물리적 현실성(physics simulation)과 디테일 표현이 강화되었습니다. 예를 들어 물체 간 충돌, 동작의 연속성, 조명 변화 등이 보다 자연스럽게 묘사됩니다.
  • 스타일 범위가 넓어, 사실적 영상부터 애니메이션 스타일, 또는 독창적 연출까지 다양한 톤과 분위기를 반영할 수 있습니다.
  • Sora 2는 사용자의 지시에 높은 충실도로 반응하며, 장면의 일관성 유지(인물·의상 색상·배경 변화 통제 등)를 중요하게 다룹니다.

[API 사용 요금]

모델 해상도 (Size) 초당 요금
(Price per second)
주요 특징
Sora 2 세로 720 × 1280
가로 1280 × 720
초당 0.10달러 (USD) 기본형 모델로, 표준 품질의 영상 생성에 적합
Sora 2 Pro 세로 720 × 1280
가로 1280 × 720
초당 0.30달러 (USD) 향상된 품질 지원, 디테일 및 조명 표현 강화
Sora 2 Pro (고해상도) 세로 1024 × 1792
가로 1792 × 1024
초당 0.50달러 (USD) 고품질 콘텐츠 제작용, 현실감과 세밀한 묘사 극대화

 

자세한 내용은 아래 링크를 통해 확인할 수 있습니다.

OpenAI Sora 2 API : https://platform.openai.com/docs/guides/video-generation

 

 

5. 실시간·멀티모달 기능 고도화

마지막으로 실시간 반응형 AI 모델인 gpt-realtime-mini를 공개하며, ChatGPT 및 외부 애플리케이션에서 음성·영상·이미지 입력과 즉각적인 출력을 지원하는 새로운 단계의 멀티모달 AI 환경을 제시하였습니다. 이 모델은 초저지연(저속도 응답) 구조를 기반으로 하며, 사용자와의 자연스러운 대화, 실시간 번역, 음성 기반 상호작용 등 다양한 실시간 처리 작업에 최적화되어 있습니다.

 

[gpt-realtime-mini 모델 정보]

항목 내용
입력 형태 텍스트, 음성, 이미지
출력 형태 텍스트, 음성 (실시간 스트리밍 지원)
입력 요금 $0.50 / 1M tokens
출력 요금 $2.00 / 1M tokens
최대 컨텍스트 길이 128,000 tokens
지연 시간(Latency) 평균 232ms (음성 반응 기준)
실시간 처리 모드 Streaming API 기반 (WebRTC, WebSocket 등 실시간 전송 지원)
멀티모달 입력 음성, 텍스트, 이미지 동시 인식 가능
출력 포맷 텍스트, 음성, JSON 구조 등
특징 요약 초저지연 반응을 지원하는 실시간 모델로, 멀티모달 입력과 음성 출력이 통합된 구조를 가짐. 실시간 통역, 대화형 보조, 가상 비서 등 인터랙티브 AI 서비스 구현에 적합함.

 

자세한 내용은 아래 링크를 통해 확인할 수 있습니다.

OpenAI gpt-realtime-mini API : https://platform.openai.com/docs/models/gpt-realtime-mini

 


 

이번 발표를 통해 다양한 산업 분야에서 AI가 더욱 적극적으로 활용될 전망이며, 개발자뿐 아니라 기업과 개인 창작자 모두에게 새로운 기회와 도전의 장이 열리게 되었습니다. 특히 Apps in ChatGPT를 통한 서비스 개발과 수익화 모델의 등장으로, 앞으로 더 많은 사람들이 AI를 활용한 프로젝트에 참여하게 될 것으로 기대됩니다.


AI 기술이 점점 더 접근하기 쉬워지고, 이를 통해 누구나 자신만의 아이디어를 현실로 구현할 수 있는 시대가 한층 가까워지고 있습니다. 앞으로의 변화는 단순한 기술 발전을 넘어, AI가 사람의 상상력을 확장하고 더 나은 세상을 만들어가는 파트너로 자리하게 될 것으로 보입니다.

 

감사합니다. 😊

 

반응형