본문 바로가기

전체 글

(289)

OpenAI의 실시간 음성 AI 모델, GPT-Realtime 소개 | 기능과 비용 한눈에 보기 안녕하세요,OpenAI에서 발표한 GPT-Realtime은 단순히 텍스트 입력과 출력을 넘어서, 실제 사람과 대화하듯 실시간으로 소통할 수 있는 새로운 형태의 음성 모델입니다. 이 모델은 마이크를 통해 사용자의 음성을 바로 인식하고, 빠른 반응 속도로 자연스러운 대화형 답변을 제공합니다.이번 포스팅에서는 GPT-Realtime이 제공하는 기능과 특징을 하나씩 살펴보며, 앞으로 어떤 방식으로 활용될 수 있는지 함께 알아보겠습니다. GPT-Realtime란2025년 8월 28일, OpenAI가 최신 실시간 음성 대화 AI 모델, GPT-Realtime을 공개했습니다. 기존에는 음성을 인식하고, 이를 텍스트로 변환한 뒤 언어 처리를 거쳐 다시 음성으로 합성하는 복잡한 파이프라인이 필요했지만, GPT-Realt..

xAI의 코딩 AI 에이전트, Grok Code Fast 1 소개합니다. | VS Code 안녕하세요,최근 AI는 단순히 텍스트 답변을 제공하는 수준을 넘어, 이미지 생성, 음성 응답, 개인 비서 기능 등 다양한 활용 영역으로 확장되고 있습니다. 이러한 흐름 속에서 일론 머스크가 이끄는 xAI가 새로운 AI 에이전트 모델 Grok Code Fast 1을 공개했습니다. 이번 포스팅에서는 해당 모델의 주요 특징과 실제 활용 사례를 간단히 소개해 드리겠습니다. Grok Code Fast 1 란2025년 8월 28일, 일론 머스크의 xAI에서 코딩 특화 AI 에이전트 모델인 "Grok Code Fast 1"을 공개했습니다. 이 모델은 단순히 코드를 생성하는 데 그치지 않고, 개발 환경 설정부터 코드 작성, 실행 및 오류 수정까지 일련의 과정을 자동으로 지원하는 것이 특징입니다. 기존의 범용 대화형 A..

한국어 전용 LLM, Trillion Labs ‘Tri-7B’ 모델 소개｜한국형 AI | KLLM 안녕하세요,최근 한국 기업 Trillion Labs에서 자체 개발한 한국어 특화 대규모 언어 모델, K-LLM을 공개했습니다. 이 모델은 특히 한국어 처리 능력이 우수하다고 평가받고 있으며, 실제 테스트에서도 자연스러운 번역과 문맥 이해에서 강점을 보이고 있습니다.이번 포스팅에서는 K-LLM의 주요 특징과 성능을 살펴보고, 직접 실행하는 방법을 함께 소개하겠습니다.Tri 모델이란Tri 모델(Tri-7B, Tri-21B)은 국내 기술로 처음부터 사전학습(프롬 스크래치) 방식으로 개발된 ‘소버린(주권) AI’라는 목표 아래, 한국어 및 동북아 언어 특화 대규모 언어모델(LLM)로 평가받고 있습니다. 두 모델 모두 독자 개발, 오픈소스, 고효율 구조를 강점으로 삼으며, 파라미터 규모, 성능, 비용, 언어 특화..

[오픈소스 AI] 일론 머스크의 xAI, Grok-2 초대형 언어 모델 공개 안녕하세요,오픈소스 AI 생태계에 또 한 번 주목할 만한 모델이 등장했습니다. 일론 머스크의 AI로 알려진 Grok 모델이 오픈소스로 공개되었습니다. 이전에 Grok-4를 선보이며 오픈소스화를 예고한 바 있는데, 이번에는 Grok-2가 실제로 공개되었습니다.이번 포스팅에서는 이 모델의 개요와 주요 특징을 살펴보고, 어떤 점에서 발전이 이루어졌는지, 그리고 실제 활용 방안은 무엇인지 자세히 소개해드리겠습니다. Grok-2 모델이란2025년 8월 24일, 일론 머스크는 자신의 플랫폼인 X(구 트위터)를 통해 Grok-2 모델의 오픈소스 공개를 공식 발표했습니다. 이 모델은 원래 2024년 8월에 개발되어 일정 기간 동안 상용 서비스 형태로만 제공되어 왔습니다. 그러나 이번 발표를 통해 누구나 자유롭게 연구..

Gemini 2.5 Flash Image (nano-banana)｜구글 최신 이미지 생성 모델 특징과 성능 안녕하세요,최근 업계와 커뮤니티에서 ‘nano-banana’라는 이름으로 불리며 뛰어난 성능으로 큰 화제를 모았던 이미지 생성 모델이 드디어 정식으로 공개되었습니다. 바로 구글이 개발한 최신 이미지 생성·편집 모델, Gemini 2.5 Flash Image입니다. 이 모델은 이전 세대인 Gemini 2.0 Flash를 기반으로 기술을 한층 고도화하여, 이미지 품질과 창작 과정에서의 제어력을 크게 향상시킨 것이 특징입니다. 특히 캐릭터 일관성, 세밀한 편집, 창의적인 스타일링 등 다양한 이미지 작업에서 탁월한 결과를 보여주며, 공개 직후부터 큰 주목을 받고 있습니다.이번 글에서는 Gemini 2.5 Flash Image의 주요 특징과 함께, 누구나 손쉽게 체험할 수 있는 플랫폼을 간단히 소개해 드리겠습니다..

GPT-5 출시 후 LLM 성능 비교｜2025년 8월 최신 AI 모델 순위 정리 안녕하세요,OpenAI가 GPT-5를 공식 출시한 이후 업계와 사용자들 사이에서 다양한 반응이 이어지고 있습니다. 일부에서는 이전 세대 모델보다 확실히 향상되었다는 긍정적인 평가를 내리고 있으며, 다른 한편에서는 기대에 미치지 못했다는 아쉬움의 목소리도 나오고 있습니다. 이처럼 엇갈린 의견이 공존하는 가운데, 출시 후 2주가 지난 현재 시점에서 LLM 성능에 어떤 변화가 나타났는지 살펴보겠습니다. 이번 포스팅에는 두 가지 주요 지표를 활용합니다.실사용자 투표 기반 순위(Chatbot Arena)는 실제 사용자가 직접 모델을 사용한 뒤 투표로 평가한 결과로, 실제 체감 성능과 사용자 만족도를 반영합니다.종합 벤치마크 점수(Artificial Analysis)는 다양한 표준 테스트셋을 활용해 모델의 추론 능..

[ComfyUI + Qwen-Image-Edit] AI 이미지 편집 가이드｜빠르고 간편한 활용 방법 안녕하세요,최근 알리바바 클라우드에서 공개한 Qwen-Image 계열 모델 중, 이미지 편집 기능에 최적화된 새로운 모델인 Qwen-Image-Edit가 발표되었습니다. 이 모델은 단순한 이미지 생성 기능을 넘어, 텍스트 수정, 객체 추가·삭제, 스타일 변경 등 정교한 편집 작업까지 지원하여 창의적인 활용도를 크게 확장해 주는 것이 특징입니다.이번 포스팅에서는 Qwen-Image-Edit 모델의 주요 기능과 장점을 살펴보고, 로컬 환경에서 직접 실행하여 활용할 수 있는 방법까지 함께 소개해 드리겠습니다. Qwen-Image-Edit 모델이란Qwen-Image-Edit는 알리바바 클라우드에서 공개한 Qwen-Image 계열 모델의 확장판으로, 이미지 생성보다는 편집 기능에 집중하여 개발된 오픈소스 AI 모..

[오픈소스 AI] GPT-5에 맞서는 오픈소스 AI, DeepSeek-V3.1 공개 안녕하세요,오픈소스 AI 생태계에 프론티어급 대형 언어 모델 시대의 개막을 알리며 강력한 변화를 이끌어낸 DeepSeek에서 새로운 모델 DeepSeek-V3.1을 공개했습니다. 이번 모델은 전작인 V3를 기반으로 성능과 효율성을 한층 강화했으며, 추론 모드와 일반 모드를 모두 지원하는 하이브리드 구조를 통해 활용 범위를 크게 넓혔습니다.이번 포스팅에서는 DeepSeek-V3.1의 개요와 주요 특징을 살펴보고, 어떤 점에서 발전이 있었는지, 그리고 실제로 어떤 방식으로 활용할 수 있는지 자세히 소개해드리겠습니다.DeepSeek-V3.1 모델이란2025년 8월 19일(현지 시각), DeepSeek은 전작 V3를 기반으로 성능과 효율성을 한층 강화한 차세대 오픈소스 언어 모델 DeepSeek-V3.1을 공개..

이전 1 2 3 4 5 6 7 8 ··· 37 다음

728x90

티스토리툴바