본문 바로가기

전체 글

(293)

Gemini 2.5 Flash Image (nano-banana)｜구글 최신 이미지 생성 모델 특징과 성능 안녕하세요,최근 업계와 커뮤니티에서 ‘nano-banana’라는 이름으로 불리며 뛰어난 성능으로 큰 화제를 모았던 이미지 생성 모델이 드디어 정식으로 공개되었습니다. 바로 구글이 개발한 최신 이미지 생성·편집 모델, Gemini 2.5 Flash Image입니다. 이 모델은 이전 세대인 Gemini 2.0 Flash를 기반으로 기술을 한층 고도화하여, 이미지 품질과 창작 과정에서의 제어력을 크게 향상시킨 것이 특징입니다. 특히 캐릭터 일관성, 세밀한 편집, 창의적인 스타일링 등 다양한 이미지 작업에서 탁월한 결과를 보여주며, 공개 직후부터 큰 주목을 받고 있습니다.이번 글에서는 Gemini 2.5 Flash Image의 주요 특징과 함께, 누구나 손쉽게 체험할 수 있는 플랫폼을 간단히 소개해 드리겠습니다..

GPT-5 출시 후 LLM 성능 비교｜2025년 8월 최신 AI 모델 순위 정리 안녕하세요,OpenAI가 GPT-5를 공식 출시한 이후 업계와 사용자들 사이에서 다양한 반응이 이어지고 있습니다. 일부에서는 이전 세대 모델보다 확실히 향상되었다는 긍정적인 평가를 내리고 있으며, 다른 한편에서는 기대에 미치지 못했다는 아쉬움의 목소리도 나오고 있습니다. 이처럼 엇갈린 의견이 공존하는 가운데, 출시 후 2주가 지난 현재 시점에서 LLM 성능에 어떤 변화가 나타났는지 살펴보겠습니다. 이번 포스팅에는 두 가지 주요 지표를 활용합니다.실사용자 투표 기반 순위(Chatbot Arena)는 실제 사용자가 직접 모델을 사용한 뒤 투표로 평가한 결과로, 실제 체감 성능과 사용자 만족도를 반영합니다.종합 벤치마크 점수(Artificial Analysis)는 다양한 표준 테스트셋을 활용해 모델의 추론 능..

[ComfyUI + Qwen-Image-Edit] AI 이미지 편집 가이드｜빠르고 간편한 활용 방법 안녕하세요,최근 알리바바 클라우드에서 공개한 Qwen-Image 계열 모델 중, 이미지 편집 기능에 최적화된 새로운 모델인 Qwen-Image-Edit가 발표되었습니다. 이 모델은 단순한 이미지 생성 기능을 넘어, 텍스트 수정, 객체 추가·삭제, 스타일 변경 등 정교한 편집 작업까지 지원하여 창의적인 활용도를 크게 확장해 주는 것이 특징입니다.이번 포스팅에서는 Qwen-Image-Edit 모델의 주요 기능과 장점을 살펴보고, 로컬 환경에서 직접 실행하여 활용할 수 있는 방법까지 함께 소개해 드리겠습니다. Qwen-Image-Edit 모델이란Qwen-Image-Edit는 알리바바 클라우드에서 공개한 Qwen-Image 계열 모델의 확장판으로, 이미지 생성보다는 편집 기능에 집중하여 개발된 오픈소스 AI 모..

[오픈소스 AI] GPT-5에 맞서는 오픈소스 AI, DeepSeek-V3.1 공개 안녕하세요,오픈소스 AI 생태계에 프론티어급 대형 언어 모델 시대의 개막을 알리며 강력한 변화를 이끌어낸 DeepSeek에서 새로운 모델 DeepSeek-V3.1을 공개했습니다. 이번 모델은 전작인 V3를 기반으로 성능과 효율성을 한층 강화했으며, 추론 모드와 일반 모드를 모두 지원하는 하이브리드 구조를 통해 활용 범위를 크게 넓혔습니다.이번 포스팅에서는 DeepSeek-V3.1의 개요와 주요 특징을 살펴보고, 어떤 점에서 발전이 있었는지, 그리고 실제로 어떤 방식으로 활용할 수 있는지 자세히 소개해드리겠습니다.DeepSeek-V3.1 모델이란2025년 8월 19일(현지 시각), DeepSeek은 전작 V3를 기반으로 성능과 효율성을 한층 강화한 차세대 오픈소스 언어 모델 DeepSeek-V3.1을 공개..

[오픈소스 AI] 중국 Z.ai의 최신 V-LLM, GLM-4.5V를 소개합니다. 안녕하세요,최근 Z.ai에서 오픈소스로 공개한 GLM-4.5 모델에 대한 포스팅을 진행한 바 있습니다. 이번에는 한 단계 더 발전된 형태로, 텍스트뿐만 아니라 이미지와 영상을 인식할 수 있는 비전 인식 통합 모델 GLM-4.5V를 새롭게 선보였습니다. GLM-4.5V는 기존 언어 처리 능력에 시각적 이해를 결합하여, 이미지 설명 생성, 멀티모달 질의응답, 시각적 추론 등 더욱 확장된 활용이 가능한 모델입니다. 특히 오픈소스로 제공되기 때문에 누구나 직접 실험하고 응용할 수 있다는 점에서 의미가 큽니다.이번 포스팅에서는 GLM-4.5V 모델의 특징, 그리고 실제로 어떠한 성능을 보여주는지 살펴보겠습니다. GLM-4.5V 모델2025년 8월 11일, 중국 Z.ai는 GLM-4.5V를 오픈소스 비전–언어 통..

[오픈소스 AI] LFM2-VL 모델 소개 | 온디바이스 최적화 멀티모달 비전-언어 모델 안녕하세요,최근 인공지능 기술은 대규모 모델에서부터 점차 온디바이스(On-Device) 환경 최적화 모델로 발전하고 있습니다. 클라우드 서버에 의존하지 않고도 스마트폰, 노트북, 웨어러블, 임베디드 기기와 같은 자원이 제한된 환경에서 직접 동작할 수 있는 경량 AI 모델의 수요가 급격히 높아지고 있기 때문입니다.이러한 흐름 속에서 등장한 LFM2-VL(LFM2-Vision-Language) 모델은 텍스트와 이미지를 동시에 이해할 수 있는 멀티모달 모델로, 크기는 작지만 빠른 속도와 효율성을 자랑합니다. 특히 실시간 응답이 가능하도록 설계되어 있어, 온디바이스 AI 모델이 지향하는 미래 방향성을 잘 보여주는 사례라 할 수 있습니다.이번 글에서는 LFM2-VL 모델의 특징과 성능을 살펴보고, 실제로 모델을 ..

구글의 이미지 생성 AI, Imagen 4 정식 출시 | Gemini·AI Studio에서 무료 체험 안녕하세요,최근 구글에서 새로운 이미지 생성 모델인 Imagen 4를 정식으로 공개했습니다. 이 모델은 빠른 속도와 고품질 이미지를 모두 지원하며, 사용 목적에 따라 선택할 수 있는 다양한 버전으로 제공되고 있습니다. 특히 구글 Gemini와 Google AI Studio를 통해 누구나 손쉽게 체험할 수 있어, 이미지 생성 AI를 처음 접하는 사용자부터 실제 프로젝트에 활용하려는 개발자까지 폭넓게 활용할 수 있습니다.이번 포스팅에서는 Imagen 4의 간단한 소개와 주요 특징, 그리고 어떤 플랫폼에서 서비스를 이용할 수 있는지에 대해 살펴보겠습니다. Imagen 4 모델 소개 2025년 8월 15일, 구글은 Gemini API와 Google AI Studio를 통해 이미지 생성 모델인 Imagen 4 패..

[오픈소스 AI] 1GB 이하 초소형 AI, 구글 Gemma 3 270M 모델 실행 가이드 안녕하세요.구글이 최근 공개한 Gemma 3 시리즈는 다양한 크기와 성능을 갖춘 언어 모델 가운데, 특히 초소형 버전인 Gemma 3 270M이 눈길을 끌고 있습니다. 이 모델은 크기가 1GB도 되지 않을 만큼 가볍고 효율적으로 설계되어, 로컬 환경이나 자원이 제한된 기기에서도 손쉽게 실행할 수 있다는 점에서 큰 장점을 가지고 있습니다.이번 글에서는 Gemma 3 270M 모델의 소개와 주요 특징, 그리고 직접 로컬 환경에서 실행해보는 방법까지 차례대로 살펴보겠습니다.Gemma 3 270M 모델이란2025년 8월 14일, 구글은 크기는 작지만 효율적이며 강력한 instruction-following 능력을 갖춘 모델인 Gemma 3 270M을 공개했습니다. 이 모델은 Gemma 시리즈에 새롭게 추가된 버..

이전 1 ··· 3 4 5 6 7 8 9 ··· 37 다음

728x90

티스토리툴바