본문 바로가기

반응형

전체 글

(254)
Gemini Diffusion이란? 구글 딥마인드의 차세대 AI 언어 모델 안녕하세요,2025년 구글 I/O에서 새롭게 공개된 Gemini Diffusion은 언어 생성 모델의 새로운 패러다임으로 주목받고 있습니다. 기존의 AI 모델과는 전혀 다른, "확산 원리"를 적용한 언어 모델로, 생성 속도와 효율성, 일관성 면에서 큰 가능성을 보여주고 있습니다.이 포스팅에서는 Gemini Diffusion이 무엇인지, 그리고 기존 LLM과 어떻게 다른지, 주요 특징과 성능, 그리고 앞으로의 활용 전망까지 알아보겠습니다.제미나이 디퓨전(Gemini Diffusion)란 Gemini Diffusion은 지난달 구글 I/O에서 구글 딥마인드가 공개한 차세대 언어 생성 모델입니다. 이 모델은 기존의 자기회귀(autoregressive) 방식이 아닌, 확산(diffusion) 방식을 텍스트 생성..
[ComfyUI + Cosmos-Predict2] NVIDIA의 AI 이미지·영상 생성 모델 활용법 | 로컬 실행 | AI 이미지 | AI 영상 안녕하세요,최근 생성형 AI 기술의 발전으로, 텍스트만 입력해도 고해상도 이미지와 영상을 손쉽게 생성할 수 있는 시대가 열렸습니다. 그중에서도 이번에 소개할 모델은 NVIDIA에서 공개한 Cosmos-Predict2로, 강력한 성능을 자랑하는 멀티모달 생성 AI입니다. Cosmos-Predict2는 로컬 환경에서도 실행이 가능하며, 적절한 GPU 사양만 갖춰진다면 누구나 직접 고품질 이미지와 영상을 생성해볼 수 있습니다.그럼 지금부터 ComfyUI 환경에서 Cosmos-Predict2 모델을 실행하는 방법을 단계별로 살펴보겠습니다.Cosmos-Predict2란Cosmos-Predict2는 NVIDIA가 개발한 차세대 월드 파운데이션 모델(World Foundation Model, WFM)로, 물리 기반 ..
[오픈소스 AI] ChatGPT처럼 '생각하는' 추론 모델, Magistral을 소개합니다. | Ollama | 로컬환경 안녕하세요,2025년 6월, 프랑스의 AI 스타트업 미스트럴(Mistral)이 새로운 대형 언어 모델인 Magistral을 공개했습니다. 이 모델은 미스트럴이 처음 선보이는 추론(Reasoning) 특화 AI 모델로, 단순한 텍스트 생성이 아니라 복잡한 문제를 단계적으로 사고하며 해결하는 능력에 초점을 맞추고 있습니다.특히 주목할 점은, 이 모델 중 Magistral Small 버전이 오픈소스로 공개되었다는 것입니다. 누구나 자유롭게 다운로드하고, 수정 및 재활용할 수 있어 AI에 관심 있는 개발자나 연구자에게 매우 매력적인 선택지로 떠오르고 있습니다.이번 포스팅에서는 Magistral 모델의 주요 특징을 간단히 소개하고, 누구나 쉽게 따라 할 수 있도록 Ollama를 활용해 로컬 환경에서 직접 실행해보..
[Bing Video Creator] 마이크로소프트 AI 영상 만들기 가이드 (Sora 기반) 안녕하세요,최근 AI 기술의 발전으로, 텍스트만 입력하면 이미지를 생성해주는 서비스들이 활발히 활용되고 있습니다. 이제는 한 걸음 더 나아가, 짧은 동영상까지 자동으로 생성해주는 AI 영상 생성 도구들도 등장하고 있습니다.그중에서도 주목할 만한 서비스가 바로 마이크로소프트가 무료로 제공 중인 AI 영상 생성 도구입니다. 이 기능은 OpenAI의 영상 생성 모델인 Sora를 기반으로 하며, 높은 성능과 직관적인 사용 방식으로 주목받고 있습니다.그렇다면 이 뛰어난 AI 영상 생성 툴은 어디에서, 어떻게 사용할 수 있을지 지금부터 알아보겠습니다.Bing Video Creator란?Bing Video Creator는 오픈AI의 동영상 생성 AI 모델 Sora를 기반으로, 사용자가 텍스트 프롬프트만 입력하면 자동..
[OpenAudio S1-mini] 가볍고 강력한 AI 음성 생성 모델 설치 및 실행 가이드 | 오픈소스 AI | 한국어 TTS 안녕하세요,최근 인공지능 기술의 발전으로 고품질 음성을 손쉽게 생성할 수 있는 TTS(Text-to-Speech) 모델들이 빠르게 등장하고 있습니다. 특히, OpenAudio S1-mini는 가볍고 빠르면서도 한국어까지 자연스럽게 지원하는 오픈소스 음성 합성 모델로 주목받고 있습니다. 이 글에서는 Docker를 활용하여 OpenAudio S1-mini 모델을 설치하고 실행하는 방법을 단계별로 안내합니다. 또한, 한국어 문장을 기반으로 음성을 생성하는 실제 예제를 통해, 이 모델의 품질과 성능을 직접 확인해볼 수 있습니다. 한국어 TTS 모델을 찾고 계시거나, 로컬 환경에서 직접 음성 합성 모델을 테스트해보고 싶으신 분들께 도움이 되길 바랍니다. 그럼 설치부터 실행, 결과 확인까지 차근차근 살펴보겠습니다...
WWDC25 요약, Apple Intelligence로 본 애플 AI 전략의 미래 안녕하세요,최근 애플은 WWDC25(Worldwide Developers Conference, 세계 개발자 회의)를 통해 자사의 차세대 AI 전략을 대대적으로 발표했습니다. 이번 발표는 단순한 기능 추가를 넘어, 애플이 앞으로 어떤 방향으로 AI를 발전시켜 나갈지를 명확히 보여주는 중요한 전환점이었습니다.과연 애플은 어떤 기술을 공개했고, 어떤 비전을 제시했을까요? 이번 글에서는 WWDC25에서 발표된 Apple Intelligence의 주요 내용을 정리하고, 그 의미와 앞으로의 변화 방향은 어떨지 살펴보겠습니다.1. WWDC25에서 선보인 ‘Apple Intelligence’란?2025년 6월 9일, 애플은 WWDC25에서 Apple Intelligence라는 이름으로 차세대 AI 전략을 공식 발표했습..
[ComfyUI + Wan2.1-VACE] AI 하나로 Text to Video부터 Video 편집까지!|오픈소스|영상 생성 AI 안녕하세요,최근 영상 생성 AI 기술은 눈부신 속도로 발전하고 있으며, 이제는 텍스트나 이미지 하나만으로도 고품질의 영상을 만드는 시대가 열리고 있습니다. 그 중 소개해드릴 모델은 바로 Wan2.1-VACE입니다.Wan2.1-VACE는 텍스트, 이미지, 비디오, 마스크 등 다양한 입력을 활용해 영상 생성은 물론, 세밀한 편집까지 가능한 올인원 오픈소스 모델로 주목받고 있습니다. 특히 ComfyUI와 연동해 누구나 시각적으로 손쉽게 테스트할 수 있어, AI 영상 제작의 진입 장벽을 크게 낮춰줍니다.이번 글에서는 Wan2.1-VACE 모델을 직접 활용해 Text to Video, Image to Video, Video to Video 방식으로 영상 생성하는 방법에 대해 알아보겠습니다.Wan2.1-VACEWa..
모바일에서 직접 실행하는 생성형 AI, Google AI Edge Gallery를 소개합니다. 안녕하세요,최근 몇 년 사이 생성형 AI 기술은 눈부신 발전을 이루며, 다양한 분야에 빠르게 확산되고 있습니다. 그동안 이러한 AI 기술은 대부분 고성능 서버나 클라우드 환경에 의존해 왔지만, 이제는 점차 사용자 개인 기기에서 직접 실행할 수 있는 ‘로컬 AI’ 시대로 전환되고 있습니다.이러한 변화는 단순한 기술적 진보를 넘어, 데이터 프라이버시 강화, 인터넷 없이도 활용 가능한 유연성, 개인 맞춤형 AI 경험 제공이라는 측면에서 큰 의미를 가집니다.이러한 흐름에 발맞춰, 최근 구글에서는 실험적인 모바일 앱인 Google AI Edge Gallery를 공개했습니다. 이번 글에서는 이 앱을 통해 소형 AI 모델을 실제 휴대폰에서 직접 실행해본 테스트 경험을 소개드리고자 합니다. 구글 AI 엣지 갤러리(Go..

728x90
반응형