본문 바로가기

반응형

AI 소식

(109)
구글 Whisk로 이미지부터 애니메이션 영상까지, 클릭 한 번으로 완성! 안녕하세요,최근 생성형 AI 기술이 빠르게 발전하면서, 누구나 손쉽게 이미지를 만들고 영상까지 제작할 수 있는 시대가 열렸지만, 여전히 많은 도구들은 복잡한 설정, 설치 과정, 그리고 프롬프트 작성에 대한 진입 장벽이 존재합니다. 이런 가운데, 구글이 선보인 Whisk(위스크)는 텍스트 입력이나 이미지 업로드만으로 고퀄리티의 이미지와 애니메이션 영상을 간편하게 생성할 수 있는 도구로 주목받고 있습니다.이 글에서는 Whisk의 주요 기능과 실제 사용 방법에 대해 알아보겠습니다.Whisk 란Whisk(위스크)는 구글에서 개발한 이미지 기반 생성형 AI 도구입니다. 사용자가 원하는 피사체, 장면, 스타일에 해당하는 이미지를 업로드하면, 입력된 이미지의 핵심 요소들을 조합하여 새롭고 독창적인 결과물을 만들어냅니..
[오픈소스 AI] 음성 비서까지 가능한 멀티모달 AI 모델, MiniCPM-o 2.6를 소개합니다. 안녕하세요,최근 AI는 단순히 텍스트만 처리하는 수준을 넘어, 이미지, 음성, 영상까지 함께 이해하고 반응할 수 있는 ‘멀티모달 AI’로 빠르게 발전하고 있습니다. 이제는 텍스트로 질문하면서 이미지를 함께 보여주거나, 음성으로 말을 걸면 AI가 이를 인식하고 자연스러운 음성으로 응답하는 시대가 열리고 있습니다.이러한 모든 기능을 갖춘 AI 모델이 오픈소스로 제공된다면 어떨까요? 이번 포스팅에서는 멀티모달 AI 기술을 직접 경험해볼 수 있는 오픈소스 모델, MiniCPM-o 2.6의 주요 특징과 함께, 이 모델을 로컬 환경에서 실행하고 활용하는 방법까지 자세히 소개해드리겠습니다.MiniCPM-o 2.6 MiniCPM-o 2.6은 OpenBMB에서 개발한 다중모달 대형 언어 모델(MLLM)로, 총 80억 개..
MoCha AI란? Meta가 만든 차세대 영상 생성 AI 안녕하세요,사람처럼 자연스럽게 말하고 움직이는 캐릭터를 직접 만들어볼 수 있다면 어떨까요? 이제는 복잡한 기술 없이도 이미지와 음성만으로 말하는 캐릭터 영상을 손쉽게 만들 수 있는 시대가 되었습니다. Meta와 워털루 대학교가 공동 개발한 AI 모델은 누구나 쉽게 캐릭터 애니메이션을 생성할 수 있도록 설계되었습니다. 아직은 개발 초기 단계에 있지만, 현재 공개된 기능만으로도 매우 인상적인 결과를 보여주며 많은 주목을 받고 있습니다.이번 글에서는 이 모델, MoCha AI의 주요 특징과 사용 방법, 그리고 실제 생성된 결과를 함께 살펴보겠습니다.MoCha AI 란MoCha AI는 메타(Meta)와 워털루 대학교의 공동 연구팀이 개발한 차세대 디지털 캐릭터 생성 AI로, 텍스트를 기반으로 애니메이션 캐릭터를..
Gemini 2.5 Pro, Claude 제치고 1위! 웹개발에 강한 AI는? 안녕하세요,최근 들어 다양한 대규모 언어 모델(LLM)이 출시되면서, 어떤 모델이 더 뛰어난지 판단하기가 점점 어려워지고 있습니다. 단순한 벤치마크 수치만으로는 실제 사용 환경에서의 성능을 정확히 가늠하기 어렵기 때문입니다.이러한 상황에서 사용자 참여 기반의 평가 방식이 주목받고 있습니다. 이번 글에서는 대표적인 비교 플랫폼인 Chatbot Arena에서 제공하는 정보를 바탕으로, 최신 AI 언어 모델들의 성능을 정리해보겠습니다.Chatbot Arena는 다양한 AI 언어 모델들이 얼마나 똑똑한지를 비교할 수 있는 공개 플랫폼입니다. OpenAI, Google, Anthropic 같은 여러 기업의 모델들이 같은 질문에 어떻게 답하는지를 직접 비교해볼 수 있도록 만들어졌습니다. 가장 큰 특징은 사용자들이 ..
Kanana-o란? 카카오가 만든 차세대 멀티모달 AI 모델 소개 안녕하세요,최근 AI는 더 이상 영화나 뉴스 속 이야기만이 아니라, 우리 일상 속에서 직접 체감할 수 있는 기술로 자리 잡고 있습니다. 음성으로 대화를 나누고, 사진을 보여주면 그 내용을 이해하며, 필요한 정보를 실시간으로 제공하는 AI 서비스들이 점점 더 많아지고 있습니다.그동안 이러한 기술은 주로 해외에서 먼저 개발되고 상용화되어 왔지만, 이제는 국내 기업들도 자체적인 AI 모델을 개발하며 본격적인 경쟁에 나서고 있습니다. 그중에서도 최근 카카오는 국내 기술로 개발한 통합 멀티모달 언어모델 ‘Kanana-o’를 공개하며 주목을 받고 있습니다. 이번 글에서는 Kanana-o가 어떤 모델인지, 어떤 특징을 갖고 있는지, 그리고 실제로 어떤 서비스에 활용되고 있는지를 소개해드리겠습니다.Kanana-o Ka..
[오픈소스 AI] Qwen3 모델 사용법|로컬 환경에서 직접 실행하기 안녕하세요,최근 다양한 오픈소스 대형 언어 모델(LLM)의 등장으로, 이제는 개인 사용자도 로컬 환경에서 고성능 AI 모델을 직접 실행하고 실험해볼 수 있는 시대가 열렸습니다. 그중에서도 최근 공개된 Qwen3는 특히 주목할 만한 모델입니다. Qwen3는 단순한 응답 생성에 그치지 않고, 사고 기반의 고급 추론 기능까지 탑재된 것이 큰 특징입니다. 기존에는 대형 모델에서만 가능하다고 여겨졌던 이러한 기능을, 비교적 가벼운 사양에서도 구현할 수 있다는 점에서 매우 인상적입니다. 또한, 로컬 환경에서 손쉽게 실행이 가능해 프라이버시 보호가 중요한 환경이나 비용 효율성을 고려하는 사용자에게도 매력적인 선택지로 떠오르고 있습니다. 이번 글에서는 Qwen3 모델의 주요 특징 그리고 로컬 실행 방식과 실제 사용 경..
스스로 학습하는 AI 모델, Absolute Zero Reasoner에 대해 소개합니다. 안녕하세요,AI의 성능은 단순히 학습한 데이터의 양뿐만 아니라, 어떤 데이터를 사용했는지에 따라 큰 차이를 보입니다. 일반적으로 이러한 데이터는 AI 개발자들이 직접 선별하고 정제하여, 더 높은 품질로 가공합니다. 최근에는 별도의 학습 데이터 없이 스스로 학습해 높은 성능을 보이는 AI 기술이 등장했습니다. 이 기술은 ‘Absolute Zero Reasoner ’라고 불리며, AI가 외부의 지도 없이도 스스로 학습하여 우수한 성능 지표를 달성한다고 알려져 있습니다. 이번 글에서는 Absolute Zero Reasoner 기술에 대해 자세히 알아보겠습니다.Absolute Zero Reasoner 란Absolute Zero Reasoner(AZR)는 기존의 인간이 만든 데이터에 의존하지 않고, AI가 스스로..
Smolagents로 구축한 로컬 AI 에이전트 사례와 함께, Smolagents 프레임워크에 대해 소개합니다. 안녕하세요,최근에는 대형 언어 모델(LLM)의 발전을 넘어, 이를 기반으로 다양한 작업을 자동으로 수행하는 AI 에이전트에 대한 관심이 높아지고 있습니다. 오늘은 허깅페이스에서 공개한 경량화된 오픈소스 프레임워크 Smolagents를 소개드리려 합니다. Smolagents는 LLM을 쉽게 에이전트화하여 실제 동작 가능한 작업 수행자로 바꿔주는 도구로, 간단한 설정만으로도 코드 실행, 도구 호출, 반복 추론이 가능한 AI 에이전트를 만들 수 있습니다.그럼 이제 Smolagents의 구조와 활용 방법을 함께 살펴보겠습니다. Smolagents란Smolagents는 Hugging Face에서 개발한 경량화된 오픈소스 Python 라이브러리로, LLM을 활용하여 AI 에이전트를 손쉽게 구축할 수 있도록 설계되었..

728x90
반응형