본문 바로가기

반응형

전체 글

(164)
[ComfyUI × 이미지 생성 AI] 무료 고화질 이미지 생성 모델, HiDream-I1을 소개합니다. 안녕하세요,최근 고성능의 오픈소스 이미지 생성 모델이 등장해 많은 주목을 받고 있습니다. 바로 HiDream-I1이라는 모델로, 현재 허깅페이스를 통해 누구나 자유롭게 사용할 수 있도록 공개되었습니다. 이번 포스팅에서는 HiDream-I1의 주요 특징과 설치 방법, 그리고 실제로 텍스트 프롬프트를 활용해 이미지를 생성하는 과정을 단계별로 소개해드리겠습니다.AI 이미지 생성에 관심 있는 분들께 유용한 가이드가 되길 바랍니다. HiDream-I1 란HiDream-I1은 HiDream-ai가 2025년 4월 7일 공식적으로 오픈소스로 공개한 텍스트-이미지 변환 모델입니다. 170억 개의 파라미터를 갖춘 이 모델은 텍스트 프롬프트를 기반으로 다양한 스타일(사진, 만화, 예술 등)의 고품질 이미지를 생성할 수 있..
Gemini 2.5 Pro, Claude 3.7, GPT-4.1 성능 비교: 최고의 AI는 누구인가? 안녕하세요,최근 구글이 새로운 버전의 Gemini를 출시하면서, 대규모 언어 모델(LLM) 시장에 또 한 번 변화의 바람이 불었습니다. OpenAI, Anthropic, Meta 등 주요 기업들도 기존 모델을 지속적으로 개선하고 있으며, 각 모델 간 경쟁은 한층 더 치열해지고 있습니다. 이번 포스팅에서는 현재 공개된 주요 LLM들의 전반적인 순위 변동과 평가 흐름을 종합적으로 살펴보려 합니다. 각 모델이 어떤 강점을 지니고 있는지, 그리고 현시점에서 어떤 모델이 가장 앞서나가고 있는지 함께 알아보겠습니다.현재 다양한 AI 모델들이 등장하면서, 어떤 기준으로 비교하느냐에 따라 순위가 달라질 수 있습니다. 이번 포스팅에서는 사용자 참여형 블라인드 테스트를 기반으로 평가된 대규모 언어 모델(LLM) 순위를 참..
[오픈 소스 AI] [음성 생성 AI] 자연스러운 대화를 생성해주는 음성 생성 모델, Dia를 소개합니다. 안녕하세요,최근, 굉장히 작은 크기임에도 불구하고 고품질의 대화 음성을 생성할 수 있는 오픈 소스 모델이 새롭게 등장했습니다. 이 모델은 가벼운 성능과 뛰어난 음질을 동시에 갖추고 있어, 음성 합성이나 대화형 AI 프로젝트에 관심 있는 개발자들에게 큰 주목을 받고 있습니다.이번 포스팅에서는 이 모델의 주요 특징과 사용 방법에 대해 알아보겠습니다.Dia AI란Dia는 Nari Labs에서 개발한 1.6억 파라미터 규모의 오픈 웨이트 텍스트-투-스피치(TTS) 모델입니다. 대화형 스크립트를 입력받아 한 번에 자연스럽고 감정이 풍부한 음성을 생성할 수 있도록 설계되었습니다. 오디오 프롬프트를 통해 목소리의 감정과 톤을 세밀하게 조정할 수 있으며, 웃음소리나 박수소리 같은 다양한 비언어적 표현도 만들어낼 수 있..
마이크로 소프트에서 개발한 CPU만으로 작동하는 초경량 AI, Bitnet을 소개합니다. 안녕하세요,LLM 경량화와 온디바이스 AI 기술이 주목받고 있는 요즘, 마이크로소프트에서 공개한 BitNet은 GPU 없이도 CPU만으로 실행 가능한 초경량 대형 언어 모델로 많은 관심을 받고 있습니다. 특히 b1.58-2B-4T와 같은 모델은 효율성과 성능을 모두 고려한 구조로 설계되어, 개인 PC나 로컬 장치에서도 실행 가능한 것이 큰 특징입니다.이번 포스팅에서는 BitNet b1.58-2B-4T 모델의 주요 특징과 구조, 그리고 직접 설치 및 실행해보는 과정을 단계별로 자세히 소개해드리겠습니다.bitnet 이란BitNet(비트넷)은 마이크로소프트에서 개발한 초경량 대규모 언어 모델(LLM)로, 기존 AI 모델과 달리 극도로 낮은 비트(1비트 또는 약 1.58비트)로 파라미터를 양자화하여 모델의 효율..
[MCP 서버] PDF 문서에서 답을 찾는 Claude AI 만들기 안녕하세요,최근 AI 모델의 고도화로 인해, 단순한 대화형 응답을 넘어 더 정확하고 정밀한 정보 제공의 중요성이 커지고 있습니다. 특히 사용자 맞춤형 정보를 제공해야 하는 상황에서는, AI가 지정된 문서를 직접 참고하여 답변을 생성하는 방식이 큰 주목을 받고 있습니다.이러한 요구를 충족시키기 위한 대표적인 기술이 바로 RAG(Retrieval-Augmented Generation)입니다. RAG는 외부 문서에서 관련 정보를 검색한 뒤, 이를 기반으로 생성형 AI가 응답을 생성하는 방식입니다. 이번 글에서는 이 RAG 시스템을 MCP 서버 기반으로 구현하고, Claude에 질문을 전달하여 내 문서를 바탕으로 답변을 생성하는 방법에 대해 알아보겠습니다.MCP 기능이번 프로젝트에서는 내가 가지고 있는 PDF ..
AI를 사용하여 코드를 짜는, 바이브 코딩 안녕하세요,요즘 AI는 이미지 생성이나 글쓰기뿐만 아니라, 코딩 작업에도 활발히 활용되고 있습니다. 이러한 흐름 속에서, 최근 개발자들 사이에서는 ‘바이브 코딩(Vibe Coding)’이라는 새로운 용어가 등장했습니다. 바이브 코딩은 AI와 대화하듯 자연스럽게 코드를 작성하는 방식을 뜻하며, 기존의 정형화된 코딩 방식에서 벗어나 AI와 협업하며 감각적으로 개발을 이어가는 새로운 패러다임입니다.이제는 복잡한 문법을 몰라도, 아이디어만 있다면 누구나 AI와 함께 손쉽게 소프트웨어를 만들 수 있는 시대가 열리고 있습니다.바이브 코딩(Vibe Coding)이란?바이브 코딩은 개발자가 직접 프로그래밍 언어로 코드를 작성하는 대신, GPT, Gemini, Grok 등과 같은 AI 모델에게 자연어로 원하는 기능이나 ..
GPT-4.1 vs GPT-4o, 무엇이 얼마나 달라졌을까? 안녕하세요,오픈AI가 최근 개발자들을 위한 새로운 언어 모델, GPT-4.1을 공식 출시하였습니다. 이번 모델은 이전 버전보다 향상된 성능과 함께, 더 낮은 비용으로 이용할 수 있어 많은 주목을 받고 있습니다. 특히, 코딩, 지시 수행, 긴 문맥 처리 능력 등에서 눈에 띄는 발전을 이루었으며, 다양한 버전으로 제공되어 개발 환경에 맞게 선택할 수 있다는 점도 큰 장점입니다.이번 글에서는 GPT-4.1이 어떤 모델인지, 그리고 어떤 주요 특징을 갖고 있는지 자세히 알아보겠습니다.GPT-4.1이란?2025년 4월 14일, 오픈AI는 GPT-4.1 시리즈를 공식 출시하였습니다. 이 시리즈는 GPT‑4.1, GPT‑4.1 mini, GPT‑4.1 nano 등 세 가지 모델로 구성되어 있으며, 이전 모델인 GPT..
[2025년 04월] 최신 AI 모델 정리: 언어, 이미지, 영상 생성 모델 안녕하세요,AI 기술의 발전 속도는 정말 놀라울 정도로 빠릅니다. 특히 언어 모델, 이미지 생성 모델, 영상 생성 모델 등 다양한 분야에서 혁신적인 변화가 일어나고 있습니다. 이제는 AI가 창작, 작업 효율성 향상, 심지어 일상적인 문제 해결까지 도와주는 강력한 도구로 자리잡았습니다.이 글에서는 최신 AI 모델들에 대해 소개합니다. 각 모델이 무엇인지, 어디에서 사용 가능한지에 대한 정보를 간단히 정리하였습니다. AI에 관심이 많은 분들이 이 글을 통해 다양한 모델을 한눈에 살펴보고, 최신 AI 모델에 대한 정보를 얻을 수 있기를 바랍니다.1. 최신 언어 모델1) 거대 언어 모델 (LLM, Large Language Model)순번모델명모델 버전 (사용 링크)추론기능Deep Research기능비용개발 기..

728x90
반응형