본문 바로가기

반응형

전체 글

(254)
[ComfyUI × 영상 생성 AI] 6GB VRAM으로도 가능한 고품질 영상 생성 AI, FramePack을 소개합니다. 안녕하세요,최근, 낮은 VRAM 환경에서도 고품질의 영상을 생성할 수 있는 AI 모델이 등장하였습니다. 기존의 영상 생성 모델들은 연산량과 메모리 사용량이 비례하여, 긴 영상을 생성하려면 고사양 GPU가 필수적이었습니다. 하지만 새롭게 발표된 이번 영상 생성 모델은 이러한 한계를 극복하며, 일반적인 사양의 GPU에서도 놀라운 품질의 영상을 제작할 수 있도록 지원합니다. 이번 글에서는 이 모델의 원리와 주요 특징을 살펴보고, 설치 및 사용방법에 대해 알아보겠습니다.FramePack 이란FramePack은 스탠포드 대학교에서 개발한 차세대 비디오 생성 모델로, 입력 프레임을 압축해 고정된 길이로 유지함으로써 비디오 생성의 효율성과 품질을 동시에 향상시킵니다. 특히 이미지 기반 비디오 생성(image-to-v..
영상 속 모자이크, 정말 안전한가? 모자이크 복원 안녕하세요,최근 SKT의 개인정보 유출 사태를 계기로 많은 분들이 ‘정보 보안’의 중요성을 다시금 체감하고 계실 것입니다. 우리 일상 속에서도 보안을 의식한 행동들이 많아졌습니다. 예를 들어, 가족이나 친구, 혹은 민감한 사적 정보가 담긴 화면을 사진이나 영상으로 공유할 때, 흔히 모자이크나 블러 처리 등을 통해 특정 부분을 가리는 경우가 많습니다. 나만의 프라이버시를 지키기 위한 하나의 안전장치라고 믿기 때문입니다.하지만 이 모자이크가 완전하지 않을 수도 있다는 사실을 알고 계시나요? 단순히 ‘가렸기 때문에 안 보이겠지’라는 안일한 생각은 이제 위험해질 수 있습니다. 이번 포스팅에서는 한 GitHub 프로젝트를 통해, 우리가 흔히 사용하는 모자이크 처리 영상이 어떻게 복원될 수 있는지를 소개하고자 합니..
[ComfyUI + HiDream-I1] 무료로 고화질 이미지 생성하기 | 이미지 생성 AI 안녕하세요,최근 고성능의 오픈소스 이미지 생성 모델이 등장해 많은 주목을 받고 있습니다. 바로 HiDream-I1이라는 모델로, 현재 허깅페이스를 통해 누구나 자유롭게 사용할 수 있도록 공개되었습니다. 이번 포스팅에서는 HiDream-I1의 주요 특징과 설치 방법, 그리고 실제로 텍스트 프롬프트를 활용해 이미지를 생성하는 과정을 단계별로 소개해드리겠습니다.AI 이미지 생성에 관심 있는 분들께 유용한 가이드가 되길 바랍니다. HiDream-I1 란HiDream-I1은 HiDream-ai가 2025년 4월 7일 공식적으로 오픈소스로 공개한 텍스트-이미지 변환 모델입니다. 170억 개의 파라미터를 갖춘 이 모델은 텍스트 프롬프트를 기반으로 다양한 스타일(사진, 만화, 예술 등)의 고품질 이미지를 생성할 수 있..
Gemini 2.5 Pro, Claude 3.7, GPT-4.1 성능 비교: 최고의 AI는 누구인가? 안녕하세요,최근 구글이 새로운 버전의 Gemini를 출시하면서, 대규모 언어 모델(LLM) 시장에 또 한 번 변화의 바람이 불었습니다. OpenAI, Anthropic, Meta 등 주요 기업들도 기존 모델을 지속적으로 개선하고 있으며, 각 모델 간 경쟁은 한층 더 치열해지고 있습니다. 이번 포스팅에서는 현재 공개된 주요 LLM들의 전반적인 순위 변동과 평가 흐름을 종합적으로 살펴보려 합니다. 각 모델이 어떤 강점을 지니고 있는지, 그리고 현시점에서 어떤 모델이 가장 앞서나가고 있는지 함께 알아보겠습니다.현재 다양한 AI 모델들이 등장하면서, 어떤 기준으로 비교하느냐에 따라 순위가 달라질 수 있습니다. 이번 포스팅에서는 사용자 참여형 블라인드 테스트를 기반으로 평가된 대규모 언어 모델(LLM) 순위를 참..
[오픈 소스 AI] [음성 생성 AI] 자연스러운 대화를 생성해주는 음성 생성 모델, Dia를 소개합니다. 안녕하세요,최근, 굉장히 작은 크기임에도 불구하고 고품질의 대화 음성을 생성할 수 있는 오픈 소스 모델이 새롭게 등장했습니다. 이 모델은 가벼운 성능과 뛰어난 음질을 동시에 갖추고 있어, 음성 합성이나 대화형 AI 프로젝트에 관심 있는 개발자들에게 큰 주목을 받고 있습니다.이번 포스팅에서는 이 모델의 주요 특징과 사용 방법에 대해 알아보겠습니다.Dia AI란Dia는 Nari Labs에서 개발한 1.6억 파라미터 규모의 오픈 웨이트 텍스트-투-스피치(TTS) 모델입니다. 대화형 스크립트를 입력받아 한 번에 자연스럽고 감정이 풍부한 음성을 생성할 수 있도록 설계되었습니다. 오디오 프롬프트를 통해 목소리의 감정과 톤을 세밀하게 조정할 수 있으며, 웃음소리나 박수소리 같은 다양한 비언어적 표현도 만들어낼 수 있..
마이크로 소프트에서 개발한 CPU만으로 작동하는 초경량 AI, Bitnet을 소개합니다. 안녕하세요,LLM 경량화와 온디바이스 AI 기술이 주목받고 있는 요즘, 마이크로소프트에서 공개한 BitNet은 GPU 없이도 CPU만으로 실행 가능한 초경량 대형 언어 모델로 많은 관심을 받고 있습니다. 특히 b1.58-2B-4T와 같은 모델은 효율성과 성능을 모두 고려한 구조로 설계되어, 개인 PC나 로컬 장치에서도 실행 가능한 것이 큰 특징입니다.이번 포스팅에서는 BitNet b1.58-2B-4T 모델의 주요 특징과 구조, 그리고 직접 설치 및 실행해보는 과정을 단계별로 자세히 소개해드리겠습니다.bitnet 이란BitNet(비트넷)은 마이크로소프트에서 개발한 초경량 대규모 언어 모델(LLM)로, 기존 AI 모델과 달리 극도로 낮은 비트(1비트 또는 약 1.58비트)로 파라미터를 양자화하여 모델의 효율..
[MCP 서버] PDF 문서에서 답을 찾는 Claude AI 만들기 안녕하세요,최근 AI 모델의 고도화로 인해, 단순한 대화형 응답을 넘어 더 정확하고 정밀한 정보 제공의 중요성이 커지고 있습니다. 특히 사용자 맞춤형 정보를 제공해야 하는 상황에서는, AI가 지정된 문서를 직접 참고하여 답변을 생성하는 방식이 큰 주목을 받고 있습니다.이러한 요구를 충족시키기 위한 대표적인 기술이 바로 RAG(Retrieval-Augmented Generation)입니다. RAG는 외부 문서에서 관련 정보를 검색한 뒤, 이를 기반으로 생성형 AI가 응답을 생성하는 방식입니다. 이번 글에서는 이 RAG 시스템을 MCP 서버 기반으로 구현하고, Claude에 질문을 전달하여 내 문서를 바탕으로 답변을 생성하는 방법에 대해 알아보겠습니다.MCP 기능이번 프로젝트에서는 내가 가지고 있는 PDF ..
AI를 사용하여 코드를 짜는, 바이브 코딩 안녕하세요,요즘 AI는 이미지 생성이나 글쓰기뿐만 아니라, 코딩 작업에도 활발히 활용되고 있습니다. 이러한 흐름 속에서, 최근 개발자들 사이에서는 ‘바이브 코딩(Vibe Coding)’이라는 새로운 용어가 등장했습니다. 바이브 코딩은 AI와 대화하듯 자연스럽게 코드를 작성하는 방식을 뜻하며, 기존의 정형화된 코딩 방식에서 벗어나 AI와 협업하며 감각적으로 개발을 이어가는 새로운 패러다임입니다.이제는 복잡한 문법을 몰라도, 아이디어만 있다면 누구나 AI와 함께 손쉽게 소프트웨어를 만들 수 있는 시대가 열리고 있습니다.바이브 코딩(Vibe Coding)이란?바이브 코딩은 개발자가 직접 프로그래밍 언어로 코드를 작성하는 대신, GPT, Gemini, Grok 등과 같은 AI 모델에게 자연어로 원하는 기능이나 ..

728x90
반응형