본문 바로가기

반응형

AI 소식

(54)
Google 딥마인드에서 공개한 4D AI, CAT4D를 소개합니다. 안녕하세요,최근 AI 기술은 2D 이미지와 영상을 넘어 "4D 장면"까지 생성할 수 있는 수준에 도달했습니다. 구글 딥마인드에서 공동으로 개발된 CAT4D라는 이 AI 모델은 시간과 공간의 변화를 동시에 표현함으로써 기존 영상 기술을 한 단계 더 발전시키고 있습니다. 특히, 복잡한 카메라 세팅 없이도 다양한 시점에서 장면을 생성할 수 있어 매우 직관적이고 혁신적인 방법으로 새로운 시각적 경험을 제공합니다. 이번 포스팅에서는 CAT4D의 원리와 주요 기능, 그리고 그 독창적이고 혁신적인 접근 방식을 소개해 드리겠습니다.CAT4D란CAT4D는 'Create Anything in 4D with Multi-View Video Diffusion Models'의 약자로, 단일 모노큘러 비디오를 다중 시점 비디오로 ..
SK텔레콤(SKT)의 자체 개발 LLM 모델, "A.X (에이닷엑스)"를 소개합니다. 안녕하세요,OpenAI의 ChatGPT 출시 이후, 많은 기업들이 자사형 LLM 모델을 잇따라 선보이고 있습니다. 구글의 Gemini, 앤트로픽의 Claude, 퍼플렉시티의 Perplexity.ai 등 다양한 LLM들이 출시되었으며, 지금도 활발한 개발이 이어지고 있습니다. 이러한 환경 속에서 한국 기업 SKT가 자체적으로 개발한 LLM 모델 "A.X(에이닷엑스)"와 이를 활용할 수 있는 플랫폼 "에이닷"을 소개해드리겠습니다.에이닷이란에이닷은 SK텔레콤의 AI 개인비서 서비스 플랫폼으로, 모바일과 웹에서 모두 사용 가능합니다. 에이닷을 통해 A.X 모델뿐만 아니라 퍼플렉시티, 챗GPT 등 다양한 모델을 한 번에 사용할 수 있으며, 사용자는 원하는 모델을 선택해 질문하거나 여러 모델의 답변을 비교할 수 있..
AI 기술의 신뢰성을 보장하는 한국 AI 인증 제도를 소개합니다. 안녕하세요,혹시 한국표준협회에서 인증해주는 "한국 AI 인증"에 대해 아시나요? 인공지능(AI)이 우리 생활에 점점 더 깊숙이 자리 잡고 있지만, 이에 대한 신뢰와 안전성에 대한 우려도 동시에 커지고 있습니다. 이런 상황에서 한국 AI 인증은 사용자와 기업 모두가 신뢰할 수 있는 AI 생태계를 구축하기 위해 중요한 역할을 하고 있습니다. AI 기술의 급격한 발전과 더불어 신뢰성, 안전성, 그리고 윤리적인 문제들이 더욱 부각되고 있습니다. 이와 같은 문제들을 해결하고자 한국 정부는 AI 시스템에 대한 인증 제도를 도입해 신뢰할 수 있는 AI 생태계를 조성하려는 노력을 기울이고 있습니다. 이번 글에서는 한국 AI 인증의 개념, 필요성, 주요 절차, 그리고 이 인증이 가져오는 장점에 대해 알아보겠습니다.1. ..
[영상 생성 AI] [오픈 소스] [로컬 환경] Genmo에서 개발한 영상 생성 AI, Mochi-1를 소개합니다. 안녕하세요,이번에 영상을 생성해주는 놀라운 AI 모델이 공개되었습니다. 바로 Genmo의 Mochi-1입니다. 이 AI 모델은 텍스트 프롬프트를 기반으로 생성된 영상이 마치 실제 촬영된 영상처럼 자연스럽고 사실적이어서 사람들을 놀라게 하고 있습니다. 더욱 놀라운 점은 이 뛰어난 모델이 오픈 소스로 공개되어 누구나 접근하고 활용할 수 있다는 것입니다. 이번 포스팅에서는 Mochi-1 AI의 주요 특징과 사용방법, 그리고 활용 가능성에 대해 자세히 소개해드리겠습니다. Mochi-1 Mochi-1은 Genmo에서 개발한 오픈 소스 영상 생성 모델로, 텍스트 프롬프트를 기반으로 고품질의 영상을 생성할 수 있는 강력한 AI 모델입니다. 이 모델은 특히 '프롬프트 준수'와 '움직임 품질' 측면에서 높은 평가를 받고..
AI가 검색을 바꾸다: Perplexity AI에 대해 소개합니다. 안녕하세요,정보가 너무 많다 못해 넘쳐나는 시대에서 정확히 원하는 정보를 찾는 일은 어려운 과제가 되었습니다. 하지만 이제 검색을 도와주는 AI가 등장하여 이 문제를 해결하고 있습니다. Perplexity AI는 단순한 정보 검색을 넘어, 질문에 대한 맥락을 이해하고 가장 적합한 답변을 제공하는 AI 기반 검색 및 정보 탐색 도구입니다. 이 글에서는 Perplexity AI의 주요 특징, 사용 방법, 그리고 다양한 기능에 대해 자세히 알아보겠습니다. Perplexity AI 란Perplexity AI는 AI 기반의 검색 및 정보 탐색 도구로, 최신 언어 모델과 자연어 처리 기술을 활용하여 사용자가 묻는 질문에 대해 명확하고 구체적인 답변을 제공합니다. 사용자가 질문을 입력하면 Perplexity AI는 ..
[오픈 소스 AI] [로컬 환경] 음성을 복제하여 텍스트를 음성으로 바꿔주는 AI, SWivid TTS(Text to Speech)를 소개합니다. 안녕하세요,최근 텍스트를 음성으로 변환하는 기술이 발전하면서, 더욱 자연스럽고 감정 표현이 풍부한 음성을 생성하는 TTS(Text-to-Speech) 모델들이 주목받고 있습니다. 이러한 기술 중 하나인 SWivid TTS는 사용자에게 마치 실제 사람처럼 들리는 음성을 제공하기 위해 'Flow Matching' 기법을 사용합니다. 이 글에서는 SWivid TTS의 주요 기능과 설치 방법, 그리고 실행 과정에 대해 알아보겠습니다. SWivid TTS AISWivid TTS는 텍스트를 음성으로 변환해주는 모델로, 자연스럽고 감정을 잘 표현하는 음성을 생성하기 위해 'Flow Matching' 기법을 사용합니다. 이 기법은 음성의 흐름을 자연스럽게 이어지도록 설계되어, 마치 사람이 이야기하는 것처럼 들리게 합니..
[오픈 소스 AI] [로컬 환경] OpenAI에서 개발한 음성 인식 AI, Whisper를 소개합니다. 안녕하세요,스마트폰에서 음성 명령으로 검색을 하거나, 유튜브 영상에 자동 생성된 자막을 본 적이 있나요? 바로 이러한 기능들은 음성 인식 기술 덕분에 가능해진 것입니다. 특히, OpenAI가 개발한 Whisper는 그 중에서도 주목받는 음성 인식 AI 모델입니다. Whisper는 단순히 음성을 텍스트로 변환하는 것에 그치지 않고, 다양한 언어를 인식하고, 소음이 많은 환경에서도 정확하게 작동하도록 설계되었습니다. 이는 유튜브와 같은 플랫폼에서 제공되는 자동 자막 생성 기능과 같은 사례에서 활용될 수 있습니다. 이번 포스팅에서는 이러한 Whisper 모델에 대해 간단히 소개하고, 로컬 환경에서 설치 및 사용하는 방법에 대해 소개하도록 하겠습니다. Whisper  AI Whisper는 OpenAI에서 개발한..
[오픈 소스 AI] [로컬 환경] 실시간 대화하는 AI 비서, "Moshi"를 소개합니다. 안녕하세요, 오픈AI가 최근 GPT-4o를 출시하며 실시간 대화 음성 기능을 선보여 큰 주목을 받았습니다. 이와 동시에 구글도 Gemini Live라는 기능을 통해 실시간 음성 채팅 서비스를 제공하고 있으며, AI와의 실시간 대화 기능이 점점 더 많은 관심을 받고 있습니다. 이제 단순한 텍스트 기반의 채팅을 넘어서, 음성으로 소통하는 AI 비서가 차세대 기술로 자리잡고 있습니다. 이러한 흐름 속에서 프랑스 기업 Kyutai(큐타이)는 GPT-4o와 비슷한 성능을 지닌 AI 음성 비서 Moshi(모시)를 개발하고, 이를 오픈 소스로 공개하여 더욱 큰 화제를 불러일으켰습니다. Moshi는 사용자와 자연스러운 음성 대화를 나눌 수 있는 인공지능 비서로, 다양한 용도에 쉽게 적용될 수 있도록 설계되었습니다. 이..

728x90
반응형