본문 바로가기

AI 소식

5월 셋째주, 주요 AI 소식에 대해 알려드립니다.

 안녕하세요. 지난주는 Openai를 비롯하여 구글, 애플 등 세계적인 기업들이 AI와 관련한 발표들이 있었습니다. 어떠한 내용이 있었는지 알려드리겠습니다.

 

그럼 5월 셋째주 주요 AI 소식에 대해 알려드리겠습니다.

 

1. OpenAI 관련 기사

  - GPT-4o 발표

  - 챗GPT, 클라우드 저장소와 연동

2. Google 관련 기사

  - Google I/O 소식

  - 장애인 돕는 AI앱 출시

3. 메타, AI 비서 & 이어버드 개발 진행

4. 스태빌리티 AI, 매각 논의

 


반응형

 

 

1. OpenAI 관련 기사

1-1) GPT-4o 발표

 

 오픈AI의 새로운 인공지능 모델 'GPT-4o'가 출시되었습니다. 이번 출시 행사에서 11만 3000여 명이 스트리밍을 시청하며 폭발적인 인기를 얻었습니다.이 모델은 인간과 구분하기 어려울 정도로 섬세한 반응을 보여, 일부는 이를 인공일반지능(AGI)의 시작으로 평가했습니다. 그러나 일부는 이번 출시가 실질적인 기능 발전 없이 잘 짜인 쇼에 불과하다고 비판합니다. GPT-4o는 실시간으로 사람의 목소리와 행동을 모방하며, 다양한 상황에서 인간처럼 반응하는 모습을 보였습니다. 특히, 이번 모델은 휴대폰 카메라를 이용해 상대방을 인식하고 대화를 나누는 등 이전 모델들과 비교할 때 더욱 발전된 인터랙션 능력을 선보였습니다. 또한, GPT-4o는 이미지 생성 능력도 갖추고 있어, 이를 통해 생성된 이미지는 사실적이며, 정확한 텍스트 표현이 가능합니다. 이 모델은 기존 GPT-4 버전들보다 비용 효율적이며, 오디오와 비주얼 데이터를 더욱 잘 처리할 수 있도록 개선되었습니다. 하지만 모델의 네이티브 이미지 생성 기능은 아직 공개되지 않았으며, 오픈AI는 이 기능을 곧 선보일 것이라고 예고했습니다.

 

 오픈AI에서 GPT-4o에 대한 여러 영상을 인스타그램, 유튜브에서 공개했습니다. 이 시연 영상을 보며 가장 놀랍게 느껴졌던 점이 몇 가지 있습니다. 첫 번째로 빠른 응답 속도입니다. 지금까지의 AI 모델들은 질문을 받으면 그에 대한 답을 생성하는 데 수 초간의 시간이 필요했습니다. 하지만 이번에 발표된 GPT-4o의 경우 수 초가 아닌 거의 1초 이내에 대답을 해줍니다. 이로써 실시간으로 정보를 주고받는 것이 가능해졌습니다.

두 번째로 실시간 번역, 아재 개그 비웃기, 자장가 부르기 등 다양한 언어적 및 문화적 맥락을 실시간으로 이해하고 반응하는 능력도 돋보였습니다. 이러한 기능으로 너무 기계적이지 않고 사람과 대화하는 듯한 느낌을 줄 수 있어서, 기계와 대화하는 것이 아닌 사람과 소통한다는 느낌을 받았습니다.

마지막으로 다양한 정보 인식이 가능해졌습니다. 이번 GPT-4o의 경우 단일 모델에서 텍스트, 이미지, 음성을 통합하여 처음부터 멀티미디어 토큰으로 훈련했다고 합니다. 그로 인해 카메라로 시각 정보를 인식하며, 사용자의 음성 정보를 알아듣고, 입력된 시각 정보와 오디오 정보를 함께 분석하고 해석할 수 있게 되었습니다.

GPT-4o 공식 소개 영상

 

오픈AI GPT-4o 공식 소개문 - https://openai.com/index/hello-gpt-4o/

오픈AI 인스타그램 - https://www.instagram.com/openai/

오픈AI 유튜브 - https://www.youtube.com/@OpenAI

 

1-2) 챗GPT, 클라우드 저장소와 연동

 

 오픈AI는 최근 'GPT-4o' 모델을 통해 챗GPT가 구글 드라이브와 MS 원드라이브의 파일을 직접 불러오고 분석할 수 있는 기능을 추가했습니다. 이 업데이트는 차트와 표 분석에서 우수한 성능을 보이며, 주로 유료 사용자에게 제공될 예정입니다. 사용자는 이제 데스크톱에서 파일을 다운로드하지 않고도 다양한 파일 형식을 직접 챗GPT에 업로드할 수 있습니다. 이 기능을 통해 데이터 분석, 차트 생성 및 통찰력 발견과 같은 고급 데이터 작업을 수행할 수 있습니다. 데이비드 본 칼라일 그룹 부사장은 이 기능이 대규모 데이터 세트를 분석하는 데 효과적이라고 평가했습니다. 이는 특히 문서 작업이 많은 사용자들에게 유용한 도구로 환영받고 있습니다.

 

관련 기사 - 챗GPT, 구글 드라이브·MS 원드라이브서 '파일 불러오기' 추가

 

 

2. Google 관련 소식

2-1) Google I/O 소식

 

 구글은 2024년 5월 14일, 캘리포니아주 마운틴뷰 본사에서 열린 연례 개발자 회의(I/O)에서 다양한 혁신적인 기술과 제품들을 발표했습니다. 이번 발표는 특히 생성 인공지능(AI)과 관련된 최신 기술들을 중심으로 이루어졌습니다. 발표된 제품에는 AI 검색 기능, AI 어시스턴트 '프로젝트 아스트라', 경량화된 '제미나이 1.5 플래시' 모델, 비디오 생성 AI '비오(Veo)', 그리고 'Imogen 3'가 포함되어 있습니다.

  • AI 검색 기능 : 구글은 AI 기반의 검색 생성 경험(Search Generative Experience, SGE)을 통해 검색의 질을 높이고 사용자 만족도를 향상시키고자 합니다. AI 개요는 사용자 질문에 대한 보다 포괄적이고 정확한 답변을 제공하며, 실시간으로 정보를 처리합니다. 특히, 사진을 업로드하여 대화형으로 질문을 받을 수 있는 '애스크 포토(Ask Photo)' 기능이 도입되어 검색 경험을 혁신적으로 개선할 것으로 기대됩니다.
  • Project Astra (프로젝트 아스트라) : 프로젝트 아스트라는 단순한 디지털 비서를 넘어 AI 에이전트로 진화하는 목표를 가지고 있습니다. 이 AI 에이전트는 휴대폰 카메라를 통해 주변 상황을 정확히 파악하고 기억하여 사용자에게 실시간으로 관련 정보를 제공합니다. 올해 후반에 제미나이 앱과 웹을 통해 출시될 예정입니다.
  • Gemini 1.5 Flash (제미나이 1.5 플래시) : 제미나이 1.5 플래시는 기존 제미나이 모델의 경량 버전으로, 다중 모드 추론 능력이 뛰어나며 다양한 형태의 데이터를 처리할 수 있습니다. 특히, 비디오와 오디오 업로드를 통한 추론이 가능하여 대용량 데이터를 효과적으로 분석할 수 있습니다. 또한, 비용 효율적으로 서비스를 제공하며, 최대 200만 토큰의 컨텍스트 창을 지원합니다.
  • 비디오 생성 AI ' Veo(비오)' : '비오'는 구글 딥마인드 연구진이 개발한 최신 동영상 생성 AI 모델로, 60초 이상의 1080p 고품질 동영상을 생성할 수 있습니다. 이 모델은 창의적인 제어 기능과 잠재 확산 변환기(Latent Diffusion Transformers)를 사용하여 사실적이고 일관된 영상을 생성합니다. 비오는 비공개 테스트를 거쳐 유튜브 쇼츠 등 다양한 제품에도 도입될 예정입니다.
  • Imagen 3 (이매진 3) : 이매진 3는 기존 모델보다 향상된 디테일과 사실성을 제공하는 최신 이미지 생성 AI 모델입니다. 프롬프트 이해 능력이 뛰어나고, 다양한 스타일의 이미지를 생성할 수 있습니다. 이매진 3는 텍스트 렌더링 능력 또한 개선되어, 더욱 정확하고 세부적인 이미지를 제공합니다.

 

이번 구글 I/O 발표는 AI 기술의 최전선을 보여주며, 검색, 비서, 이미지 및 동영상 생성 등 다양한 분야에서의 혁신을 강조했습니다. 특히, 마이크로소프트와 오픈AI와의 경쟁에서 앞서기 위한 구글의 노력이 돋보였습니다. 이러한 기술들은 앞으로 사용자 경험을 크게 향상시키고, 다양한 산업 분야에서 활용될 것으로 기대됩니다.

로이터와 블룸버그 등 주요 매체들은 구글의 이번 발표를 긍정적으로 평가하며, AI 기술 발전에 대한 기대감을 나타냈습니다. 구글의 주가는 발표 당일 1%가량 상승하며, 시장의 긍정적인 반응을 반영했습니다.

 

Google I/O 2024 공식 소개 영상


Google 공식 사이트
 - https://io.google/2024/intl/ko/

관련 기사 - 구글의 반격 "AI 검색 전격 도입"...AI 에이전트·비디오 모델도 공개

 

2-2) 장애인 돕는 AI앱 출시

 

 구글은 '세계 접근성 인식의 날'을 맞아 장애인의 접근성을 개선하기 위한 여러 모바일 앱을 출시했습니다. 이중 '룩아웃' 앱은 시각장애인이 주변 환경을 더 잘 이해하고 일상적인 작업을 효율적으로 수행하도록 돕습니다. '룩 투 스피크' 앱은 눈동자 추적을 통해 언어 장애인의 의사소통을 지원합니다. '프로젝트 게임페이스'는 사지마비를 겪는 사람들이 얼굴 표정과 머리 움직임으로 컴퓨터 커서를 제어할 수 있게 합니다. 구글 맵스는 '렌즈' 기능을 통해 시각장애인에게 도보 경로의 상세 음성 안내와 화면 읽기 기능을 제공합니다. 추가적으로, 아우라캐스트 속성을 통해 청각 지원이 필요한 사람들이 더 잘 들을 수 있도록 구글 맵스 프로필에 통합할 수 있습니다. 이러한 도구들은 장애를 가진 사용자가 더 독립적이고 효율적으로 환경을 탐색하도록 설계됐습니다.

 

관련 기사 - 구글, 장애인 돕는 AI앱 출시

 

 

3. 메타, AI 비서 & 이어버드 개발 진행

 메타가 '카메라버드(Camerabuds)'라는 프로젝트를 통해 카메라와 인공지능 비서가 통합된 이어버드를 개발 중입니다. 이 제품은 사용자가 주변 환경을 AI를 통해 매핑하고 정보를 얻을 수 있도록 설계되었습니다. 현재 제품 디자인과 출시 일정은 불확실하며, 마크 저커버그는 아직 최종 디자인에 만족하지 않는 것으로 알려졌습니다. 이어버드 디자인의 승인이 지연되는 이유 중 하나는 카메라와 배터리를 소형 장치에 통합할 때 발생할 수 있는 물리적 제약과 개인 정보 보호 문제입니다. 이 프로젝트는 다양한 AI 기반 웨어러블 기기가 출시되는 추세에 발맞추어 진행되고 있습니다. 메타는 이를 통해 AI 기반 이어폰 시장으로의 확장을 모색하고 있습니다.


관련 기사
 - 메타, AI 비서·카메라 장착한 이어버드 개발 중

 

 

4. 스태빌리티 AI, 매각 논의

 스태빌리티AI, 이미지 생성 AI '스테이블 디퓨전'으로 유명한 회사가 매각을 추진 중입니다. 한때 기업 가치 10억 달러를 인정받으며 유니콘 기업이 되었지만, 오픈 소스 정책과 경쟁 증가로 수익 창출에 실패했습니다. 최근 몇 주간 최소 한 업체와 매각 협상을 진행했으나, 매출 증가에도 불구하고 적자 폭이 커져 재정적 어려움을 겪고 있습니다. 2024년 1분기에는 500만 달러 미만의 매출에 3000만 달러 이상의 손실을 기록했습니다. 이와 같은 경제적 어려움으로 CEO 에마드 모스타크가 투자자와의 갈등 끝에 사임했습니다. 생성 AI 시장의 치열한 경쟁 속에서 매각은 오픈 소스 개발의 도전과 유사한 스타트업의 위험을 부각시키는 사례로 지적됐습니다.


관련 기사
 - 스태빌리티 AI, 자금 부족으로 매각 논의..."오픈 소스의 한계" 지적

 

 


728x90

 

 

 이번 주 오픈AI와 구글은 각각 새로운 AI 음성 비서를 공개하며 큰 주목을 받았습니다. 두 회사의 AI 비서는 매우 다른 특성과 접근 방식을 선보였습니다. 오픈AI의 GPT-4o는 인간적이고 감성적인 특징을 강조하여, 사용자와의 자연스러운 대화와 빠른 반응 속도를 자랑합니다. 그리고 다양한 감정 표현과 목소리 톤을 사용하며, 심지어 노래도 부를 수 있습니다.

반면, 구글의 'Astra'는 더 사무적인 목소리와 신중한 접근을 특징으로 합니다. 구글은 AI의 의인화에 경계하며, AI가 인간을 설득하는 능력에 대한 연구도 발표했습니다. 구글은 'Astra'가 복잡하고 역동적인 세계를 이해하고 대응하는 능력을 강조했습니다. 'Astra'는 올해 하반기에 출시될 예정이며, 인공일반지능(AGI)으로의 전환을 목표로 하고 있습니다.

앞으로 이 AI 비서들은 전문 지식 제공, 길 안내, 통역, 메일 및 뉴스 정리, 쇼핑, 스케줄 관리 등 다양한 역할을 수행할 것으로 기대됩니다. AI가 우리의 삶을 더 편리하고 효율적으로 만들어 줄 것임이 확실해 보입니다. 이러한 발전은 개인뿐만 아니라 기업의 생산성 향상에도 크게 기여할 것으로 보입니다.