로고

“보고 듣고 말한다, 사람처럼”…오픈AI, GPT-4o 공개

최중호 | 기사입력 2024/05/14 [20:29]

“보고 듣고 말한다, 사람처럼”…오픈AI, GPT-4o 공개

최중호 | 입력 : 2024/05/14 [20:29]

▲ “보고 듣고 말한다, 사람처럼”…오픈AI, GPT-4o 공개  © 장애인인식개선신문

 

(서울 = 장애인인식개선신문) 미라 무라티 오픈AI 최고기술책임자(CTO)는 13일(현지시간) 오전 10시 라이브 행사를 통해 ‘GPT-4o’라는 새로운 AI 모델을 선보였다. GPT-4o는 기존 GPT-4에 모든 것을 뜻하는 ‘옴니(omni)’를 붙여 명명했다.

 

텍스트를 통해 대화했던 기존 모델과 달리 실시간 음성 대화를 통해 질문, 답변을 요청할 수 있다. 실시간 번역 기능도 담겼다. 텍스트는 물론 청각과 시각으로도 추론하고 말할 수 있다.

 

GPT-4o는 이용자의 질문에 즉각적으로 대답이 가능하다. 응답 시간은 최소 232밀리초, 평균 320밀리초다. 이전 모델인 GPT-3.5가 평균 2.8초, GPT-4가 5.4초 걸렸던 것에 비하면 획기적으로 시간이 단축됐다.

 

이날 시연에서는 GPT-4o가 발화자의 모습을 인지, 실시간으로 소통하는 모습이 강조됐다. 한 시연자가 “내가 좀 긴장한 상태인데 어떻게 진정할 수 있을까”라고 GPT-4o에게 묻자 “심호흡을 하라”는 응답이 돌아왔다. 이어 시연자가 거칠게 숨을 내쉬자 “천천히요, 당신은 진공청소기가 아니에요. 전문가라는 것을 잊지 마세요”라고 답했다. 천천히 숨을 들이쉬자 “그거에요”라고 말했다.

 

종이에 적힌 수학문제를 보여주자 답을 내놓는 것에 그치지 않았다. 사람이 풀어가는 모습을 보며 ‘조언’을 하기도 했다. GPT-4o는 실시간으로 사람의 풀이 과정을 영상으로 보며 호응했다.

 

오픈AI는 GPT-4o가 기존 GPT-4터보보다 2배 더 빠르고 비용은 절반 수준이라고 설명했다. 한국어를 포함해 50개 언어에 대한 품질과 속도도 향상됐다고 밝혔다. 무료로 제공되지만 기존 유료 구독자는 무료 이용자보다 5배 많은 질문을 할 수 있다. AI 음성 모드는 추후 공개 예정이다.

  • 도배방지 이미지