메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 AI영상 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
IT/과학>IT/인터넷

애플, 깜짝 AI 성과 공개…"MM1, 일부 능력 GPT-4V 추월"

애플이 공개한 LMM 논문 속 MM1이 이미지를 읽고 응답하는 모습. /arXiv

그동안 인공지능(AI) 경쟁에서 다소 뒤쳐진 것으로 평가 받았던 애플이 매개변수 300억 개의 대형멀티모달(LMM)을 공개했다.

 

17일 애플 연구진이 LMM 'MM1'을 미국 코넬대학교 논문 저장 사이트 '아카이브(arXiv)'를 통해 공개했다. MM1은 이미지를 읽고 자연어로 설명하는 능력이 탁월해 특정 영역에서 오픈AI 'GPT-4V'와 구글 '제미나이 울트라'를 추월했다.

 

LMM은 Large Multi-Model로 큰 규모의 데이터셋을 다루는 여러 인공지능 모델을 통합 사용하는 접근방식을 뜻한다. 복잡한 패턴과 관계 파악에 능하고 여러 개별 모델의 예측을 종합하거나 서로 다른 종류의 데이터를 처리하는 데 쓴다. AI 시스템의 정확도와 범용성 향상에 도움을 준다.

 

연구진은 논물을 통해 "고성능 LMM 구축을 위해 다양한 아키텍처의 구성과 학습용 데이터셋 선별에 관해 집중 실험했으며 이를 통해 사전 훈련으로 SOTA(현 최고 수준)를 기록한 각 상황별 여러 모델을 만들었다"고 밝혔다.

 

이어 "이미지 언코더와 비전-언어 커넥터, 사전훈련 데이터 채택 및 선택을 이어가며 비전 언어 커넥터 설계는 이미지 해상도와 이미지 토큰 수, 인코더 선택에 비해 중요도가 떨어짐을 발견했다"며 "이미지 설명, 인터리브 이미지 텍스트 및 텍스트 전용 데이터 혼합도 벤치마크 영역에서 최고 성능을 이루는 데에 주요한 역할을 했다"고 밝혔다.

 

연구진은 매개변수 30억 개(3B)와 70억 개(7B), 300억 개(30B) 등 여러 제품군을 구성했으며 특히 MM1 3B와 7B 모델은 벤치마크에서 동급 라바(LLaVA)와 제미나이 나노, 큐원, GPT-4 멀티모달 성능을 앞질렀다고 주장했다.

 

업계에서는 아카이브 논문 등재와 실제 상용화를 결부 시키는 데에 경계하고 있으나 애플이 AI 경쟁 시장에서 완전히 손을 놓은 것만은 아니라는 것을 알렸다는 데 의의가 있다고 평가하고 있다.

 

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr