인간 수준의 OpenAI o3, AGI 논쟁 촉발

2024-12-24 06:11

인간 수준의 OpenAI o3, AGI 논쟁 촉발 — 출처: 언블록 미디어

OpenAI o3 모델, human-level AI 벤치마크에서 87.5% 기록
artificial general intelligence (AGI) 달성 여부 논

[Unblock Media] OpenAI의 최신 AI 모델인 o3 모델은 "사람처럼 생각" 벤치마크에서 전례 없는 87.5%를 기록하며 artificial general intelligence(AGI, 인공지능 일반 지능)에 대한 격렬한 논란을 불러일으켰다. 이는 Autonomous Research Collaborative Artificial General Intelligence(ARC-AGI) 벤치마크에서 얻은 점수로, 인간 수준에 거의 도달한 것으로 평가된다.

샌프란시스코에 본사를 둔 AI 연구 회사 OpenAI는 "12 days of OpenAI" 캠페인의 일환으로 o3와 o3-mini를 발표했고, 이는 Google의 o1 경쟁 모델 발표 후 인공지능에 대해 더 높은 수준의 목표에 도달했음을 시사한다. o3 모델은 다른 대형 언어 모델들처럼 패턴 일치에 의존하지 않고 "프로그램 합성" 접근 방식을 사용하여 문제 해결 시 새로운 알고리즘을 생성해 적용할 수 있도록 설계되었다.

ARC 프라이즈 공동 설립자인 프랑수아 숄렛은 블로그 게시물을 통해 "o3가 이전에 접해보지 않은 과제에 적응할 수 있는 시스템으로, ARC-AGI 영역에서 인간 수준의 성능에 근접하고 있다"고 평가했다. ARC 프라이즈는 인간의 평균 성과 점수가 73.3%에서 77.2% 사이였다고 밝혔다. 그러나 숄렛은 "ARC-AGI 통과가 AGI 달성과 동일하지 않으며, 사실 저는 o3가 아직 AGI라고 생각하지 않는다"고 말하며, 새로운 ARC-AGI-2 벤치마크가 기존의 한계를 보완하고 있으며 이 벤치마크는 o3 모델의 성능을 30% 이하로 낮출 가능성이 있다고 덧붙였다.

즉, 인간이 훈련 없이도 95% 이상의 점수를 받을 수 있는 새로운 테스트가 도입됨에 따라 모델의 성능을 보다 정확하게 평가할 수 있을 것으로 예상된다. 몇몇 전문가들은 ARC-AGI 벤치마크 테스트 자체가 모델이 실제로 인간 수준의 문제 해결 능력에 접근하는지 여부를 측정하는 데 가장 좋은 지표인지에 대해 이의를 제기했다. 이는 이제까지의 벤치마크 테스트가 모델의 진정한 추론 능력을 반영하지 못할 수 있기 때문이다.

한편, OpenAI의 연구원 바히디 카제미는 "이것이 AGI다"라고 주장하며, "제 의견으로는 우리는 이미 AGI를 달성했다"고 말했다. 이러한 주장과 반박을 통해 AGI의 기준이 무엇인지에 대한 논의가 활발히 진행되고 있다. 그러나 OpenAI의 CEO 샘 알트맨은 AGI 달성 여부에 대해 명확한 입장을 내놓지 않고 있으며, "o3는 매우 스마트한 모델"이라고 표현했다. 스마트함이 AGI 달성의 충분조건이 될 수 없으며, 따라서 AI의 다음 단계를 주목할 필요가 있다고 밝혔다.

기사 정보

카테고리

기술

발행일

2024-12-24 06:11

NFT ID

148

뉴스 NFT 상세

#, 더 알고 싶다면Techa와 이야기를 나눠보세요!