
프랑소와 쇼레라는 주목받는 AI 연구자로부터 공동 설립된 비영리 단체 인 Arc Prize Foundation은 월요일에 블로그 게시물에서 주요 AI 모델의 일반적 지능을 측정하는 새로운 도전적인 테스트를 만들었음을 발표했습니다.
지금까지 ARC-AGI-2라고 불리는 새로운 테스트는 대부분의 모델을 혼란스럽게 만들었습니다.
기존 OpenAI의 o1-pro 및 DeepSeek의 R1과 같은 'reasoning' AI 모델은 Arc Prize 리더 보드에 따르면 ARC-AGI-2에서 1% ~ 1.3%를 기록했습니다. 같은 시기 강력한 비-추론 모델인 GPT-4.5, Claude 3.7 Sonnet 및 Gemini 2.0 Flash는 대략 1%를 기록했습니다.
ARC-AGI 테스트는 AI가 서로 다른 색깔의 정사각형 모음에서 시각적 패턴을 식별하고 올바른 '답' 그리드를 생성해야 하는 퍼즐과 같은 문제들로 구성되어 있습니다. 이 문제들은 AI가 이전에 본 적이 없는 새로운 문제에 적응하도록 설계되었습니다.
Arc Prize Foundation은 인간 기준선을 설정하기 위해 400명 이상의 사람들이 ARC-AGI-2를 수행했습니다. 이들의 '패널'은 테스트의 문제 중 60%에 답을 맞추었으며, 어느 모델의 점수보다 훨씬 뛰어났습니다.

X에 게시된 글에서 쇼레라는 ARC-AGI-2가 모델의 실제 지능을 더 잘 측정하는 것이라고 주장했습니다. Arc Prize Foundation의 테스트는 AI 시스템이 훈련된 데이터 외부에서 새로운 기술을 효율적으로 습득할 수 있는지를 평가하는 것을 목표로 하고 있습니다.
쇼레라는 ARC-AGI-1과 달리 새로운 테스트가 AI 모델이 '난해한 힘' - 강력한 컴퓨팅 파워 -을 사용해서 해결책을 찾지 못하도록 방지한다고 말했습니다. 쇼레라는 이전에 이것이 ARC-AGI-1의 주요 결점이었다고 인정했습니다.
첫 번째 테스트의 결함을 해결하기 위해 ARC-AGI-2는 새로운 측정 항목, '효율성'을 소개했습니다. 또한 모델들이 기억하는 것에 의존하는 대신 즉석에서 패턴을 해석하도록 요구합니다.
Arc Prize Foundation의 공동 창립자 그렉 카므랏은 블로그 게시물에서 '지성'은 문제를 해결하거나 높은 점수를 획득하는 능력만으로 정의되는 것이 아니라, 그 능력들을 습득하고 전개하는 효율성이 중요한 결정적인 요소라고 쓰고 있습니다. 핵심적인 질문은 'AI가 작업을 해결할 수 있는 기술을 습득할 수 있는가?'뿐만 아니라 '그 효율성이나 비용은 무엇인가?'입니다.
ARC-AGI-1은 2024년 12월까지 약 5년간 무패였으나, OpenAI가 o3라는 고급 추론 모델을 출시하면서 이전의 모든 AI 모델을 능가하고 평가에서 인간의 성과와 맞먹게 성과를 내렸습니다. 그러나 당시 우리가 지적한 바와 같이, o3의 ARC-AGI-1에서의 성능 향상은 높은 가격을 치뤄야 했습니다.
ARC-AGI-1에서 새로운 높이를 찍은 OpenAI의 o3 모델 버전인 o3 (low)은 75.7%의 점수를 기록했지만, 각 작업당 200달러의 컴퓨팅 파워를 사용하여 ARC-AGI-2에서는 4%를 얻었습니다.

ARC-AGI-2의 등장은 기술 산업에서 많은 사람들이 AI 진보를 측정하는 새로운, 포화되지 않은 기준을 요구하는 가운데 발생하였습니다. Hugging Face의 공동 창립자 인 토마스 울프는 최근 TechCrunch에게 AI 산업이 창의성을 포함한 이른바 인공 일반 지능의 주요 특성을 측정할만한 충분한 테스트가 부족하다고 말했습니다.
새로운 벤치마크와 함께, Arc Prize Foundation은 개발자들을 ARC-AGI-2 테스트에서 85%의 정확도를 달성하도록 도전하면서 각 작업당 0.42달러 이하로만 지출하는 2025 Arc Prize 대회를 발표했습니다.