딥시크-R1 모델을 사용해본 사람들은 답을 내리기 전의 사고 과정을 낯설어하지 않는데, 이것이 바로 딥시크-R1을 포함한 대규모 추론 모델(LRM)이 높은 평가를 받는 이유 중 하나라고 생각해요. 추론 모델)이 높은 평가를 받는 이유입니다.
그러나 6명의 Apple 연구원들로 구성된 연구팀은 이에 의문을 제기했습니다. 연구팀은 다양한 퍼즐을 풀게 한 결과, 최첨단 대규모 추론 모델인 딥시크-R1, o3-mini, 클로드-3.7-소네트-씽킹이 특정 복잡도 임계값을 초과하면 정확도가 완전히 무너진다는 사실을 발견했습니다.

그림 | 관련 논문(출처: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf)< /p>
애플의 머신러닝 연구 수석 디렉터인 새미 벤지오가 이 논문의 공저자라는 점에 주목할 필요가 있습니다. 그는 튜링상 수상자인 조슈아 벤지오의 동생일 뿐만 아니라 구글 브레인 팀의 첫 번째 멤버 중 한 명이기도 합니다.

그림 | 문제의 논문의 저자 6명, 오른쪽에서 두 번째가 새미 벤지오(출처: 출처)
X의 한 사용자는 애플이 게리 마커스처럼 행동하고 있다고 요약했고, 실제로 게리 마커스 자신도 콜링우드에 올린 게시물에서 애플의 논문을 긍정했습니다. 그는 "대규모 언어 모델에서 '추론'의 힘에 관한 Apple의 최신 논문은 매우 강력합니다. 사람들이 너무 놀라지 말아야 하는 이유를 보여주기 위해 주말에 올린 긴 글에서 그 이유를 설명하고 한 가지 가능한 반대의견을 살펴봤습니다."
게리 마커스의 "주말 장문의 에세이"에서그는 이렇게 씁니다: "이 새로운 Apple 논문은 소위 '추론 모델'의 최신 개발이 o1 버전 이상으로 반복되었음에도 불구하고 내 자신의 비판을 더욱 뒷받침합니다. 버전 이상으로 발전했지만, 여전히 하누카와 같은 고전적인 문제에 대해 분포에서 벗어난 신뢰할 수 있는 추론을 달성하지 못한다는 비판을 뒷받침합니다. '추론 능력' 또는 '추론 시간 계산'이 대규모 언어 모델을 다시 정상 궤도에 올려놓고, 단지 확장만 거듭할 뿐 실패를 거듭하는(그리고 'GPT-5'에 걸맞은 결과물을 만들어 내지 못하는) 방식에서 벗어나기를 바랐던 사람들은 'GPT-5' 모델을 살펴볼 필요가 있습니다. 'GPT-5'라는 이름), 이는 분명 연구자들에게 나쁜 소식입니다."

사진 | 게리 마커스의 개인 웹사이트에 게시된 "주말 긴 에세이"(출처: https://garymarcus.substack. com/p/a-knockout-blow-for-llms)
이것이 나쁜 소식인가요? 그렇다면 이것은 "나쁜 소식"일까요, 아니면 "좋은 소식"일까요? Apple의 논문의 세부 사항부터 살펴볼까요?
최대 100개의 올바른 동작을 수행할 수 있지만 5단계 이상은 올바르게 수행할 수 없음
이 연구에서 현재 Apple의 연구팀은 세 가지 추론 모델을 발견했습니다. 낮은 복잡성 과제에서는 표준 대형 언어 모델이 대형 추론 모델보다 성능이 뛰어났고, 중간 복잡성 과제에서는 대형 추론 모델이 더 나은 성능을 보였으며, 높은 복잡성 과제에서는 두 유형의 모델 모두 작업을 효과적으로 완료할 수 없었습니다.
문제가 임계 복잡도에 가까워지면 추론에 필요한 노력이 오히려 반직관적으로 감소하는 것으로 나타났는데, 이는 대규모 추론 모델의 계산 크기가 본질적으로 상한이 있습니다.
연구팀은 이러한 통찰력이 대규모 추론 모델의 능력에 대한 일반적인 가정에 도전하며 현재 접근 방식에서 일반화 가능한 추론에 근본적인 장벽이 있을 수 있음을 시사한다고 말합니다.
연구팀은 특히 대규모 추론 모델이 정확한 계산을 수행하는 방식에서 한계를 발견했습니다. 예를 들어, 모델에 수학 퍼즐 게임인 한누카를 푸는 알고리즘을 제공했을 때 이 문제에 대한 추론 모델의 성능이 향상되지 않았습니다.
또한 모델이 처음 놓친 단계를 심층적으로 분석하면 놀라운 행동 패턴을 발견할 수 있습니다. 예를 들어, 이 모델은 한노의 탑에서 최대 100개의 올바른 행동을 수행할 수 있지만 논리적 추론 게임인 리버 크로싱 퍼즐에서는 5개 이상의 올바른 단계를 제시하지 못했습니다.
연구팀은 전반적으로 이 논문이 기존 대규모 추론 모델의 강점과 한계를 모두 강조하며 다음과 같은 5가지 주요 결과를 도출했다고 생각합니다."
첫째, 연구팀은 기존의 수학적 벤치마크로 대규모 추론 모델을 평가하는 현재의 패러다임에 의문을 제기하고 알고리즘 퍼즐 환경을 사용하여 통제된 실험 테스트베드를 설계했습니다.
둘째, 연구팀의 실험에 따르면 최첨단 대규모 추론 모델(예: o3-mini, DeepSeek-R1, Claude-3.7-. 소네트-씽킹) 역시 여전히 일반화할 수 있는 문제 해결 능력을 개발하지 못하고 있습니다. 다양한 환경에서 문제 복잡도가 특정 임계값을 초과하면 결국 정확도가 0으로 떨어집니다.
세 번째로, 연구팀은 특정 복잡성 지점에 도달하면 사고력이 저하된다는 사실에서 알 수 있듯이 대규모 추론 모델은 문제 복잡성과 관련된 추론 능력에 확장 한계가 있다는 것을 발견했습니다. 이는 특정 복잡도 지점에 도달한 후 토큰 수가 반직관적으로 감소하는 경향을 통해 확인할 수 있습니다.
넷째, 연구팀은 문제의 복잡도가 높아질수록 정답이 오답에 비해 추론 과정에서 더 후방에 나타난다는 분석을 통해 최종 정확도를 기준으로 하는 현재의 평가 패러다임에 의문을 제기했습니다. 더 후방에 위치합니다.
다섯째, 연구팀은 대규모 추론 모델이 명시적인 알고리즘의 혜택을 받지 못하고 퍼즐 유형에 따라 추론이 일관되지 않는 등 정확한 계산을 수행하는 능력에 현격한 한계를 드러냈습니다. 추론의 불일치 등이 있습니다.
대규모 추론 모델은 자가 수정 능력이 제한적입니다
대규모 추론 모델은 -- 은 추론 작업에 특별히 최적화된 대규모 언어 모델에서 파생된 새로운 변형입니다.
이 모델은 새로운 유형의 기술의 산물이며, 핵심 기능은 자기 반성적 사고 사슬(생각의 사슬)과 같은 독특한 '사고' 메커니즘입니다. 자기 반성적 사고 체인(CoT)은 여러 추론 벤치마크에서 뛰어난 성능을 입증했습니다.
이러한 모델의 출현은 대규모 언어 모델이 복잡한 추론과 문제 해결을 처리하는 방식에 패러다임 전환의 가능성을 시사합니다. 일부 연구자들은 이것이 보다 일반적인 AI 기능으로 나아가는 중요한 단계라고 생각합니다.
이러한 관점과 성능의 발전에도 불구하고 대규모 추론 모델의 근본적인 강점과 한계는 아직 완전히 이해되지 않았습니다. 아직 답하지 못한 핵심 질문은 이러한 대규모 추론 모델이 일반화된 추론을 할 수 있는가 하는 것입니다. 아니면 단순히 다른 형태의 패턴 매칭을 활용하는 것일까요?
문제의 복잡성이 증가함에 따라 그 성능은 어떻게 변할까요? 토큰에 대한 추론에 동일한 계산 예산이 주어진다면, '생각' 메커니즘이 없는 표준 빅 언어 모델과 어떻게 비교될까요?
가장 중요한 것은 현재 추론 접근 방식의 내재적 한계는 무엇인가요? 보다 강력한 추론을 달성하기 위해 어떤 개선이 필요할까요?
연구팀은 현재 평가 패러다임의 한계로 인해 이러한 문제에 대한 체계적인 분석이 부족하다고 생각합니다. 기존 평가는 주로 기존의 수학 및 코딩 벤치마크에 초점을 맞추고 있습니다. 이러한 벤치마크는 어느 정도 가치가 있지만, 데이터 오염으로 인해 어려움을 겪는 경우가 많고 다양한 시나리오와 복잡성에 대한 통제된 실험 조건을 제공하지 않습니다.
팀은 이러한 모델의 추론 동작을 보다 엄격하게 이해하기 위해 통제된 실험이 가능한 환경이 필요하다고 생각했습니다.
이런 이유로 수학 퍼즐과 같은 표준 벤치마크를 사용하는 대신 핵심 로직을 유지하면서 퍼즐의 요소를 조정하는 방식으로 제어된 퍼즐 환경을 사용하여 다음과 같은 목적을 달성했습니다. 복잡성을 체계적으로 변화시키고 해결 과정과 내적 추론 과정을 살펴볼 수 있도록 했습니다.

(출처: 출처)
이 퍼즐은 다음과 같은 특징을 가지고 있습니다.
(1) 복잡도를 세밀하게 제어할 수 있습니다.
(2) 복잡도를 세밀하게 제어할 수 있습니다.
(2) 기존 벤치마크에서 흔히 발생하는 오염 방지;
(3) 명시적으로 주어진 규칙에만 의존하고 알고리즘 추론 기능을 강조하고,
(4) 엄격한 시뮬레이터 기반 평가를 지원하여 정확한 솔루션 확인과 상세한 결함 분석을 가능하게 합니다.
경험적 연구를 통해 현재의 대규모 추론 모델에 대한 몇 가지 주요 결과를 밝혀냈습니다.
첫째, 대규모 추론 모델은 강화 학습을 통해 복잡한 자기 반영 메커니즘을 학습할 수 있지만, 특정 복잡도 임계값을 초과하면 성능이 0으로 떨어지면서 계획 작업에 대한 일반화 가능한 문제 해결 능력을 개발하지 못합니다.
두 번째로, 연구팀은 동등한 추론 연산에서 대규모 추론 모델과 표준 대규모 모델을 비교한 결과 세 가지 추론 메커니즘을 발견했습니다.
첫 번째 메커니즘은 표준 대형 모델이 더 단순하고 덜 조합적인 문제에 대해 더 높은 효율성과 정확성을 보인다는 것입니다.
두 번째 메커니즘은 문제의 복잡성이 적당히 증가할수록 대규모 추론 모델이 유리하다는 것입니다.
세 번째 메커니즘은 조합 깊이가 증가함에 따라 문제가 더 복잡해지면 두 유형의 모델 모두 성능 충돌을 경험한다는 것입니다.

(출처: 출처)
한 가지 주목할 만한 것은 이 실패 임계값에 가까울수록 이 실패 임계값에 가까워지면 대규모 추론 모델이 생성 길이 제한에 훨씬 못 미치지만, 문제의 복잡성이 증가함에 따라 추론 입력(추론 시점의 토큰 수로 측정)이 줄어들기 시작합니다.

(출처: 출처)
대규모 추론 모델의 추론 능력에 근본적인 차이가 있음을 시사합니다. 의 추론 능력에는 근본적인 한계가 있으며, 문제의 복잡성이 커질수록 추론 시간이 크게 증가합니다.
또한 연구팀은 중간 추론 궤적을 분석하여 문제 복잡도와 관련된 규칙성, 즉 더 간단한 문제에서 추론 모델이 빠르게 찾는 경향이 있다는 것을 발견했습니다. 에러 해결 방법하지만 비효율적으로 잘못된 옵션을 계속 탐색하게 되며, 이러한 현상을 흔히 '과잉 사고'라고 합니다.
중간 정도의 복잡도를 가진 문제에서는 모델이 올바른 해법을 찾기 전에 많은 수의 잘못된 경로를 광범위하게 탐색해야 합니다. 그리고 특정 복잡도 임계값을 넘어서면 모델은 올바른 해를 완전히 찾을 수 없습니다.
베이징우정통신대학의 바이팅 부교수는 딥테크에 인간의 사고방식과 유사하게 복잡한 문제의 경우 정답이 무엇인지 알 수 없지만, 정답이 아닌 것은 매우 자주 알 수 있다고 말했습니다. 구체적으로 이것은 솔루션 공간의 크기와 관련이 있으며, 단쇄의 논리로 인한 간단한 문제의 솔루션 공간은 특징 일치도가 높고 정답이 자연스럽게 사고 경로의 앞쪽에있는 반면, 중첩의 논리적 수준의 결합과 지수 확장의 표현에 관련된 다차원 변수로 인해 복잡한 문제의 솔루션 공간은 솔루션 공간이 거대하고 객관적으로 상대 후 순위의 사고 순서로 나타납니다.
추론 모델의 '마음' 안에서는 어떤 일이 일어날까요?
연구에 사용된 대부분의 실험은 추론 모델과 그에 상응하는 비추론 모델인 Claude 3.7 Sonnet(추론/비추론) 및 DeepSeek-R1/V3에서 수행되었습니다. 연구팀이 이러한 모델을 선택한 이유는 OpenAI의 o-시리즈와 같은 광범위한 추론 모델에 접근할 수 있기 때문입니다. 이러한 모델을 선택한 이유는 o-시리즈와 같은 OpenAI 모델과 달리 사고 토큰에 대한 액세스가 가능하기 때문입니다.
팀은 각 퍼즐 인스턴스에 대해 25개의 샘플을 생성하고 각 모델의 평균 성능을 보고했습니다.
추론 모델의 사고 과정을 더 깊이 이해하기 위해 연구팀은 추론 흔적을 면밀히 분석했습니다.
이 과정에서 퍼즐 실험 환경을 구축하여 추론 모델이 생성하는 추론 궤적(즉, '사고 과정'을 보다 세밀하게 관찰하고 분석함으로써 모델의 최종 답을 넘어 더 심층적인 분석을 수행할 수 있었습니다.
특히, 연구팀은 퍼즐 시뮬레이터를 사용하여 모델의 사고 과정에서 탐색된 중간 해결책을 추출하고 분석했습니다.
그런 다음 연구진은 이러한 중간 해법의 패턴과 특징, 추론 과정의 순차적 위치에 대한 정확성, 문제의 복잡성이 증가함에 따라 이러한 패턴이 어떻게 진화하는지를 조사했습니다.
이 분석을 위해 연구팀은 퍼즐 세트 실험에서 클로드 3.7 소네트 추론 모델이 생성한 추론 흔적에 초점을 맞췄습니다.
추적에서 확인된 각 중간 해법에 대해 연구팀은 (1) 추론 궤적에서의 상대적 위치(총 사고 길이로 정규화), (2) 팀의 퍼즐 시뮬레이터로 확인된 정확성, (3) 해당 문제의 복잡도를 기록했습니다.
이를 통해 연구팀은 추론 과정 전반에서 솔루션 형성의 진행 상황과 정확성을 특성화할 수 있었습니다.

연구팀은 간단한 문제의 경우 추론 모델은 일반적으로 사고 초기에 올바른 해결책을 찾지만 이후 잘못된 해결책으로 넘어간다는 것을 발견했습니다.
정답(녹색)에 비해 잘못된 해법(빨간색)의 분포가 사고 사슬의 끝으로 갈수록 크게 이동하는 것으로 나타났습니다. 문제의 복잡성이 점차 증가함에 따라 이러한 경향은 역전되어 모델은 잘못된 해답을 먼저 탐색하고 대부분 사고의 후반부에 올바른 해답에 도달합니다. 이번에는 잘못된 해법(빨간색)의 분포가 올바른 해법(녹색)에 비해 훨씬 더 아래로 이동합니다.
마지막으로, 복잡도가 높은 문제의 경우 모델이 고장 나기 시작하여 사고 과정에서 올바른 솔루션을 생성할 수 없게 됩니다.
다음 그림은 하노버 타워 환경에서 사고 시퀀스의 세그먼트(구간) 내 솔루션의 정확도를 보완적으로 분석한 결과입니다.

더 간단한 문제(N-값이 작은)의 경우 사고가 진행될수록 솔루션의 정확도가 감소하거나 변동하는 경향이 있음을 관찰할 수 있으며, 이는 오버씽킹을 제공합니다. 현상은 과잉 사고의 또 다른 증거를 제공합니다.
그러나 더 복잡한 문제에서는 이러한 경향이 바뀌어 특정 임계값에 도달할 때까지 사고가 진행됨에 따라 솔루션의 정확도가 증가합니다. 이 복잡도 임계값을 초과하는 '크래시 모드'에서는 모델의 정확도가 0이 됩니다.
Ting Bai는 복잡한 문제에서 모델이 여러 번 추론해야 하며, 항상 올바른 해답이 없는 경우 모델의 추론 메커니즘이 여러 번의 반복을 통해 효율성을 최적화하는 전략을 생성하거나 너무 많은 반복을 방지하는 리소스 보존 전략을 사용할 수 있다고 DeepTech에 설명했습니다. 따라서 이 논문의 결과는 모델 구현 수준에서 신중하게 분석하고 검증할 필요가 있습니다.
Baiting은 대규모 모델의 추론 프로세스가 본질적으로 메모리 패턴의 호출일 가능성도 있다고 지적했습니다. DeepSeek-R1 및 o3-mini와 같은 모델의 경우, 그 성능은 학습 데이터의 메모리 패턴 커버리지에 크게 의존하며, 문제의 복잡성이 메모리 패턴의 커버리지 임계값을 돌파하면(이번에 Apple 연구팀이 설계한 제어 퍼즐 환경의 경우처럼) 모델은 "정확도 제로" 상태에 빠지게 됩니다.
현재의 퍼즐 환경에서는 문제 복잡도를 세밀하게 제어할 수 있는 통제된 실험이 가능하지만, 이는 추론 작업의 극히 일부분에 불과하며 실제 세계 또는 지식 집약적인 추론 문제의 다양성을 포착하지 못할 수 있습니다.
이 연구는 주로 폐쇄적인 최첨단 빅 추론 모델에 대한 블랙박스 API 액세스에 기반하고 있어 연구팀이 내부 상태나 아키텍처 구성 요소를 분석하지 못했다는 한계가 있다는 점에 유의할 필요가 있습니다.
또한 연구팀은 결정론적 퍼즐 시뮬레이터를 사용할 때 추론을 단계별로 완벽하게 검증할 수 있다고 가정했습니다. 그러나 덜 구조화된 영역에서는 이러한 정밀한 검증이 어려울 수 있으므로 이러한 분석적 접근 방식을 더 광범위한 추론 시나리오로 마이그레이션하는 데 한계가 있을 수 있습니다.
전반적으로 연구팀은 통제된 퍼즐 풀이 환경을 통해 문제 복잡성의 관점에서 최첨단 대규모 추론 모델을 조사했습니다. 이 결과는 정교한 자기반성 메커니즘에도 불구하고 특정 복잡도 임계값을 넘어서는 일반화 가능한 추론 능력을 개발하지 못한다는 기존 모델의 한계를 드러냈습니다. 연구팀은 이번 연구 결과가 이러한 모델의 추론 능력을 연구하는 데 길을 열어줄 수 있을 것으로 기대하고 있습니다.