AI에서 가장 악명 높은 버그는 무엇인가요? 코드 충돌이 아니라 "일루젼" - 사실과 허구를 구분할 수 없도록 자신 있게 사실을 구성하는 모델입니다. 이 근본적인 문제는 우리가 AI를 완전히 신뢰하지 못하게 하는 주요 장애물입니다.
빅 모델이 환각적일 수 있다는 것은 거의 상식이며, 빅 모델을 진지하게 사용하는 모든 사람이 경계해야 할 부분입니다." 라고 OpenAI도 언급했습니다. ChatGPT도 환각을 일으킵니다. 특히 추론을 수행할 때 환각이 현저히 줄어들었지만 여전히 환각이 발생합니다. 환각은 모든 대규모 언어 모델에서 근본적인 과제로 남아 있습니다."
학계에서는 모델 환각을 줄이기 위한 다양한 방법을 제안했지만 아직까지 이를 치료할 수 있는 방법은 없습니다.
왜 대형 모델은 환각을 일으킬까요? 오늘 OpenAI는 환각의 근원을 체계적으로 밝혀낸 희귀한 논문을 발표했습니다.
먼저 OpenAI는 환각을 "모델이 사실이 아닌 답을 자신 있게 생성하는 상황"이라고 간단히 정의합니다.
그 이유는 간단히 다음과 같습니다.표준 트레이닝 및 평가 절차는 모델이 불확실성을 인정할 만큼 용감할 때 보상하는 것보다 추측에 보상하는 경향이 더 강하기 때문입니다.

논문 제목: 왜 언어 모델이 환각을 일으키는가
논문 제목: 왜 언어 모델이 환각을 일으키는가
논문 주소: https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why- language-models-hallucinate.pdf
오픈AI가 실제로 발견한 내용을 자세히 살펴보세요.
환상이란 무엇일까요?
환각은 언어 모델에 의해 생성된 합리적으로 보이지만 잘못된 진술입니다.
단순해 보이는 질문도 예상치 못한 방식으로 나타날 수 있습니다. openAI는 널리 사용되는 다른 챗봇에게 아담에 대해 질문할 때 이에 대한 예를 제시합니다. (논문 제1저자)에게 박사 학위 논문 제목이 무엇인지 물었을 때, 챗봇은 자신 있게 세 가지 다른 답변을 내놓았지만 모두 정답이 아니었습니다.

생일을 물었을 때 세 개의 다른 날짜를 알려주었는데, 이 역시 모두 틀렸습니다.

시험 공부
OpenAI는 환각이 지속된다고 말합니다. 부분적으로는 현재의 평가 방식이 잘못된 인센티브를 설정하고 있기 때문이라고 합니다. 평가 자체가 환멸로 직결되지는 않지만, 모델 성과를 평가하는 대부분의 접근 방식은 모델이 불확실성을 정직하게 직면하기보다는 추측하도록 장려합니다.
선다형 시험으로 생각할 수 있습니다. 정답을 모르지만 무작위로 추측하면 운이 좋으면 정답을 맞힐 수도 있습니다. 공란으로 남겨두면 0점을 받을 확률이 높습니다. 마찬가지로 정확도(즉, 질문에 완전히 정답을 맞힌 비율)만으로 점수를 매길 때는 '모르겠다'고 인정하기보다는 추측을 하도록 권장합니다.
다른 예를 들어 언어 모델이 누군가의 생일에 대해 질문을 받았지만 모른다고 가정해 보겠습니다. "9월 10일"이라고 추측하면 1/365의 확률로 맞출 수 있습니다. "모르겠다"라고 답하면 0을 받을 수밖에 없습니다. 수천 개의 테스트 문제에서 추측 모델은 신중하고 불확실성을 인정하는 모델보다 점수판에서 더 나은 성적을 거두었습니다.
'정답'이 하나만 있는 문제의 경우 정답, 오답, 기권 답의 세 가지 유형을 고려할 수 있는데, 모델이 추측의 위험을 원하지 않는 경우 기권 답으로 처리합니다.
오픈AI는 답변을 기권하는 것이 OpenAI의 핵심 가치 중 하나인 겸손 메트릭의 일부라고 설명합니다.
대부분의 점수 메트릭은 정확도를 기준으로 모델의 우선순위를 정하지만, 오답은 기권한 답변보다 더 나쁩니다.OpenAI의 모델 사양에 따르면오답일 수 있는 정보를 자신 있게 제공하기보다는 불확실성을 지적하거나 설명을 요청하는 것이 더 좋습니다.
예를 들어 GPT5 시스템 카드의 SimpleQA 평가를 생각해 보세요.

정확도 측면에서는 이전 OpenAI o4-mini 모델이 약간 더 나은 성능을 보입니다. 그러나 오류율(즉, 착각률)이 훨씬 더 높습니다. 불확실한 상황에서 전략적으로 추측하면 정확도는 향상되지만 오류와 착각도 증가합니다.
수십 개의 평가 결과를 평균화할 때 대부분의 벤치마킹은 정확도 지표를 제거하지만, 이렇게 하면 옳고 그름을 잘못 이분법적으로 구분할 수 있습니다.

단순QA와 같은 간단한 평가에서는 일부 모델의 정확도가 100%에 가까워 착시 현상을 없앨 수 있습니다. 그러나 보다 까다로운 평가나 실제 사용에서는 정보의 부재, 작은 모델의 제한된 사고력, 명확히 해야 할 모호성 등 다양한 이유로 일부 질문에 대한 답이 확정적이지 않기 때문에 정확도가 100% 미만으로 고정될 수 있습니다.
그럼에도 불구하고 정확도로만 측정되는 평가 지표가 계속해서 리더보드와 모델 카드를 지배하고 있어 개발자가 추측이 가능한 모델을 구축하도록 유도하고 있습니다. 모델.
모델이 더 발전하더라도 여전히 망상에 머물러 있는 것도 이러한 이유 때문입니다. 그 이유 중 하나는 불확실성을 인정하기보다는 자신 있게 오답을 내놓는 경향이 있기 때문입니다.
더 나은 평가 방법
이에 대해 OpenAI는 불확실성보다 신뢰도 오류에 더 많은 벌점을 주고 불확실성을 적절하게 표현하면 부분적으로 점수를 주는 간단한 해결책을 제시합니다.
이 아이디어는 새로운 것이 아닙니다. 일부 표준화된 시험에서는 오답에 감점을 주거나 문제를 공란으로 남겨두면 부분적으로 가산점을 주는 방식을 오랫동안 사용해 왔으며, 이는 맹목적인 추측을 막기 위한 것입니다. 일부 연구팀에서는 불확실성과 보정을 고려한 평가 방법도 연구했습니다.
하지만 OpenAI는 불확실성 인식 테스트를 몇 가지 새로 추가하는 것만으로는 충분하지 않다고 말합니다. 널리 사용되는 정확도 기반 평가 방법을 업데이트하여 점수가 추측을 억제하도록 해야 합니다.
기본 평가 지표가 여전히 운이 좋은 추측에 대해 모델에 계속 보상을 제공한다면 모델은 계속해서 추측을 학습하게 될 것입니다. 평가 지표를 수정하면 새로 개발된 기술과 이전에 연구된 기술을 모두 포함하여 착각을 줄이는 기술의 채택을 확대할 수 있습니다..
다음 단어 예측에서 환각이 발생하는 방식
< span leaf="">환각을 없애기 어려운 이유는 이미 논의되었지만, 이처럼 매우 구체적인 사실 오류는 정확히 어디에서 비롯되는 것일까요?
사실, 사전 훈련을 받은 대규모 모델은 철자 오류나 대괄호 불일치 같은 다른 유형의 오류를 거의 범하지 않습니다.
OpenAI는 차이는 데이터 중 어떤 데이터에 있어야 한다고 말합니다. 패턴.
언어 모델은 방대한 양의 텍스트에서 다음 단어를 예측하는 과정인 사전 학습을 통해 먼저 학습됩니다.
기존 머신러닝 문제와 달리 각 발화에 대해 '참/거짓' 레이블이 존재하지 않습니다. 이 모델은 유창한 언어의 긍정적인 예만 보고 전체 분포의 근사치를 제거해야 합니다.
무효로 분류된 예가 없는 경우 유효한 발화와 유효하지 않은 발화를 구별하는 것은 훨씬 더 어렵습니다. 하지만 레이블이 있더라도 일부 오류는 피할 수 없습니다.
이유를 이해하려면 더 간단한 비유를 생각해 보세요. 이미지 인식에서 알고리즘은 '고양이' 또는 '개'라는 레이블이 붙은 수백만 장의 개와 고양이 사진을 안정적으로 분류하는 방법을 학습할 수 있습니다. 하지만 각 반려동물 사진에 반려동물의 생일이 표시되어 있다고 상상해 보세요. 생일은 본질적으로 무작위이기 때문에 알고리즘이 아무리 발전하더라도 이 작업에서는 항상 오류가 발생할 것입니다.
사전 학습에도 동일한 원칙이 적용됩니다. 철자와 대괄호는 일관된 패턴을 따르기 때문에 이러한 오류는 규모에 따라 사라집니다. 하지만 반려동물의 생일처럼 빈도가 낮은 임의의 사실은 패턴만으로는 예측할 수 없으므로 환각으로 이어질 수 있습니다.
OpenAI의 분석은 다음 단어 예측을 통해 어떤 유형의 환각이 생성되는지 설명합니다. 이상적으로는 사전 학습 후 후속 단계에서 이러한 환각을 제거할 수 있어야 하지만, 이전 섹션에서 설명한 이유로 인해 이를 완전히 달성하지 못했습니다.
요약
OpenAI는 "이 논문의 통계적 관점이 환각의 본질을 밝히고 몇 가지 일반적인 오해를 반박하기를 바란다"고 말합니다:
100% 정확한 모델은 환각을 일으키지 않기 때문에 정확도를 높이면 환각을 없앨 수 있다는 주장이 제기되었습니다.
발견: 모델의 크기와 검색 및 추론 능력에 관계없이 일부 실제 질문은 본질적으로 답이 불가능하기 때문입니다.
일부 사람들은 환각이 불가피하다고 주장하기도 합니다.
언어 모델이 불확실한 경우 대답을 포기할 수 있기 때문에 환각은 피할 수 없는 것이 아니라는 것이 밝혀졌습니다. .
환각을 피하려면 큰 모델만이 실현할 수 있는 일정 수준의 지능이 필요하다고 주장되어 왔습니다. 그것을 깨닫습니다.
작은 모델은 자신의 한계를 인식할 가능성이 더 높다는 것이 밝혀졌습니다. 예를 들어 마오리족에 대한 질문에 답하라는 요청을 받았을 때 마오리족을 모르는 작은 모델은 '모른다'라고 간단히 대답할 수 있지만, 마오리족을 어느 정도 아는 모델은 신뢰 수준을 결정해야 합니다. 논문에서 설명한 것처럼, '보정'에 필요한 계산 노력은 정확도를 유지하는 것보다 훨씬 적습니다.
환상은 현대 언어 모델에서 미스터리한 결함이라고 주장되어 왔습니다.
환상이 생성되고 평가에서 보상받는 통계적 메커니즘을 이해할 수 있다는 사실이 밝혀졌습니다. .
환각을 측정하려면 환각성 평가만 잘하면 된다는 주장이 제기되었습니다.
조사 결과: 연구자들이 발표한 환각 평가는 여러 가지가 있습니다. 그러나 좋은 환각 평가는 겸손에 불이익을 주고 추측에 보상을 주는 기존의 수백 가지 정확도 기반 평가에 비해 효과가 거의 없습니다. 대신, 모든 주요 평가는 불확실성의 표현에 대한 보상을 제공하도록 재설계되어야 합니다.
오픈AI는 "최신 모델은 환멸의 비율이 훨씬 낮으며, 언어 모델 결과의 신뢰 오류 비율을 더욱 줄이기 위해 계속 노력하고 있다"고 말했습니다.
참고로, OpenAI는 모델 행동팀, 즉 작지만 영향력 있는 연구자 그룹으로 구성하여 회사의 AI 모델이 사람과 상호작용하는 방식을 결정하고 있습니다. 이 팀은 이제 OpenAI의 포스트 트레이닝 책임자인 맥스 슈바르처에게 보고하게 됩니다.
그리고 팀의 창립 리더인 조앤 장은 회사에서 새로운 프로젝트인 oai Labs를 출범시킬 예정입니다. 사람들이 AI와 협업할 수 있는 새로운 인터페이스를 개발하고 프로토타입을 제작하는 데 중점을 둔 팀입니다."
.
