출처: 텐센트 테크놀로지
딥시크 모델 제품군은 여러 측면에서 우수한 성능을 보이지만 '착각' 문제는 여전히 주요 과제로 남아 있습니다.
언어 모델이 생성한 콘텐츠가 원본 증거와 일치하는지 여부를 확인하여 모델의 환각률을 평가하고 모델을 최적화하고 선택하는 데 도움을 주는 업계 최고의 테스트인 Vectara HHEM 인공 지능 환각 테스트에서 DeepSeek-R1은 14.3%의 환각률을 보였습니다.

그림: 벡타라 HHEM AI 환각 테스트 결과
딥시크-R1의 환각률은 딥시크-V3보다 4배 가까이 높을 뿐만 아니라 업계 평균을 훨씬 상회하는 것으로 나타났습니다.
블로거 레비 로즈만(6백만 팔로워를 보유한 미국 체스 팬)이 주최한 대규모 체스 게임에서 딥시크는 ChatGPT보다 훨씬 더 자주 '치트'를 쳤습니다.
예를 들어, 몇 수 만에 DeepSeek-R1은 스스로 '치트'를 치는 데 성공했습니다. 몇 수 만에 상대방에게 폰을 주고,
나중에는 체스 규칙이 업데이트되었음을 ChatGPT에 알리고, 폰을 사용하여 ChatGPT의 여왕을 차지하여 ChatGPT를 놀라게 했습니다.
결국, DeepSeek-R1은 ChatGPT에게 업데이트되었음을 알리는 출력과 함께 ChatGPT가 이를 사용하는 것이 좋은 생각이라는 출력을 제공했습니다. ChatGPT는 자신이 이겼다는 출력을 보냈고, ChatGPT는 놀랍게도 패배를 인정했고, 결국 DeepSeek-R1이 승리했습니다.
엄격한 규칙과 기준이 없는 재미있는 영상이지만, 큰 모델들이 진지하게 '말도 안 되는 이야기'를 하고 심지어 다른 큰 모델을 속이는 것을 정말 좋아한다는 것을 알 수 있습니다.
인간에게 있어 빅모델 착시 문제는 AI 개발의 길목에 걸려 있는 다모클레스의 검과 같습니다. 14.3%의 착시율 이면에는 우리가 깊이 생각해봐야 할 몇 가지 질문이 있습니다.
빅모델이 착시를 일으키는 이유는 무엇이며 이는 결함인가 아니면 장점인가? 장점일까요?
딥시크-R1은 놀라운 창의성을 보여주지만 동시에 일루전 문제는 얼마나 심각할까요?
큰 모델 환각이 발생하는 주요 영역은 어디인가요?
궁극적인 수수께끼: 어떻게 하면 대형 모델이 창의적이면서도 환각을 덜 일으킬 수 있을까요?
텐센트 테크놀로지는 빅모델 환각과 관련된 문제를 자세히 살펴보기 위해 GoDoQ의 빅모델 팀 엔지니어링 부사장을 역임한 Levi Li 박사를 초청하여 다음과 같은 기사를 소개합니다.
![]()
사진: Levy 전 Ask Me Out의 빅 모델 팀 엔지니어링 부사장 겸 전 Netbase 수석 과학자
1. 빅 모델은 왜 '환각'을 일으킬까요?
이것은 빅 모델에 대한 고전적인 질문입니다. 사실 빅 모델은 '슈퍼 픽업 아티스트'와 같아서, 문장의 전반부를 알려주면 학습한 방대한 지식을 바탕으로 후반부에 무엇을 말할지 예측합니다. 인간의 뇌가 모든 단어를 명확하게 기억하는 것은 불가능하고 압축되고 일반화되어 일반적인 아이디어를 파악하고 법칙을 찾는 것과 같은 것을 학습합니다.
예를 들어 "야오밍의 키는 얼마입니까?"라고 물어보면 매우 핵심적인 사항이고 잘 기억하기 때문에 틀린 대답은 아닐 것입니다. 하지만 "옆집 왕은 키가 얼마나 되나요?"라고 물으면 한 번도 만난 적이 없기 때문에 혼란스러워할 것입니다.
그러나 설계 원리에 따라 이를 파악한 다음 '평균 키'라는 학습된 개념을 바탕으로 자동으로 '브레인스토밍'하여 숫자를 만들어냅니다. 이 '착각'은 '환상'입니다.
환각은 어떻게 생겨날까요?
환각의 본질은 화이트 워싱, 브레인스토밍입니다.
'백색'은 학습 데이터에 충분한 중복 정보가 없는 경우 모델이 기억할 수 없는 특정 사실입니다(단편적인 사실은 노이즈와 동일). 기억할 수 없는 경우 환각을 사용하여 흰색을 채우고 세부 사항을 구성합니다.
환각은 제약 조건이 없는 임의의 조작이 아니며, 빅 모델은 확률적 모델이고 제약 조건은 조건부 확률의 선행 조건입니다. 환각에 의해 선택된 거짓 사실은 보완이 요구하는 값의 유형, 즉 온톨로지/분류학의 해당 상위 노드 개념과 일치해야 합니다. "장산"은 "리시"로 환각될 수 있지만 "돌"로 환각될 가능성은 낮습니다.
문학 이론에는 예술적 진실이라는 표현이 있습니다. 이른바 예술적 진실이란 문학적 창작물이 세상의 사실과 다를 수 있지만 가능한 디지털 세계에 대한 합리적인 상상이라는 뜻입니다. 대형 모델의 환상이 이 범주에 속합니다.
빅모델의 지식 학습 과정(훈련 단계)은 일종의 정보 압축 과정이고, 빅모델이 질문에 답하는 것은 정보 해독 과정(추론 단계)입니다. 이는 마치 차원 업과 차원 다운과 같습니다. 사실의 중복이 상위 개념으로 일반화되면 생성 단계에서는 이 슬롯이 비유적 필러가 되어야 합니다.
'장산'이라는 사실은 잊혀졌지만 '인간'이라는 슬롯의 제약은 여전히 존재합니다. 빈칸을 채우기 위해 가장 의미가 있고 슬롯 개념과 가장 일치하는 개체를 찾으므로 '리시'나 '왕우'의 환상이 '장산'을 대체할 수 있습니다. 이것이 소설가가 일하는 방식이며 캐릭터와 이야기가 만들어지는 방식입니다. 작가 자신도 독자도 이것이 거짓이라고 느끼지 않지만, 추구하는 진실과 아름다움은 다른 차원에 있습니다.
암기식 데이터베이스가 아니라 타고난 예술가인 위대한 모델도 마찬가지입니다. '장관 리 다이', '사슴을 말이라고 가리키는 것' 등은 장과 리가 비슷하고 말과 사슴이 같은 연장선상에 있기 때문에 대모델의 환상 속에서 매우 자연스럽습니다. 이 둘은 일반화와 압축의 의미에서 동등합니다.
그러나 어떤 의미에서 환상은 (긍정적이든 부정적이든) 상상력이며, 이것이 바로 창의성입니다! 인류의 위대한 문학과 예술 작품 중 상상력이 풍부하고 상상력이 넘치지 않은 작품이 어디 있을까요? 모든 것이 현실과 똑같아야 한다면 예술은 카메라가 될 텐데 무슨 소용이 있을까요? 헐리가 <인류의 간략한 역사>에서 말했듯이, 인간이 지구상에서 지배적인 존재가 된 이유는 현실에 존재하지 않는 신화, 종교, 국가, 화폐를 "이야기"하고 창조할 수 있기 때문입니다. 이러한 것들은 모두 '환상'이지만 문명의 탄생과 발전의 원동력입니다.
2. DeepSeek-R1의 착각 문제는 결국 얼마나 심각한가요?
심각한 환각 문제가 있습니다. 이전에는 학계에서는 추론 기능이 강화되면 환각이 크게 줄어들 것이라는 OpenAI의 의견에 대체로 동의했습니다. 빅모델의 책임자 중 한 명과 토론을 했는데, 그는 추론이 환각을 줄이는 데 미치는 긍정적인 효과를 구체적으로 강조했습니다.
그러나 R1의 성능은 정반대의 결과를 보여주었습니다.
벡타라의 테스트에 따르면, R1은 실제로 V3보다 환각 비율이 상당히 높았으며, R1의 환각 비율은 14.3%로 이전 버전인 V3의 3.9%보다 훨씬 높았습니다. 이는 향상된 '사고의 연쇄'(CoT) 및 창의성과 직접적으로 관련이 있는데, R1은 추론, 시와 소설을 잘 쓰지만 '부작용'은 환각이 더 많다는 것입니다.
R1의 환각이 증가하는 데에는 몇 가지 이유가 있습니다.
첫째, 환각 기준 테스트는 요약 과제를 사용하는데, 우리는 요약 능력이 이미 큰 모델 단계에서 상당히 성숙해 있다는 것을 알고 있습니다. 이 경우 강화는 대포로 모기를 때리는 것과 같이 오히려 역효과가 날 수 있으며, 너무 강하게 밀어붙이면 환각과 조작의 가능성이 높아집니다.
둘째, R1의 긴 사고 사슬 강화 학습은 요약, 번역, 뉴스 작성과 같이 비교적 간단하지만 사실적으로 까다로운 작업에 특별히 최적화된 것이 아니라 모든 작업에 다양한 수준의 사고를 추가하려고 시도합니다.
투명한 사고 체인 출력에서 알 수 있듯이, 간단한 지시를 받았을 때에도 다양한 각도에서 이해하고 확장하기 위해 많은 노력을 기울입니다. 지나친 것은 지나친 것이며, 이러한 간단한 작업의 복잡성은 결과를 놀이에서 멀어지게 하고 착각을 불러일으킬 수 있습니다.
또한, 딥서치-R1은 교양형 과제에 대한 강화 학습 훈련 중에 모델의 창의성에 더 많은 보상을 주어 모델이 콘텐츠를 더 창의적으로 생성하고 진실에서 벗어날 가능성이 더 커졌을 수 있습니다.
수학과 코드의 경우 R1의 감독 신호는 이러한 주제에 대한 표준(연습장의 표준 답안이나 코드의 테스트 사례)에서 비롯된다는 것을 알고 있습니다. 교양 과제의 경우 잘하거나 못했을 때 V3 또는 V3 보상 모델을 활용하며, 현재 시스템 선호도는 창의성을 장려하는 것이 분명합니다.
또한 사용자들의 피드백은 여전히 창의성을 장려하고 높이 평가하며, 특히 대형 모델은 매끄럽고 착시를 인식하기가 더 어렵기 때문에 일반 대중은 착시에 대한 인식에 민감하지 않습니다. 대부분의 일선 개발자들은 이러한 사용자들의 피드백을 통해 대형 모델 분야에서 가장 골치 아픈 문제 중 하나인 '착시 현상'을 해결하기보다는 창의성을 향상시키는 데 더 많은 노력을 기울이는 경향이 있습니다.
특히 기술적 관점에서 보면, R1은 간단한 사용자 지시에 긴 생각의 사슬을 자동으로 추가하여 간단하고 명확한 작업을 복잡하게 만듭니다.
단순한 지시가 다른 관점에서 반복적으로 이해되고 확장됩니다(CoT의 사고 사슬은 지시를 따를 때 개체의 내부 독백인 '리틀 나인나인'과 같습니다). 사고의 사슬은 답을 생성하기 전에 자동 회귀 확률 모델의 조건부 부분을 변경하여 자연스럽게 최종 결과에 영향을 미칩니다.
다음과 같은 점에서 V3 모델과 다릅니다.
V3: 질의 ---〉답변
R1: 질의+CoT ---〉답변 요약이나 번역과 같이 V3가 이미 잘 수행하는 작업의 경우, 생각의 사슬을 오래 조작하면 편차가 생기거나 환각의 번식지를 제공하는 장난스러운 성향을 유발할 수 있습니다.
3. 대형 모델 환각이 주로 발생하는 영역은 무엇인가요?
R1의 능력을 '예술'과 '과학'으로 나누면, 수학이나 코드 같은 '과학'에서 매우 논리적이고 환각이 상대적으로 적습니다. 환각도 상대적으로 적습니다.
그러나 언어적 창의성 영역, 특히 현재 테스트 중인 요약 과제에서는 환각의 문제가 훨씬 더 두드러집니다. 이는 R1 언어에서 창의성이 폭발적으로 증가하면서 나타나는 부작용에 가깝습니다.
R1의 가장 놀라운 성과는 o1보다 수학과 코드 추론을 언어 생성 영역으로 완전히 확장하여 특히 중국어 능력에서 탁월하다는 점입니다. 인터넷에는 수많은 훌륭한 R1 챕터가 유포되고 있습니다. 글쓰기 영역에서 99%의 인간보다 월등히 뛰어나며, 문학 대학원생과 심지어 중국학 교수들로부터도 찬사를 받고 있습니다.
그러나 보시다시피, 원래는 매우 간단한 작업이지만 약간의 "놀이"를 제공해야하며 결과는 원본 텍스트의 일부가없는 것을 "구성"하기 쉽습니다. 앞서 말했듯이 이것은 "인문학"이 너무 강하고 약간 "너무 많은 힘"입니다.
향상된 추론과 환각 사이에는 미묘한 관계가 있습니다. 이는 단순히 정 또는 부의 상관관계가 아니며, GPT 추론 모델인 o1의 평균과 중앙값은 일반 모델인 GPT-4o보다 낮습니다(아래 그래프 참조). 그러나 R1을 기본 모델인 V3과 비교했을 때, 추론 강화 기능을 추가한 후 환각이 크게 증가하는 것을 다시 발견했습니다.

그림: GPT-o1과 4o의 HHEM 점수 통계, HHEM 점수가 낮을수록 환각이 낮음
받침대 모델과 비교했을 때 o1은 환각이 낮았고, R1은 환각이 증가했는데 이는 R1이 인문학에 있기 때문일 수 있습니다.... 생각의 사슬을 너무 세게 밀어붙였기 때문일 수 있습니다.
추종자로서 R1은 수학 및 코드에서 언어 및 텍스트 생성으로 CoT 권한을 성공적으로 이전했지만 부작용은 R1이 특히 "상자에서 생각하는 것"을 좋아하고 간단한 명령을 내리면 모든 것을 생각해 낼 수 있으며 생각의 사슬이 세계를 세 번 돌 수 있다는 것입니다.
이것은 창의성을 향상시키는 과정에서 R1이 필연적으로 창의성의 수반 요소인 환상을 추가한다는 것을 나타내는 것 같습니다.
언어 능력은 사실 시나 소설 쓰기와 같이 고도의 창의성이 요구되는 분야와 저널리즘, 번역, 요약과 같이 고도의 사실성이 요구되는 분야로 세분화할 수 있는데, R1이 가장 칭찬받는 것은 전자에 해당하고 R&D 팀이 집중하고 있는 분야일 수도 있지만 부작용이 나타나는 것은 후자에 해당합니다.
고대부터 전해 내려오는 중국 고사성어 '신다야(信达雅)'가 생각납니다. 우아함을 위해 자신의 신념을 희생한 예가 많은데, 문학에서 과장이라는 수사적 장치가 중요한 도구이자 그 예입니다. 루쉰이 추진한 '하드 번역'과 같이 '신뢰성'을 위해 '우아함'을 희생한 선례도 있습니다.
이 점에서 우리 인간이 항상 이중 잣대를 가지고 있다는 점이 흥미롭지만, 우리 마음속에는 언제든 뒤집을 수 있는 스위치가 있습니다. 소설이나 영화를 볼 때는 창작 쪽으로 스위치를 켜고 세부 내용이 사실인지 아닌지 전혀 신경 쓰지 않지만, 뉴스 채널로 전환하면 허위 사실에 대해 관용을 베풀지 않습니다.
4. 궁극적인 수수께끼: 어떻게 하면 대형 모델을 창의적이면서도 덜 환각적이게 만들 수 있을까요?
사람은 논리가 명확하고 자명하며 세밀해 보이는 것을 믿으려는 경향이 있습니다. 많은 사람들이 R1의 창의성에 감탄하면서도 이제 서서히 이러한 환각 현상을 알아차리고 경계하기 시작했습니다. 하지만 여전히 더 많은 사람들이 모델링이 주는 창의성에 경외감을 느끼고 있으며, 모델링의 환상에 대한 대중의 인식을 높여야 할 필요성이 있습니다.
경계심을 유지하세요: 특히 사실과 관련해서는 유명 모델의 말을 모두 믿지 마세요. 특히 주의하세요.
교차 확인: 중요한 세부 사항은 온라인에서 출처 자료를 확인하거나 주변 전문가에게 문의하여 주장이 일관성이 있는지 확인하세요.
안내 모델: 질문에 "원문에 충실해 주세요", "사실을 확인해 주세요" 등과 같이 질문에 몇 가지 제한 조건을 추가할 수 있습니다. 와 같은 제한 조건을 추가하면 모델이 덜 환멸을 느낄 수 있습니다.
검색: 특히 뉴스와 시사에 대해 궁금한 점이 많은 사용자는 딥씽크 버튼(누르면 R1 느린 생각 모드로 전환됨) 외에 다른 버튼인 검색도 잊지 말고 누르세요.
네트워크 검색을 추가하면 환상을 효과적으로 줄일 수 있습니다. 검색과 같은 소위 RAG(검색 증강 생성)는 애드온 데이터베이스이며, 추가된 데이터는 세부 사항에 대한 모델 자체의 무지를 보완하는 데 도움이 됩니다.
창의성 즐기기: 영감, 창의성이 필요하다면 대형 모델의 환상이 여러분을 놀라게 할 것입니다.
대형 모델의 환상을 '가능성의 평행 세계'라고 생각해보세요. 소설가가 소설을 쓰는 것처럼 허구이긴 하지만 일종의 '예술적 현실'이기도 합니다. 삶에서, 삶보다 더 높은 삶. 빅 모델은 데이터에서 나온, 데이터보다 더 높은 데이터입니다. 빅 모델은 데이터베이스의 대상인 단일 사실이 아니라 지식과 상식을 압축한 것입니다.
실제로 빅 모델의 착각은 그것이 '만들어졌다'는 것이지만, 빅 모델은 학습한 방대한 양의 지식과 법칙을 기반으로 '만들어졌다'는 것입니다. 따라서 그 환상은 종종 무작위가 아닌 "내재적 합리성"을 가지고 있으며, 이는 매끄럽고 매끄럽고 실제와 같은 거짓이지만 동시에 더 혼란 스럽습니다. 친구들의 큰 모델과의 첫 접촉은 특히 조심해야하며 속지 않아야합니다.
일반 사용자의 경우 착각의 특성을 이해하는 것이 중요합니다. 예를 들어, 정보의 중복성이 충분한 "양쯔강은 얼마나 길다"와 같은 백과 사전 질문을하면 이러한 사실이 모델 매개 변수에 새겨 져 있기 때문에 큰 모델은 실수하지 않습니다. 그러나 알 수 없거나 가상의 강 길이에 대해 질문하면 모델은 '그럴듯한 부인 가능성' 메커니즘을 활성화하여 이를 구성합니다.
인간의 언어 자체가 착각의 온상이라고 주장할 수도 있습니다.
인간은 언어를 통해 신화, 종교, 국가, 기업, 화폐 등 실체가 아닌 개념은 물론 이상이나 신념과 같은 형이상학적 이데올로기도 만들어낼 수 있었습니다. 인류의 간략한 역사에서 핼리는 문명에서 환영의 근본적인 역할은 언어의 창조로 인간의 환영 능력("스토리텔링")이 강화되었다는 점을 강조합니다. 환상은 문명의 촉매제입니다. 인간은 '거짓말'을 할 수 있는 유일한 존재입니다.
미래에는 대형 모델을 창의적이면서도 덜 환각적으로 만들 수 있는 방법이 있을까요?
이것은 확실히 AI 매크로 모델링의 "궁극적인 퍼즐" 중 하나입니다! 이제 모든 사람들이 다음과 같은 방법을 알아내기 위해 노력하고 있습니다.
세밀한 훈련: 훈련 중에 다양한 유형의 작업을 다르게 처리하여 모델이 언제 "정직"해야 하고 언제 "놓아야" 하는지 알 수 있도록 합니다!
모델이 언제 '정직'해야 하고 언제 '놓아줘야 하는지' 알 수 있도록 하기 위해서입니다.
작업에 대한 기본 설정을 미세 조정(미세 조정) 및/또는 강화(강화)하면 이러한 충돌을 완화할 수 있습니다. 요약, 재작성, 번역, 보고와 같은 작업은 약간의 재창조(예: 스타일)에 대한 요구와 콘텐츠 충실도에 대한 내재적 요구가 모두 있기 때문에 특별한 주의와 균형이 필요합니다.
특히 R1 트레이닝 파이프라인은 미세 조정 1, 강화 1, 미세 조정 2, 강화 2의 네 가지 프로세스로 구성되며, 강화 2는 주로 사람의 선호도에 맞춘 강화입니다. 이 프로세스는 현재 창의성과 충실도 측면에서 전자에 유리하게 기울어져 있는 것으로 보이며, 진행 후 다시 균형을 맞출 수 있습니다. 아마도 더 중요한 것은 3단계의 2단계 미세 조정에서 다양한 작업에 대한 제약을 강화하는 것입니다(예: 충실하고 명확한 결과를 부트스트랩하기 위해 요약 감독 데이터를 추가하는 것).
라우팅: 앞으로는 작업 유형에 따라 다른 모델이 다른 작업을 처리하도록 배치하는 "스케줄러"가 있을 수 있습니다. 예를 들어 간단한 작업은 V3나 호출 도구에, 느리고 복잡한 작업은 R1에 맡기는 식입니다.
예를 들어 산술 작업을 인식하면 계산기를 호출하는 것과 같은 간단한 코드를 작성해 연산을 수행할 수 있습니다. 어제 9자리 곱셈을 테스트했는데, R1은 3분 이상 생각에 생각을 거듭하며 길거리에서 인쇄할 수 있을 정도로 추론을 단계별로 세분화했습니다. 결국 정답은 맞았지만, 시간이 너무 많이 걸리는 산술 문제에 함수 호출을 사용하지 않고 소위 테스트 시간 계산(CoT) 사고 사슬을 사용하는 것은 말이 되지 않습니다. 한 줄의 계산 코드로 할 수 있는 일을 명시적인 추론을 위해 많은 계산 리소스와 토큰을 소비할 필요가 없습니다.
예측 가능한 라우팅, 특히 에이전트 시대에 R1 CoT가 모든 것을 할 필요는 없으며, 착시 문제 외에도 자원 낭비이며 환경 친화적이지 않습니다.