< img src="https://mmbiz.qpic.cn/sz_mmbiz_png/ uEICp46xOptibeRchgZSwL0PibHAVv3jjbAlMDSApzVrY03iajibRjkLjjx56ejib1aPGYMnmSLW60bma96eOZJfXicA/640?wx_fmt=png&from=appmsg& wxfrom=5&wx_lazy=1&wx_co=1&tp=webp" alt="image">
이에 대해 DeepSeek는 그날 오후 국지적인 서비스 변동이 발생했지만 몇 분 안에 문제가 해결되었다고 답변했습니다. 이번 사고는 신모델 출시 후
.
딥시크가 이러한 혁신을 이룰 수 있었던 이유는 하루아침에 이루어지지 않았습니다. "딥시크는 수년간의 인큐베이션과 장기적인 계획의 결과물이며, 딥시크의 설립자인 량 웬펑은 대표적인 퀀트 사모펀드 회사인 미라지 퀀티튜티브의 설립자이기도 한데, 미라지 퀀티튜티브가 축적해온 자본, 데이터, 카드를 활용하고 있습니다.
원펑 량은 저장대학교에서 정보 및 전기공학 학사 및 석사 학위를 받았으며, 2008년부터 머신러닝 및 기타 기술을 사용하여 완전 자동화된 퀀트 트레이딩을 연구하는 팀을 이끌고 있습니다. DeepSeek는 범용 인공지능 분야에 진출하기 위해 2023년 7월에 공식적으로 설립되었으며, 외부 자금 조달을 한 적이 없습니다. 이전 OpenAI의 전 정책 책임자이자 Anthropic의 공동 창립자인 잭 클라크(Jack Clark)는 딥시크가 "고공 비행 마법사들"을 고용하고 있다고 주장한 바 있습니다. 웬펑은 언론과의 인터뷰에서 "깊고 신비한 인재"와 같은 것은 없으며, 그들은 명문대 졸업생, 미졸업 인턴, 졸업한 지 몇 년 밖에 안 된 젊은이들이라고 밝혔습니다.
기존 언론에 보도된 내용을 보면 딥서치 팀의 가장 큰 특징은 명문대, 젊은, 심지어 팀장급까지 35세 이하가 대다수인 젊은 나이라는 것을 알 수 있습니다. <팀원 140여 명 중 엔지니어와 R&D 인력은 거의 모두 칭화대, 북경대, 쑨원대, 베이징우정통신대 등 중국 내 명문대 출신이며, 근무 시간도 길지 않습니다. 더 보기
전문가 설명: 중국의 새로운 AI 메가 모델이 인터넷에 불을 붙이는 이유
< p style="text-align: 왼쪽;">최근 중국의 인공지능(AI) 스타트업인 딥서치(深度求索)가 국내외 인공지능(AI) 빅모델 분야에서 화제가 되고 있습니다. 딥시크는 30일도 채 되지 않아 딥시크-V3와 딥시크-R1이라는 두 가지 빅 모델을 출시했는데, 그 가격은 수억 달러 또는 수백억 달러에 달하는 외국 빅 모델 프로젝트에 비해 저렴하면서도 성능은 외국 최고 빅 모델과 비슷합니다. 동시에 딥시크는 외국 대형 모델의 폐쇄형 경로와 달리 오픈소스 모델을 채택했습니다. 이 중국 기업의 개발 방식과 성과는 실리콘 밸리를 크게 우려하게 만들었고, 다수의 서구 주류 언론은 "중국의 AI 모델이 실리콘 밸리에 충격을 주었다"는 기사를 발표했으며, 심지어 수많은 국내외 유명 벤더와 조직이 하룻밤 사이에 DeepSeek의 결과를 재현하려는 '열풍'을 불러 일으켰습니다. "딥시크 개발의 특징은 무엇인가요? 국내 대형 모델과 혁신적인 아이디어의 개발 경로에 영감을 주나요? 글로벌 타임즈 기자가 26일 인공지능 분야의 여러 전문가를 인터뷰했습니다. "OpenAI o1, 저렴하고 개방적인 경쟁자"
딥시크는 이달 20일 빅모델 R1을 공개하며 "수학, 코드, 자연어 추론 등의 작업에서 오픈AI o1의 성능이 정식 버전과 비슷하다"고 밝혀 중국 기업과 최신 빅모델 결과에 대해 외신, 특히 미국 언론의 큰 관심을 불러 일으켰다.
"중국의 값싸고 개방적인 AI 모델 DeepSeek는 과학자들을 흥분시킵니다." 이 기사에서 Nature 24는 중국에서 개발된 대규모 언어 모델인 DeepSeek-R1에 대해 과학자들이 흥분하고 있으며, 이는 OpenAI o1과 같은 '추론' 모델의 저렴하고 개방적인 경쟁자로 여겨지고 있다고 말합니다.
뉴욕 타임즈는 24일자 기사에서 "중국 인공 지능 스타트업인 딥시크가 실리콘 밸리의 거인들과 경쟁하는 방법"을 통해 이것이 이정표가 될 수 있다고 보도했지만 딥시크-V3 대형 모델을 개발한 팀은 훨씬 더 큰 그림을 설명합니다. DeepSeek-V3 모델을 개발한 팀은 훨씬 더 큰 진전을 이루었다고 설명합니다. 이들은 고급 AI 회사에서 사용하는 고도로 전문화된 컴퓨터 칩의 일부로 시스템을 훈련시켰습니다. 중국 엔지니어들은 새로운 모델을 훈련하는 데 약 600만 달러와 약 2,000개의 NVIDIA 특수 칩만 사용했으며, 이는 금액과 사용 칩의 규모 면에서 세계 유수의 AI 기업보다 훨씬 적은 비용이라고 말합니다.
"중국이 미국을 따라잡는 것이 아니라 오픈 소스가 폐쇄 소스를 따라잡는 문제입니다."
DeepSeek가 많은 주목을 받고 있습니다. DeepSeek가 많은 관심을 받고 있는 이유는 뛰어난 가성비 외에도 오픈소스라는 또 다른 이유가 있습니다. 지난 며칠 동안 웹에서 딥시크의 복제본이 쏟아져 나왔습니다. 캘리포니아 버클리 대학교, 홍콩과학기술대학교, 유명 인공 지능 회사인 HuggingFace는 강화 학습만 사용하고 감독 미세 조정 없이, 심지어 수십 달러의 비용으로 복제하는 데 성공했습니다.
중국 DeepSeek의 모델은 오픈소스이며, 이것이 바로 이 연구의 진짜 이유라고 Reddit 25는 말합니다. 기본적으로 전 세계가 자유롭게 사용할 수 있도록 지식을 공개하여 어느 누구도 독점할 수 없도록 하고 있습니다. 중국 기업들은 기본적으로 미국 기업들이 하는 것과 정반대의 일을 하고 있습니다. OpenAI, Anthropic 또는 Google이 강력한 모델을 오픈소싱하는 것을 볼 수 있나요? 지금까지 우리가 이들에게서 얻은 것은 극히 일부에 불과하며, 메타는 대형 모델을 오픈소스화하는 데 크게 기여한 유일한 서구 주요 기업이지만 앞으로도 최고의 모델을 오픈소스화하지는 않을 것입니다. '딥러닝 3인방' 중 한 명인 얀 르쿤은 소셜 미디어 플랫폼 X에서 중국이 미국을 따라잡는 것이 아니라 오픈소스가 폐쇄소스를 따라잡는 문제라고 말했습니다.
베이징우정통신대학(BUPT)의 인간-컴퓨터 상호작용 및 인지공학 연구소 소장인 류웨이(刘维)는 글로벌타임스 기자와의 인터뷰에서 빅 모델의 3대 핵심 요소는 데이터, 알고리즘, 연산이며 딥시크는 데이터와 산술을 덜 사용하고 알고리즘 최적화를 통해 해외 유명 빅 모델과 동등하거나 더 나은 결과를 달성했다고 말했습니다. 동등하거나 더 나은 결과는 인정할 만한 가치가 있습니다. 또한 오픈 소스이기 때문에 이 대형 모델을 사용하고자 하는 전 세계 사용자들이 사용 및 재생산할 수 있다는 점도 중요합니다.
칭화대 저널리즘대학 및 인공지능대학의 션양(沈阳) 교수는 26일 글로벌타임스에 딥시크의 빅모델은 세계 최고의 오픈소스 빅모델 중 하나이며 여러 첨단 기술을 혼합해 기존의 사전 학습 기술을 뛰어넘는 혁신을 달성한 획기적인 모델이라고 평가했습니다. 그는 자신의 사용 경험을 바탕으로 이 빅 모델의 몇 가지 장점에 대해 이야기했습니다. 첫째, AI 빅 모델의 기능을 향상시키기 위해 현재 방법의 공학적 미세 혁신을 결합한 것입니다. 둘째, 딥시크는 관련 논문을 공개했고, 그 전 과정을 누구나 재현할 수 있다는 점이 오픈소스의 힘입니다. 셋째, 딥시크의 추론 프로세스는 그 자체로 혁신적입니다. 션 양은 AI 분야의 연구자로서 3만 번 이상 AI를 사용해 왔으며, 미국 AI와 비교했을 때 딥시크에는 중국 네트워크의 일부 인기 단어 등 중국적인 요소가 많이 포함되어 있다고 생각합니다.
추론 능력 향상
딥시크의 개발 모델이 국내 대형 모델 개발과 혁신에 중요한 인사이트를 제공하는 방식에 대해 류웨이는 이렇게 생각합니다. "혁신은 계획된 것이 아니며, 다른 방법을 찾기 위해 오랜 연구를 통해 시장, 전문 기관이 필요하며, 특히 상업 회사의 수직 분야에 대한 장기적인 관심은 기술 경로에 대한 반성, 후각의 시장 개발을 통해 더 나은 혁신 지점을 찾을 수 있습니다. openAI의 초기 개발 프로세스도 같은 방식이며 미국 관리와 기술 거인이 무거운 금을 부수는 것이 아닙니다. 계획된 것이 아닙니다."
몇일 전 OpenAI와 소프트뱅크, 그리고 다른 기업들은 미국의 인공지능 개발을 가속화하기 위해 4년 안에 5,000억 달러를 투자하겠다는 '스타게이트' 계획을 발표했습니다. 류웨이는 인력, 재정, 물적 자원에 초점을 맞추고 정책적 기울기 발전 경로를 제공하면 향후 연구 방향과 연구 결과가 어느 정도 불확실성이 있다고 강조했습니다. "중국의 더 많은 상업 기업과 연구 기관이 자체 연구 분야에 집중하고 적절한 혁신 및 개발 경로를 찾도록 장려해야합니다."
Shen Yang은 AI 개발의 역사에서 새로운 돌파구는 눈에 띄지 않는 공학 혁신과 과학적 탐구의 결합에 의해 주도된 경우가 많았다고 말했습니다. 이러한 추세는 전통적인 훈련 방법을 돌파할 뿐만 아니라 추론 능력 향상에 새로운 관점을 제시하는 DeepSeek의 성과에 깊이 반영되어 있습니다. "아직은 걸음마 단계에 불과하지만, 딥시크의 공학적 기여와 이론적 혁신은 미래 AI 개발을 위한 중요한 토대를 마련했습니다." 션 양은 딥시크 팀이 기본 모델 사전 학습에 기여한 것은 기술 수준에서의 획기적인 성과일 뿐만 아니라 엔지니어링 방법론의 정교함과 효율성에 있으며, 딥시크의 이러한 엔지니어링 혁신은 AI 모델 학습의 완전히 새로운 단계를 열어 개발 비용을 절감할 뿐만 아니라 다른 기업이 배울 수 있는 길을 제공한다고 믿습니다. 동시에 딥시크의 핵심 혁신은 추론 능력 향상에도 반영되어 있으며, 특히 관련 알고리즘 혁신을 통해 모델의 자연스러운 추론 능력을 촉진하여 많은 수의 값비싼 사고 사슬 주석 없이도 모델이 추론 능력에서 나올 수 있는 AI 분야의 잠재력을 입증했습니다.
Shen Yang은 딥시크의 성공을 통해 오픈 소스 혁신, 하드웨어와 소프트웨어 간의 더 깊은 시너지, 모델 개발 비용과 추론 능력의 지속적인 최적화 등 향후 AI 산업이 나아갈 방향을 엿볼 수 있다고 믿습니다. 동시에 딥시크가 괄목할 만한 성과를 거두었지만, 더 많은 원본 학습 데이터와 알고리즘 혁신의 필요성 등 향후 발전의 길에서 더 큰 돌파구를 마련하기 위해 여전히 많은 도전에 직면해야 한다는 사실도 알아야 합니다.