출처: 퀀텀
글로벌 AI 경쟁에서 OpenAI, Microsoft, Meta와 같은 선도적인 AI 기업들은 소비자 및 기업을 위한 더 저렴한 AI 모델을 구축하기 위해 증류라는 개발 프로세스를 채택하고 있습니다. 채택하고 있습니다.
DeepSeek가 이 기술을 사용하여 경쟁사인 Meta와 Alibaba가 공개한 오픈 소스 시스템을 기반으로 강력하고 효율적인 AI 모델을 구축한 것은 이미 업계에서 많은 주목을 받고 있습니다. 이 획기적인 성과로 인해 실리콘밸리의 AI 리더십에 대한 신뢰가 흔들리면서 한때 미국 주요 기술 기업의 주가가 급락하기도 했습니다.
기업은 증류를 통해 '교사' 모델이라고 하는 대규모 언어 모델을 사용하여 발화에서 가능한 다음 단어를 생성합니다. 교사 모델은 데이터를 생성한 다음 더 작은 "학생" 모델을 학습시켜 큰 모델에서 작은 모델로 지식과 예측을 빠르게 전달합니다.
증류법은 수년 동안 널리 사용되어 왔지만, 최근의 발전으로 업계 전문가들은 이 기술을 기반으로 애플리케이션을 구축하는 것이 저렴하고 효율적인 방법을 찾는 스타트업에게 점점 더 큰 도움이 될 것이라고 확신하고 있습니다.
"증류 기술은 놀랍습니다."라고 OpenAI 플랫폼의 제품 책임자인 올리비에 골드문트는 말합니다. "이 프로세스는 기본적으로 대규모 지능형 프론티어 모델을 사용하여 더 작은 모델을 학습시키는데 ...... 이 작은 모델은 특정 작업에 매우 적합하며 저렴하고 매우 빠르게 실행할 수 있습니다."
OpenAI의 GPT-4, Google의 Gemini, Meta의 Llama와 같은 대규모 언어 모델은 개발과 유지에 방대한 양의 데이터와 컴퓨팅 성능이 필요합니다. 이 회사들은 대규모 모델을 학습시키는 데 드는 정확한 비용을 공개하지 않지만 수억 달러에 달할 가능성이 높습니다.
개발자와 기업은 증류 기술을 통해 훨씬 적은 비용으로 이러한 모델의 성능을 사용할 수 있으며, 앱 개발자는 노트북이나 스마트폰과 같은 기기에서 AI 모델을 빠르게 실행할 수 있습니다.
개발자는 OpenAI의 플랫폼을 증류용으로 사용하여 ChatGPT와 같은 제품을 구동하는 대규모 언어 모델로부터 학습할 수 있습니다. OpenAI에 약 140억 달러(102억 루피)를 투자한 최대 후원사인 Microsoft는 상업적 파트너십의 일환으로 소규모 언어 모델 제품군인 Phi를 증류하는 데 GPT-4를 사용했습니다.
그러나 OpenAI는 DeepSeek가 경쟁사 제품을 학습시키기 위해 자사 모델을 증류했으며 이는 서비스 약관을 위반한 행동이라고 주장하고 있습니다. 딥시크는 아직 이 주장에 대해 공개적으로 대응하지 않았습니다.
전문가들은 증류 기법이 고성능 모델을 구축하는 데 사용될 수 있지만, 그에 못지않은 한계도 있다고 덧붙입니다.
"증류 기법에는 매우 흥미로운 트레이드오프가 존재합니다. 모델을 작게 만들면 필연적으로 성능이 저하될 수밖에 없습니다."라고 Microsoft Research의 아메드 아와달라는 말합니다. 그는 증류 모델은 이메일을 요약하는 데는 사용할 수 있지만 "그 외에는 그다지 잘하지 못합니다."라고 말했습니다.
IBM 리서치의 AI 모델링 담당 부사장인 데이비드 콕스는 대부분의 기업이 제품을 실행하는 데 거대한 모델이 필요하지 않으며 증류 모델은 고객 서비스 챗봇과 같은 시나리오나 휴대폰과 같은 소형 기기에서 실행하기에 충분히 강력하다고 말했습니다.
"비용을 낮추고 원하는 기능을 얻을 수 있다면 사용하지 않을 이유가 있을까요?" 그는 덧붙였습니다.
이 때문에 많은 선도적인 AI 기업의 비즈니스 모델이 도전받고 있습니다. 개발자가 OpenAI와 같은 회사의 간소화된 모델을 사용하더라도 운영 비용이 훨씬 저렴하고 구축 비용도 저렴하기 때문에 수익 창출이 적습니다. OpenAI와 같은 모델 개발자는 일반적으로 연산이 덜 필요하기 때문에 라이트 모델을 사용하는 데 더 적은 비용을 청구합니다.
그러나 OpenAI의 골드문트는 "기업들은 높은 수준의 정확성과 신뢰성을 위해 더 많은 비용을 기꺼이 지불할 의향이 있기 때문에" "고도의 지능과 고위험 작업"에는 여전히 대규모 언어 모델이 사용될 것이라고 주장합니다. 또한 새로운 기능을 발견한 다음 이를 더 작은 기능으로 축소하는 데에도 대규모 모델을 사용해야 할 것이라고 그는 덧붙였습니다.
그럼에도 불구하고 경쟁사 제품 학습에 사용하기 위해 대규모 모델이 추출되는 것을 막기 위해 노력하고 있습니다. OpenAI는 사용량을 모니터링하는 팀을 두고 있으며, 사용자가 대량의 데이터를 생성하여 경쟁사를 학습시키는 것으로 의심되는 경우 DeepSeek와 관련된 것으로 판단되는 계정에서 이미 수행한 것처럼 해당 사용자의 액세스 권한을 제거할 수 있습니다. 그런 식으로요. 하지만 이러한 작업은 대부분 사후에 이루어졌습니다.
기업용 정보 검색 도구를 개발하는 스타트업 컨텍스트 AI의 CEO 듀이 키라는 "OpenAI는 오랫동안 데이터 증발을 막기 위해 노력해왔지만 이를 완전히 피하기는 매우 어렵다"고 말합니다.
증류 기법은 개발자가 기술을 무료로 사용할 수 있는 개방형 모델 지지자들에게도 유리하며, 딥시크는 최신 모델을 개발자에게 공개했습니다.
"우리는 증류 기술을 즉시 사용하여 제품에 통합할 것입니다."라고 메타의 수석 인공 지능 과학자 리쿤 양은 말합니다. "이것이 바로 오픈 소스의 개념입니다. 이러한 프로세스가 공개되어 있는 한 다른 사람들의 개발로부터 혜택을 받을 수 있습니다."
또한 증류 기술은 모델 개발자가 수십억 달러를 들여 AI 시스템의 기능을 향상시킬 수 있지만, 최근 DeepSeek가 발표한 데이터에서 알 수 있듯이 여전히 경쟁업체의 추격에 직면할 수 있음을 의미합니다. 이는 이제 몇 달 안에 기능을 복제할 수 있는 대규모 언어 모델 구축의 선발주자 이점에 대한 의문을 제기합니다.
"이 급변하는 세상에서 ...... 실제로 많은 돈을 들여서 아주 열심히 하면 곧 이 분야의 다른 모든 사람들이 바로 뒤따를 것입니다."라고 IBM의 콕스는 말합니다. "그래서 흥미롭지만 까다로운 비즈니스 환경입니다."