저자: 우지, Tencent Technology 특별 편집
11월 19일(베이징 시간), 구글의 제미니 3 시리즈 모델 출시를 맞아 뉴욕타임스의 기술 팟캐스트인 하드 포크(Hard Fork) 는 진행자인 케빈 루즈와 케이시 뉴턴이 구글 딥마인드 CEO 데미스 하사비스와 구글 제미니 팀장 조쉬 우드워드와 인터뷰한 특별 에피소드를 공개했습니다.

이 인터뷰는 Google의 플래그십 AI 모델인 Gemini 3(실제로 Gemini 3.0 시리즈의 프로 버전)의 최신 출시에 초점을 맞추고 있습니다. 바드 실패와 제미니 1.x 및 2.x의 추격 단계 이후 기술 및 제품 리더십을 회복한 것으로 업계에서 널리 평가받는 구글의 첫 번째 획기적인 출시작입니다.
두 책임자는 다단계 추론, 코드 생성(특히 프론트엔드 및 '앰비언트 코딩'), 동적으로 생성되는 상호 작용에서 Gemini 3의 획기적인 발전을 자세히 설명하며 Google이 검색에 가장 강력한 모델을 빠르게 구축했다고 강조했습니다, Gmail, 워크스페이스 및 기타 수십억 명의 사용자를 대상으로 하는 제품을 통해 경쟁의 장벽을 재편하고 있습니다.
>
인터뷰의 핵심 인사이트:
Gemini 3는 범용 AI의 관점에서 사용자 관점으로 발전하는 예상 궤적에 완전히 부합하고 있습니다. strong>아직도 범용 AI(AGI)에서 5~10년, 1~2개의 주요 연구 돌파구;
효율성, 비용, 배포 등 풀스택의 강점을 바탕으로 어떤 시장 환경에서도 승자가 될 수 있습니다.
< li>AI 버블은 부분적으로 존재하지만, Google은 단기 현금과 장기 수조 달러 규모의 새로운 트랙이라는 이중 보증을 모두 갖추고 있습니다.
>
이번 인터뷰의 요약본은 다음과 같습니다
Rhodes: 캐시, 오늘 이 쇼의 특별 즉흥 편에서는 Gemini 3 출시에 대해 다뤄보겠습니다. 제미니 3의 출시입니다.
뉴턴: 네, 케빈. 실리콘밸리 AI 업계에서 오랫동안 기다려온 모델인데, 드디어 실제 완제품을 손에 넣을 수 있게 되었습니다.
Rhodes: 금요일에 정기적으로 공개하던 관행을 깨고 이 에피소드를 단독으로 녹화하게 된 데에는 크게 두 가지 이유가 있습니다. 첫째, 구글의 핵심 AI 책임자 두 명(DeepMind CEO 하사비스와 Gemini 팀 부사장 우드워드)과 독점 인터뷰를 할 수 있는 기회가 주어졌기 때문입니다.
둘째, Gemini 3의 출시는 업계의 뜨거운 관심을 불러 일으켰습니다. 여러 연구소 관계자들로부터 이 모델이 일부 핵심 영역에서 획기적이며 경쟁업체에 상당한 위협이 될 수 있다는 이야기를 들었습니다. 지난 2년 동안 구글은 추격하는 것으로 여겨졌지만, 이제 문제는 다시 선두로 돌아왔느냐는 것입니다.
뉴턴: 공식 인터뷰에 들어가기 전에 알려진 내용을 간략히 살펴보겠습니다. 구글은 출시에 앞서 비공개 브리핑을 열었는데, Gemini 3의 가장 주목할 만한 새로운 기능은 크게 향상된 코딩 및 '앰비언트 코딩' 기능, 새로운 대화형 인터페이스 생성 기능입니다.
제미니 3는 단순히 텍스트를 출력하는 대신 사용자를 위해 직접 맞춤형 인터랙션을 생성합니다. 예를 들어 사용자가 반 고흐의 생애에 대해 질문하면 이 모델은 이미지, 타임라인, 대화형 요소가 포함된 전체 학습 페이지를 즉시 생성하거나 백만 달러가 넘는 부동산에 대한 모기지 계산기를 생성합니다. 이러한 기능은 '질문에 대한 답변'에서 '경험 구축'으로의 도약을 의미합니다.
>
Rhodes: Gemini 3는 소위 "인간성 테스트"("궁극의 인간 테스트")를 비롯한 모든 공개 벤치마크에서 Gemini 2.5 Pro보다 훨씬 뛰어난 성능을 발휘합니다. 예를 들어 '인류의 마지막 시험'으로 알려진 여러 학문을 아우르는 박사급 문제 세트에서 전자는 21.6%에 그친 반면 후자는 37.5%를 기록했습니다."라고 설명합니다. Google의 전반적인 입장은 ChatGPT, Claude 또는 기타 이전 Gemini 버전에서 할 수 있는 모든 작업은 Gemini 3에서 더 잘할 수 있다는 것입니다.
Newton:
;또한 사용자의 받은 편지함에 심층적으로 액세스하여 이메일의 전체 내용을 이해하고 자동으로 분류하여 답장을 작성하고 사용자가 받은 편지함을 완전히 비울 수 있도록 도와주는 모델인 Gemini 에이전트의 초기 데모를 선보였습니다.
또한 이번 주부터 Gemini 3는 Gemini 앱과 Google 검색의 AI 모드에서 사용할 수 있으며, 미국 대학생은 1년간 무료로 프리미엄 액세스를 이용할 수 있습니다. Google의 반복되는 키워드는 '무엇이든 배우기'로, 이를 통해 Gemini는 최고의 개인 맞춤형 교육 도구로 자리매김하고 있습니다.
Roz: 데미스, 조쉬, 하드포크에 오신 것을 환영합니다. 2년 전 순다르 피차이는 제미니를 트랙에서 치열한 경쟁을 벌이는 "개조된 혼다 시빅"에 비유한 바 있습니다. 그렇다면 제미니 3는 무엇일까요?
하사비스: 혼다 시빅보다는 훨씬 빠를 것으로 예상합니다. 자동차에 비유하는 건 좀 그렇고, 프로 드래그 레이서(드래그 레이서)에 비유하는 편이 더 어울릴 것 같아요. 일상적인 주행이나 서킷 레이싱을 위해 설계된 것이 아니라 특정 목표를 위해 순수하고 엄청난 파워가 결합되어 있습니다. 인텔리전스의 최전선을 향한 이 경주에서 타의 추종을 불허하는 순간적인 폭발력을 보여주기 위해 최고의 연구와 규모 있는 산술의 완벽한 조합을 보여줍니다.
Rhodes: 흥미롭군요. Gemini 3는 이전의 모든 AI 모델과 비교했을 때 특정 수준에서 완전히 새로운 기능을 정확히 어떤 방식으로 수행할 수 있나요? 정량적인 실제 사례를 들어 설명해 주세요.
Woodward: 세 가지가 눈에 띕니다. 첫째, 다단계 추론의 경우 동시에 더 많은 단계를 생각할 수 있으며, 완전히 새로운 수준의 신뢰성을 확보했습니다. 이전 모델은 복잡한 로직의 5단계 또는 6단계에서 "길을 잃거나" 환각에 빠지는 경우가 많았지만, Gemini 3는 복잡한 세금 계획, 해외 여행의 전반적인 계획 및 예약, 수백만 줄의 코드가 포함된 대규모 시스템의 전체 디버깅 등 10~15단계의 일관된 추론을 안정적으로 수행합니다.
둘째, 처음으로 새로운 대화형 인터페이스가 대규모로 생성됩니다. 사용자는 단순한 텍스트 답변 대신 맞춤형 소프트웨어 구성 요소를 갖게 됩니다. 예를 들어, "내 모든 포트폴리오를 추적하는 대시보드 디자인 도와줘"라고 요청하면 대시보드 만드는 방법을 설명하는 텍스트가 아니라 실시간으로 실행 가능한 대화형 대시보드 인터페이스를 생성합니다.
셋째, 코딩 기능, 특히 프런트엔드 및 '앰비언트 코딩' 기능에 많은 투자를 했습니다. 즉, 자연어 단서를 기반으로 완전한 기능을 갖추고 아름답게 디자인된 UI 코드를 생성할 수 있습니다. 이 기능은 곧 출시될 Google 안티그래비티와 같은 신제품에서 본격적으로 선보일 예정이며, 컨텍스트에 따라 사용자 인터페이스의 레이아웃과 기능을 동적으로 변경할 수 있습니다.
Newton:
많은 사람들이 '채팅'의 사용 사례는 일반 사용자에게는 거의 해결되었다고 생각합니다. 그들은 Gemini 3의 답변을 이전 버전과 질적으로 다르게 만들 새로운 질문을 생각조차 하지 못합니다. 이 견해에 대해 어떻게 생각하시나요?
Woodward: 저도 그런 관점을 이해합니다. 표면적으로 보면 기본적인 퀴즈는 이미 매우 정확합니다. 하지만 진정한 차이는 정보의 신뢰성, 통합성 및 표현에 있습니다. 제미니 3의 답변은 더 간결하고 표현력이 풍부하며 이해하기 쉬운 방식으로 정보를 제시하기 때문에 대부분의 사람들이 즉시 알아차릴 수 있는 변화라고 할 수 있습니다.
더 중요한 것은 이 모델이 단순한 Q&A 모델을 넘어 사용자의 '디지털 집사'가 되기 위해 Google 에코시스템의 다른 제품 등 다른 데이터 소스와 긴밀하게 통합되기 시작했다는 점입니다. 전체 받은 편지함의 맥락을 이해하여 답장을 작성할 때 질문에 대한 답변뿐만 아니라 사용자의 과거 스타일과 수신자와의 관계에 따라 어조와 내용을 조정합니다.
Hassabis: 전적으로 동의합니다. 신뢰성, 스타일, 개성이 더 간결하고 핵심을 찌르도록 세심하게 다듬어졌어요. '앰비언트 코딩'과 같은 시나리오에서 유용성의 문턱을 넘어섰습니다. '지능형 비서'에서 '지능형 동료'로의 전환입니다. 개인적으로 크리스마스 연휴에 게임 프로그래밍을 다시 시작할 계획인데, 이제 기능 코드를 작성할 수 있을 뿐만 아니라 설계 프로세스 초기에 아키텍처 조언도 제공할 수 있게 되었습니다.
Rhodes: 올해 5월에 저희와의 인터뷰에서 데미스는 AGI는 아직 5~10년 정도 남았으며 여러 가지 중요한 돌파구가 필요할 것이라고 판단하셨죠.
하사비스: 전혀 그렇지 않습니다. 지난 2년간 우리가 설정한 궤적과 완벽하게 일치합니다. 사실 제미니 시리즈 출시 이후 업계에서 가장 빠른 속도로 발전해왔고, 제미니 3도 놀라웠지만 여전히 기대치에 미치지 못했습니다. 제미니 3는 놀랍지만 여전히 기대치 이내입니다.
진정한 일반 AI를 구현하기 위해서는 일관성, 추론의 깊이, 메모리 메커니즘, 물리적 세계 모델링(우리가 진행하고 있는 SIMA 및 Genie 프로젝트 등)에서 한두 가지 중요한 돌파구를 만들어야 할 필요가 있습니다. 현재 우리가 하고 있는 것은 '시스템 1 사고'(빠르고 직관적)이지만, AGI를 달성하려면 '시스템 2 사고'(느리고 신중하며 분석적)를 활용해야 합니다.
>
또한 모델은 제한된 맥락에 국한되지 않고 몇 주, 몇 달 전의 특정 상호작용의 내용을 기억하고 적용할 수 있는 장기적이고 선택적인 기억 메커니즘을 갖춰야 합니다. 따라서 5~10년 동안 변하지 않는 판단을 내릴 수 있어야 합니다.
Newton: 업계에서는 모델 성격과 사용자 간의 관계 측면에서 'AI 메이트'에 대해 많은 논의가 이루어지고 있습니다. 사용자가 제미니 3와 어떤 관계를 맺기를 바라시나요?
Woodward: 매우 민감하지만 중요한 질문입니다. 저희는 감성적인 동반자라기보다는 '슈퍼 도구'로 포지셔닝하고 있으며, 사용자가 일상 업무를 효율적으로 수행하고 생산성을 높일 수 있도록 돕는 것을 핵심 가치로 삼고 있습니다. 내부적으로는 '오늘 얼마나 많은 작업을 완료하는 데 도움을 주었는가'라는 새로운 지표에 초점을 맞추고 있습니다. 이는 기존 Google 검색의 핵심 가치인 효율성에 더 가깝습니다. Google은 이 모델을 감정적 동반자의 위치로 밀어붙이는 것은 보안상 위험할 뿐만 아니라 정보와 도구를 제공하는 Google의 핵심 사명에서 벗어나는 것이라고 생각합니다.
Rhodes: '에로틱한 동반자'라는 바이럴 성장 기회를 놓친 것은 중대한 전략적 실수였나요?
Woodward: 노코멘트입니다. 저희 보안팀에는 이에 대한 엄격한 규범과 지침이 있습니다.
Rhodes: 지난 몇 주 동안 경쟁업체들이 눈에 띄게 긴장하고 있습니다. 현재 AI 경쟁에서 구글이 앞서 있다고 생각하시나요?
하사비스: 현재 환경은 그 어느 때보다 경쟁이 치열합니다. 정말 중요한 것은 발전 속도뿐이고, 저희는 그 점에 매우 만족하고 있습니다. 우리는 연구 주도권을 잃은 적이 없으며, 이제는 제품 출시가 따라잡고 있을 뿐입니다. 경쟁사들은 연구 분야에서는 뛰어나지만 대규모 배포와 수직적 통합에 있어서는 우리의 강점을 따라잡을 수 없습니다.
지도, YouTube, Android, 검색, 워크스페이스 등 수십억 개의 사용자 제품에 Gemini를 도입하고 있으며, 이러한 배포 네트워크와 엔드포인트 데이터 피드백 루프는 철통 같은 방어벽입니다. 또한 맞춤형 TPU 칩의 풀스택 이점은 외부 GPU 리소스에 의존하는 경쟁사보다 훈련 비용과 효율성을 훨씬 앞서게 합니다.
Newton: 규모의 법칙과 수익률 감소 논쟁에 대해 어떻게 생각하시나요? 모델의 규모가 커질수록 성과 개선의 한계 이익이 낮아진다는 주장이 있습니다.
하사비스: 이 논쟁은 현재 진행 중인 논쟁입니다. 저희는 2.5 버전에 비해 Gemini 3의 개선에 매우 만족하고 있으며, 예상했던 대로입니다. 투자 회수가 초기처럼 기하급수적으로 폭발적이지는 않지만, 점진적인 유용성 및 안정성 개선으로 인해 여전히 한계 비용을 훨씬 상회하며 전체 투자 가치가 있습니다. AGI에 도달하는 데 필요한 1~2개의 연구 혁신이 이루어질 때까지 가장 큰 기본 모델을 통해 지속적으로 성능을 향상시키는 것이 오늘날 가장 효과적인 전략으로 남아 있습니다. 규모의 법칙은 여전히 유효하다고 믿습니다.
Rhodes: 우리는 AI 버블에 빠져 있을까요?
하사비스: 너무 이분법적인 질문입니다. 특정 분야(예: 실제 제품 없이 개념만 있는 회사의 수십억 달러 규모의 시드 라운드)에는 실제 수익에 비해 밸류에이션이 불균형한 거품이 있는 것은 사실입니다. 하지만 Google은 단기적으로 실현 가능한 분야(검색, Workspace, 클라우드 TPU)와 장기적으로 수조 달러 규모의 새로운 분야(로봇공학, 게임, 신약 개발, 재료 과학 등)를 모두 보유하고 있습니다.
예를 들어, 알파폴드와 같은 전문화된 모델은 소비자 AI 가치와는 별개로 수조 달러 규모의 시장인 신약 개발 분야에서 실질적인 가치를 창출하고 있습니다. 우리는 호황기에는 기회를 포착하고 불황기에는 풀스택 이점과 풍부한 현금 흐름으로 더욱 탄력적으로 대응함으로써 단기적인 거품과 상관없이 승리할 것입니다.
Newton: 추수감사절 모임에서 누군가 정치적 대화로 화제를 돌리고 싶다면, Gemini 3의 어떤 기능을 자랑하여 사람들을 놀라게 하라고 제안하고 싶으신가요?
Woodward: 추수감사절을 구할 수 있을지는 모르겠지만 웃음을 선사할 수는 있을 것 같습니다. 휴대폰을 꺼내서 셀카를 찍은 다음 Gemini 3가 미친 듯이 사진을 편집하게 해 보세요.
제미니의 이미지 모델은 여전히 세계 최강의 성능을 자랑합니다. 가족 단체 사진을 코믹한 장면, 스타일 또는 시대 배경으로 즉시 바꿀 수 있습니다. 확실히 웃음을 유발할 것입니다. 그런 다음 멋진 사직서를 작성하거나 맞춤형 명절 레시피 계산기를 생성하는 데 도움이 되는 방법을 보여 주면 다른 새로운 기능을 탐색하는 것은 당연한 일입니다.