겨울왕국 제휴: 청두의 데어리 퀸과 WGG의 NFT 콜라보레이션
데어리퀸과 WGG가 청두에서 얼음 디저트와 디지털 아트를 결합한 독특한 NFT 팝업을 선보이며 가상 영역을 넘어선 NFT 프로젝트의 적응력을 보여줬습니다.

저자: 수 양, 하오 보양, 출처: 텐센트 테크놀로지
AI 시대의 '삽질 판매자'인 젠슨 황과 그의 NVIDIA는 항상 산술은 잠들지 않는다고 믿어왔습니다.
추론이 산술 수요를 100배나 급증시켰다는 젠슨 황의 GTC 강연
오늘 GTC에서 젠슨 황은 새로운 블랙웰 울트라 GPU를 선보였습니다. 새로운 블랙웰 울트라 GPU와 이를 통해 파생된 서버 SKU, 추론과 에이전트, 그리고 블랙웰 아키텍처 기반의 RTX 제품군 버킷은 모두 연산 능력과 관련이 있지만, 그 다음으로 더 중요한 것은 끊임없이 흐르는 연산 능력을 어떻게 합리적이고 효과적으로 소비할 것인가 하는 것입니다.
황젠순이 보기에 AGI로 가는 길은 산술이 필요합니다. 에는 산술이 필요하며, 는 산술 연산이 필요합니다. 지능형 span> 로봇의 몸에는 산술 전력이 필요하고, 옴니버스를 구축하고 세계 모델은 가상 "평행 우주"의 최종 인간 건설에 대해 산술 전력의 지속적인 흐름이 더 필요하며, 얼마나 많은 산술 전력이 필요한지, 엔비디아는 과거에 100 번 답변을 제공했습니다.
GTC 현장에서 황 젠슨은 자신의 관점을 뒷받침하기 위해 2024년 미국 상위 4개 클라우드 팩토리에서 130만 개의 호퍼 아키텍처 칩을 구매하고, 2025년까지 이 데이터는 다음과 같이 치솟았다는 일련의 데이터를 제시했습니다. 360만 개의 블랙웰 GPU로
다음은 텐센트 테크놀로지가 정리한 NVIDIA GTC 2025 컨퍼런스의 핵심 사항입니다.
지난해 GTC에서 블랙웰 아키텍처를 공개하며 GB200 칩을 출시한 엔비디아는 올해 공식 명칭을 기존 루머로 떠돌던 GB300이 아닌 블락웰 울트라로 직접 명명했다.
하지만 하드웨어 측면에서 보면. 작년에 나온 새로운 HBM 메모리를 대체하는 것일 뿐입니다. 결론적으로 블랙웰 울트라 = 블랙웰 하이 메모리 버전이라고 이해하면 됩니다.
블랙웰 울트라는 2개의 TSMC N4P(5nm) 공정, 블랙웰 아키텍처 칩 + 그레이스 CPU 패키지로 구성되며, 이전 세대와 동일한 12층 적층 HBM3e 메모리와 결합하여 그래픽 메모리가 288GB로 향상되었습니다. 1.8TB/s의 칩 간 상호 연결 대역폭을 위한 5세대 NVLink를 지원합니다.
NVLink 이전 세대 성능 매개변수
스토리지 업그레이드에 따라 블랙웰 GPU는 최대 15페타플롭스의 FP4 정밀 연산을 달성할 수 있습니다. 가속 메커니즘을 통해 추론 속도를 호퍼 아키텍처 칩보다 2.5배 향상시킬 수 있습니다.
블랙웰 울트라 NVL72의 공식 이미지
NVIDIA는 GB200 NVL72와 마찬가지로 올해 총 18개의 컴퓨팅 트레이로 구성된 블랙웰 울트라 NVL72 인클로저를 출시했는데, 각 트레이에는 4개의 블랙웰 울트라 GPU + 2개의 그레이스 CPU가 들어 있습니다. 또한 총 72개의 블랙웰 울트라 GPU + 36개의 그레이스 CPU, 20TB의 비디오 메모리와 576TB/s의 총 대역폭, 9개의 NV링크 스위치 트레이(18개의 NV링크 스위치 칩), 130TB/s의 노드 간 NV링크 대역폭으로 구성됩니다.
이 캐비닛에는 14.4TB/s의 대역폭을 제공하는 72개의 CX-8 NIC가 내장되어 있으며, Quantum-X800 InfiniBand 및 Spectrum-X 800G 이더넷 카드는 지연과 지터를 줄여 대규모 AI 클러스터를 지원합니다. 또한 이 랙은 18개의 BlueField-3 DPU를 통합하여 멀티테넌트 네트워킹, 보안 및 데이터 가속을 강화합니다.
NVIDIA는 이 제품이 다음과 같은 시나리오를 통해 "AI 추론의 시대에 맞게" 맞춤화되었다고 설명합니다. 추론 AI, 에이전트 및 물리적 AI(로봇 공학, 지능형 주행 훈련 데이터 시뮬레이션 합성용), 이전 세대 제품 GB200 NVL72와 비교하여 1.5배 향상된 AI 성능, 동일한 위치의 DGX 인클로저 제품의 호퍼 아키텍처와 비교하여 데이터센터의 수익을 50배 높일 수 있는 기회를 제공할 수 있습니다.
제공된 공식 정보에 따르면, 6,710억 개의 매개변수 DeepSeek-R1의 추론은 H100 제품을 기준으로 초당 100개의 토큰을 처리할 수 있으며, 블랙웰 울트라 NVL72 솔루션을 사용하면 초당 1,000개의 토큰을 처리할 수 있습니다.
시간으로 환산하면 동일한 추론 작업을 H100에서 실행하는 데 1.5분이 걸리는 반면, Blackwell Ultra NVL72는 15초 만에 실행할 수 있습니다.
블랙웰 울트라 NVL72 및 GB200 NVL72 하드웨어 파라미터
NVIDIA에서 제공한 정보에 따르면, 블랙웰 NVL72 관련 제품은 2025년 하반기부터 출시될 것으로 예상됩니다. 2025년 하반기 시장, 서버 공급업체, 클라우드 팩토리, 산술 임대 서비스 제공업체 등 여러 범주의 고객
서버 공급업체
Cisco/Dell/HPE/Lenovo/Supermicro 및 기타 15개 제조업체
클라우드 팩토리
AWS/구글 클라우드/애저/오라클 클라우드 및 기타 주요 플랫폼
산술 임대 서비스 제공업체
코어위브/람다/요타 등
엔비디아의 로드맵에 따르면, GTC2025의 본고장은 블랙웰 울트라입니다.
그러나 젠슨 황은 또한 는 이 자리를 통해 2026년에 출시될 루빈 아키텍처 기반의 차세대 GPU와 더욱 강력한 캐비닛인 Vera Rubin NVL144 - 72개의 Vera CPU + 144개의 루빈 GPU와 288GB의 비디오 메모리, 13TB의 비디오 메모리 대역폭을 가진 HBM4 칩에 13TB/. s, 6세대 NVLink 및 CX9 NIC.
FP4 정밀도에서 3.6 ExaFLOPS의 추론 연산과 FP8 정밀도에서 1.2 ExaFlOPS의 훈련 연산으로 블랙웰 울트라 NVL72의 3.3배 성능을 제공하는 이 제품은 얼마나 강력할까요?
이것으로도 충분하지 않다면, 2027년에 더 강력한 루빈 울트라 NVL576 캐비닛이 출시될 예정이며, FP4 정밀도 추론 및 FP8 정밀도 훈련 연산은 각각 15 ExaFLOPS 및 5 ExaFLOPS로 Blackwell의 14배에 달합니다. Ultra NVL72.
엔비디아의 공식 루빈 울트라 NVL144 및 루빈 울트라 NVL576 파라미터
현 단계에서 블랙웰 울트라 NVL72의 요구 사항을 충족할 수 없고 하이퍼스케일 AI 클러스터를 구축할 필요가 없는 고객을 위해 NVIDIA의 솔루션은 다음을 기반으로 합니다. 블랙웰 울트라, 플러그 앤 플레이 DGX 슈퍼 POD AI 슈퍼컴퓨팅 팩토리를 기반으로 합니다.
플러그 앤 플레이 AI 슈퍼컴퓨팅 팩토리인 DGX Super POD는 주로 생성 AI, AI 에이전트 및 물리 시뮬레이션 전용 AI 시나리오를 지향하며 사전 훈련, 사후 훈련, 생산 환경에 이르기까지 산술적 확장에 필요한 전 과정을 다루고 있으며 첫 번째 서비스 제공업체로 Equinix가 선정되었습니다. 첫 번째 서비스 제공업체인 Equinix는 수냉식/공냉식 인프라 지원을 제공합니다.
블랙웰 울트라로 제작된 DGX 슈퍼포드
블랙웰 울트라를 기반으로 커스터마이징된 DGX 슈퍼포드에는 두 가지 버전이 있습니다."
내장형 DGX GB300(Grace CPU ×1+블랙웰 울트라 GPU ×2) 의 DGX SuperPOD, 총합계 288개의 그레이스 CPU + 576개의 블랙웰 울트라 GPU, 300TB의 빠른 메모리와 FP4 정밀도에서 11.5 엑사플롭스의 컴퓨팅 성능을 제공합니다
내장된 DGX B300의 이 버전은 Grace CPU 칩을 포함하지 않고 추가 확장 공간이 있으며 공랭식 시스템을 사용하며, 주요 애플리케이션 시나리오는 일반 엔터프라이즈 데이터센터
지난 1월, 엔비디아는 CES에서 3,000달러짜리 콘셉트 AI PC 제품인 프로젝트 디지츠(Project DIGITS)를 선보이며 주목을 받았다. 공식 명칭은 DGX Spark입니다.
제품 사양은 GB10 칩, 1페타플롭스에 달하는 FP4 정밀 연산 능력, 내장 128GB LPDDR5X 메모리, CX-7 NIC, 4TB의 NVMe 스토리지, Linux 기반 실행 Linux 기반의 맞춤형 DGX OS 운영 체제를 실행하고, Pytorch와 같은 프레임워크를 지원하며, NVIDIA에서 제공하는 일부 기본 AI 소프트웨어 개발 도구가 사전 설치되어 있고, 2천억 개의 파라메트릭 모델을 실행할 수 있습니다. 전체 시스템의 크기는 Mac mini와 비슷하며, 두 대의 DGX Spark를 서로 연결하면 4천억 개 이상의 파라미터를 가진 모델도 실행할 수 있습니다.
AI PC라고는 하지만 여전히 본질적으로 슈퍼컴퓨팅에 속하기 때문에 RTX와 같은 소비자 제품이 아닌 DGX 라인업에 배치되었습니다.
그러나 일부 사람들은 광고된 FP4 성능의 가용성이 낮아 RTX 5070이나 심지어 250달러짜리 Arc B580에 비하면 FP16 정확도에 불과해 가격 대비 성능이 매우 떨어진다는 불만을 제기하고 있습니다.
DGX 스파크 컴퓨터와 DGX 스테이션 워크스테이션
NVIDIA는 공식 명칭인 DGX 스파크 외에도 블랙웰 울트라 기반 이 AI 워크스테이션은 내장된 Grace CPU와 Blackwell Ultra GPU, 784GB의 통합 메모리, CX-8 NIC를 갖추고 있으며 20페타플롭의 AI 연산(공식적으로는 표시되지 않았으며 이론적으로는 FP4 정밀도)을 제공합니다.
앞서 소개한 제품은 Grace CPU와 Blackwell Ultra GPU 제품 SKU를 기반으로하며 모두 엔터프라이즈 급 제품이며, 많은 사람들이 AI 추론의 멋진 사용에서 RTX 4090 이런 종류의 제품을 고려할 때, NVIDIA 이번 GTC도 블랙웰과 RTX 시리즈의 통합을 더욱 강화하고 노트북, 데스크톱 및 데이터 센터 시나리오를 포괄하는 내장 GDDR7 메모리 AI PC 관련 GPU의 큰 물결을 출시했습니다.
데스크탑 GPU: RTX PRO 6000 블랙웰 워크스테이션 에디션, RTX PRO 6000 블랙웰 맥스-Q 워크스테이션 에디션 포함.
노트북 GPU: RTX PRO 5000 블랙웰, RTX PRO 4500 블랙웰, RTX PRO 4000 블랙웰
노트북 GPU: RTX PRO 5000. 블랙웰, RTX PRO 4000 블랙웰, RTX, PRO 3000 블랙웰, RTX PRO 2000 블랙웰, RTX PRO 1000 블랙웰, 및 RTX PRO 500 블랙웰
데이터센터 GPU: NVIDIA RTX PRO 6000 블랙웰 서버 에디션
NVIDIA, 엔터프라이즈 컴퓨팅을 위한 AI 구축
위 목록은 소형 워크스테이션부터 대규모 데이터센터 클러스터에 이르기까지 다양한 시나리오에 맞게 맞춤화된 Blackwell Ultra 칩 기반의 SKU 중 일부에 불과하며, NVIDIA 자체적으로 "Blackwell 제품군"(또는 "블랙웰 제품군")이라 부릅니다. NVIDIA 자체에서는 "블랙웰 제품군"이라고 부르며, "블랙웰 제품군 버킷"이라고 번역합니다.
공동 포장 광학 모듈(CPO)의 개념은 스위치 칩과 광학 모듈을 단일 패키지에 넣어 스위치를 광학 장치로 사용할 수 있도록 하는 것입니다. 스위치 칩과 광 모듈이 공동 캡슐화되어 광 신호를 전기 신호로 변환하여 광 신호의 전송 성능을 최대한 활용할 수 있습니다.
그동안 업계에서는 엔비디아의 CPO 네트워크 스위치 제품에 대해 논의해 왔지만 출시가 더뎠는데, 젠슨 황은 데이터센터에서 광섬유 연결이 광범위하게 사용되기 때문에 광 네트워크의 전력 소비가 매우 높을 수 있다고 즉석에서 설명했습니다. 광섬유 연결, 광 네트워크의 전력 소비는 컴퓨팅 리소스의 10%에 해당하며, 광 연결 비용은 컴퓨팅 노드의 스케일 아웃 네트워크와 AI 성능 밀도 향상에 직접적인 영향을 미칩니다.
GTC에서 선보인 두 개의 실리콘 광학 공동 캡슐화 칩 Quantum-X와 Spectrum-X
올해 GTC에서 NVIDIA는 실리콘 광학 공동 캡슐화 칩인 Quantum-X를 한 번에 출시했습니다, 퀀텀-X 실리콘-광학 공동 캡슐화 칩과 이 칩에서 파생된 세 가지 스위치 제품인 퀀텀 3450-LD, 스펙트럼 SN6810, 스펙트럼 SN6800.
Quantum 3450-LD: 144개의 800GB/s 포트, 115TB/s 백플레인 대역폭, 수냉식
Spectrum SN6810: 128. 800GB/s 포트, 102.4TB/s 백플레인 대역폭, 수냉식
Spectrum SN6800: 512 800GB/s 포트, 409.6TB/s 백플레인 대역폭, 수냉식
<위 제품들은 엔비디아가 CPO 파트너 생태계 공동 창작 및 개발을 기반으로 하는 플랫폼이라고 밝힌 '엔비디아 포토닉스'로 묶이는데, 예를 들어 TSMC의 광학 엔진을 기반으로 하는 마이크로 링 모듈레이터(MRM)를 탑재하고 있습니다. 이는 고출력, 에너지 효율적인 레이저 변조를 지원하도록 최적화된 TSMC의 광 엔진을 기반으로 하며 탈착식 광섬유 커넥터가 특징입니다.
흥미롭게도 이전 업계 소식통에 따르면 TSMC의 MRM은 3nm 공정과 CoWoS와 같은 첨단 패키징 기술을 기반으로 Broadcom과 함께 제작되었습니다.
NVIDIA의 데이터에 따르면 광학 모듈이 통합된 포토닉스 스위치는 기존 스위치에 비해 3.5배 향상된 성능을 제공하며, 1.3배 향상된 효율성과 10배 이상의 확장성 복원력을 갖추고 구축할 수 있다고 합니다.
황젠순이 AI 인프라의 "큰 파이"를 묘사하고 있다
Huang Jen-Hsun이 AI 인프라의 "큰 파이"를 묘사하고 있다
황젠순은 2시간 동안 진행된 GTC에서 약 30분 동안만 소프트웨어와 구현된 인텔리전스에 대해 이야기했기 때문에 공식 문서에서 많은 세부 사항을 파악할 수 있었습니다. 그래서 많은 세부 사항이 현장에서 나온 것이 아니라 공식 문서를 통해 추가되었습니다.
이번 전시회의 소프트웨어 발표는 단연 엔비디아 다이너모였습니다! 왕의 폭탄.
전체 데이터센터의 추론, 트레이닝 및 가속화를 위해 구축된 오픈 소스 소프트웨어로, Dynamo의 성능 수치는 매우 놀랍습니다: Dynamo는 기존 Hopper 아키텍처의 표준 라마 모델의 성능을 두 배로 향상시킵니다. 또한 DeepSeek와 같은 특수한 추론 모델의 경우, NVIDIA Dynamo의 의 지능형 추론 최적화를 통해 GPU당 생성되는 토큰 수를 30배 이상 늘릴 수 있습니다.
Jen-Hsun Huang은 Dynamo를 사용한 Blackwell이 Hopper보다 25배
향상된 성능은 주로 배포에 기인합니다. 사용자 쿼리를 이해하고 최적의 응답을 생성하는 LLM의 여러 계산 단계를 여러 GPU에 분산하여 각 단계를 독립적으로 최적화함으로써 처리량을 늘리고 응답 속도를 높입니다.
Dynamo의 시스템 아키텍처
예를 들어, 입력 전 단계인 입력 처리 단계에서 Dynamo는 사용자 입력을 처리하기 위해 GPU 리소스를 효율적으로 할당할 수 있습니다. 이 시스템은 여러 개의 GPU를 사용하여 사용자 쿼리를 병렬로 처리하는데, 이는 GPU가 보다 분산되고 빠른 방식으로 처리하기 위함입니다. Dynamo는 FP4 모드를 사용하여 여러 개의 GPU를 호출하여 사용자의 질문을 동시에 병렬로 "읽기"와 "이해"하고 한 그룹이 사용자의 쿼리를 처리하도록 합니다. "한 GPU 그룹은 2차 세계 대전에 대한 배경 지식을, 다른 그룹은 그 원인에 대한 역사적 정보를, 세 번째 그룹은 그 '여파'의 타임라인과 사건을 처리하는 단계로, 마치 여러 명의 연구 보조원이 한 번에 많은 양의 정보를 검토하는 것처럼 보입니다."라고 설명합니다. 이 단계는 마치 여러 명의 연구 조교가 동시에 많은 양의 정보를 검토하는 것과 같습니다.
출력 토큰 생성, 즉 디코딩 단계에서는 보다 집중적이고 일관된 GPU가 필요합니다. Dynamo는 GPU 간 통신과 리소스 할당을 최적화하여 일관되고 효율적인 응답 생성을 보장합니다. 한편으로는 NVL72 아키텍처의 고대역폭 NVLink 통신 기능을 최대한 활용하여 토큰 생성의 효율성을 극대화합니다. 다른 한편으로, '스마트 라우터'는 이미 관련 KV(키 값)를 캐시한 GPU로 요청을 전달하여 이중 계산을 방지하고 처리 속도를 크게 향상시킵니다. 이중 계산을 피한 결과, 일부 GPU 리소스가 확보되고 Dynamo는 이러한 확보된 리소스를 새로 들어오는 요청에 동적으로 할당할 수 있습니다.
이 아키텍처는 키미의 문케이크 아키텍처와 매우 유사하지만 기본 인프라에 대한 NVIDIA의 지원이 더 많습니다. 문케이크는 약 5배 정도 개선되었지만 Dynamo는 추론에서 훨씬 더 눈에 띄게 개선되었습니다.
예를 들어, Dynamo의 주요 혁신 중 "GPU 플래너"는 로드에 따라 GPU 할당을 동적으로 조정하고 "저지연 통신 라이브러리"는 GPU 할당을 최적화합니다. 'GPU 플래너'는 부하에 따라 GPU 할당을 동적으로 조정하고, '저지연 통신 라이브러리'는 GPU 간 데이터 전송을 최적화하며, '메모리 매니저'는 추론 데이터를 다양한 비용 수준의 저장 장치 간에 지능적으로 이동하여 운영 비용을 더욱 절감합니다. 또한 LLM 인식 라우팅 시스템인 '스마트 라우터'는 가장 적합한 GPU로 요청을 전달하여 중복 연산을 줄입니다. 이 모든 기능을 통해 최적의 GPU 로딩이 가능합니다.
이 소프트웨어 추론 시스템 제품군을 사용하면 단일 AI 쿼리를 위해 최대 1,000개의 GPU까지 대규모 GPU 클러스터로 원활하게 확장하여 데이터센터 리소스를 최대한 활용할 수 있습니다.
그리고 GPU 운영자의 경우, 이러한 개선으로 백만 토큰당 비용이 크게 절감되고 용량이 크게 증가합니다. 동시에 한 명의 사용자가 초당 더 많은 토큰을 받을 수 있으며, 응답 속도와 사용자 경험도 향상됩니다.
Dynamo로 서버가 처리량과 응답률 사이의 황금률 선에 도달하도록 하기
GPU 프로그래밍의 기본 기반이 되는 CUDA와 달리 Dynamo는 대규모 추론 로드를 지능적으로 분배하고 관리하는 데 중점을 둔 상위 시스템입니다. 애플리케이션과 기본 컴퓨팅 인프라 사이에 있는 추론 최적화를 위한 분산 스케줄링 계층을 담당합니다. 하지만 10여 년 전 CUDA가 GPU 컴퓨팅 환경에 혁명을 일으켰던 것처럼, Dynamo는 추론 하드웨어 및 소프트웨어 효율성에 대한 새로운 패러다임을 제시하는 데 성공할 수 있습니다.
Dynamo는 완전한 오픈 소스이며 PyTorch부터 Tensor RT까지 모든 주요 프레임워크를 지원합니다. 평소와 같이 오픈 소스이며 해자입니다. CUDA와 마찬가지로 NVIDIA의 GPU에서만 작동하며 NVIDIA AI 추론 소프트웨어 스택의 일부입니다.
이번 소프트웨어 업그레이드를 통해 NVIDIA는 Groq과 같은 전용 추론 AISC 칩에 대한 자체적인 방어 체계를 구축했습니다. 추론 인프라를 지배하려면 하드와 소프트의 조합이 필요합니다.
Dynamo는 서버 활용도 측면에서 정말 놀라울 정도입니다. 는 정말 놀랍지만, 트레이닝 모델에 관한 한 NVIDIA는 아직 진정한 내부자라고 하기에는 조금 부족합니다.
NVIDIA는 이번 GTC에서 효율성과 정확성에 초점을 맞춘 새로운 모델인 라마 네모트론(Llama Nemotron)을 사용했습니다. 이 모델은 라마 시리즈 모델에서 파생되었습니다. NVIDIA가 특별히 미세 조정한 이 모델은 라마 본체와 비교하여 알고리즘적으로 잘라내고 최적화하여 48B에 불과한 경량화를 실현했으며, o1과 유사한 추론 기능을 갖추고 있습니다. 클로드 3.7 및 그로크 3과 마찬가지로 라마 네모트론 모델에는 사용자가 켜거나 끌 수 있는 추론 능력 스위치가 내장되어 있습니다. 이 제품군은 엔트리급 나노, 중간급 슈퍼, 플래그십 울트라의 세 가지 등급으로 나뉘며, 각 등급은 다양한 규모의 비즈니스 요구 사항을 충족합니다.
라마 네모트론 관련 데이터
효율적이라고 하면, 이 모델을 위해 미세 조정된 데이터 세트는 전적으로 엔비디아 자체에서 생성한 합성 데이터로 구성되며 총 약 600억 개의 토큰으로 이루어져 있습니다. 전체 학습에 130만 H100시간이 소요된 DeepSeek V3에 비해, 파라미터 수가 1/15에 불과한 이 모델은 미세 조정에만 36만 H100시간이 소요되었습니다. 학습 효율성은 DeepSeek보다 한 단계 떨어집니다.
추론 효율성 측면에서 보면, Llama Nemotron Super 49B 모델은 단일 데이터센터 GPU에서 초당 3000개의 토큰을 처리하는 등 이전 모델보다 훨씬 뛰어난 성능을 보이며, 토큰 처리량은 Llama 3 70B의 최대 5배에 달합니다. 단일 데이터센터 GPU에서 초당 3000개의 토큰을 처리할 수 있습니다. 그러나 딥시크 오픈소스 데이 마지막 날에 발표된 데이터에 따르면, H800 노드당 평균 처리량은 사전 입력 시 약 73.7k 토큰/초(캐시 히트 포함), 디코딩 시 약 14.8k 토큰/초입니다. 이 둘의 차이는 여전히 상당합니다.
성능 측면에서 49B. 의 라마 네모트론 슈퍼는 모든 지표에서 70B의 워프보다 성능이 뛰어납니다 . DeepSeek R1 증류형 라마 70B 모델. 하지만 최근 퀀퀀 32B 모델과 같은 소형, 고출력 모델이 자주 출시되는 것을 고려하면 라마 네모트론 슈퍼는 이들 모델 중에서 R1과 제대로 겨뤄볼 만한 모델이 나오기 어려울 것으로 보입니다.
최악의 부분은 실제 망치와 같은 이 모델이 딥시크가 아마도 NVIDIA보다 훈련 중 GPU 튜닝에 대해 더 많이 알고 있다는 것을 보여준다는 것입니다.
NVIDIA가 추론 모델을 개발하는 이유는 무엇일까요? 올드 옐로우가 주목하고 있는 다음 단계의 AI, 즉 AI 에이전트를 준비하기 위해서입니다. OpenAI, Claude 및 기타 대형 업체들이 DeepReearch와 MCP를 통해 에이전트의 기반을 서서히 구축해 온 만큼, NVIDIA도 에이전트 시대가 도래했다고 믿고 있습니다.
NVIDA AIQ 프로젝트는 NVIDIA의 시도입니다. 라마 네모트론 추론 모델을 중심으로 기획자를 위한 기성 AI 에이전트 워크플로우를 직접 제공합니다. 이 프로젝트는 개발자가 엔비디아의 기술과 라이브러리를 보다 쉽게 통합할 수 있도록 사전 구성된 참조 워크플로, 템플릿 및 템플릿 세트를 지칭하는 엔비디아의 블루프린트 계층의 일부입니다. 그리고 AIQ는 NVIDIA에서 제공하는 에이전트 템플릿입니다.
NVIDA AIQ의 아키텍처
그리고 Manus와 같은 외부 도구와 웹 검색 엔진 및 기타 전문 AI 에이전트를 통합하여 에이전트 자체에서 다양한 도구를 검색하고 사용할 수 있습니다. 라마 네모트론 추론 모델은 사용자의 작업을 완료하기 위해 처리 솔루션을 계획, 반영 및 최적화하는 데 사용됩니다. 이 외에도 멀티 에이전트 워크플로우 아키텍처 구축을 지원합니다.
이 템플릿을 기반으로 한 서비스나우 시스템
마누스보다 한 단계 더 발전한 것은 기업 문서를 위한 정교한 RAG 시스템을 갖추고 있다는 사실입니다. 이 시스템에는 추출, 임베딩, 벡터 저장, 재정렬, 마지막으로 LLM을 통한 처리의 일련의 단계가 포함되어 있어 에이전트가 기업 데이터를 사용할 수 있도록 보장합니다.
또한 엔비디아는 AI 추론 모델을 기업 데이터 시스템에 연결하여 기업 데이터를 위한 딥리서치를 구성하는 AI 데이터 플랫폼도 소개했습니다. 이를 통해 스토리지 시스템은 더 이상 단순한 데이터 저장소가 아닌 능동적인 추론과 분석을 위한 지능형 플랫폼으로 진화할 수 있도록 스토리지 기술을 크게 발전시켰습니다. 스토리지 시스템은 더 이상 단순한 데이터 웨어하우스가 아니라 능동적인 추론 및 분석 기능을 갖춘 지능형 플랫폼입니다.
AI 데이터 플랫폼의 구성
또한, AIQ는 관찰 가능성과 투명성에 중점을 두고 있습니다. 이는 보안 및 후속 개선을 위해 중요합니다. 개발팀은 에이전트 활동을 실시간으로 모니터링하고 성능 데이터를 기반으로 시스템을 지속적으로 최적화할 수 있습니다.
전반적으로 NVIDA AIQ는 다양한 에이전트 기능을 제공하는 표준 에이전트 워크플로 템플릿입니다. 추론 시대로의 진화라고 할 수 있으며, 보다 완벽한 Dify 유형의 에이전트 구축 소프트웨어입니다.
에이전트에 집중하는 것이 여전히 현재에 베팅하는 것이라면, NVIDIA의 구현 지능에 대한 레이아웃은 미래를 완전히 통합하는 것으로 간주합니다.
모델, 데이터, 컴퓨팅 성능은 NVIDIA가 마련한 모델의 세 가지 요소입니다.
모델부터 살펴보면, 올해 1월에 발표한 구현형 인텔리전스의 기본 모델인 코스모스의 업그레이드 버전이 GTC에서 공개되었습니다.
코스모스는 현재 이미지로부터 미래 이미지를 예측할 수 있는 모델입니다. 텍스트/이미지 입력 데이터를 받아 상세한 영상을 생성하고, 현재 상태(이미지/영상)와 동작(큐/제어 신호)을 결합하여 장면의 진화를 예측할 수 있습니다. 이를 위해서는 세계의 물리적 인과 법칙에 대한 이해가 필요하기 때문에 NVIDIA는 코스모스를 세계 기반 모델(WFM)이라고 부릅니다.
코스모스의 기본 아키텍처
구체화된 지능의 경우, 기계의 행동이 외부 세계에 어떤 영향을 미칠지 예측하는 능력이 가장 핵심입니다. 그래야만 예측을 기반으로 행동을 계획할 수 있으므로 세계 모델이 구체화된 지능의 기본 모델이 됩니다. 이 기본 행동/시간-물리-세계 변화 예측 모델을 자율 주행 및 로봇 작업과 같은 특정 데이터 세트에 따라 미세 조정하면 물리적 형태를 갖춘 다양한 구현 지능의 실질적인 기반 요구 사항을 충족할 수 있습니다.
전체 모델은 세 부분의 기능으로 구성되며, 첫 번째 부분인 코스모스 트랜스퍼는 구조화된 비디오 텍스트 입력을 제어된 리얼리즘 비디오 출력으로 변환하여 텍스트에서 대규모의 합성 데이터를 무에서 유를 생성합니다. 이를 통해 현재 구현된 인텔리전스의 가장 큰 병목 현상인 데이터 부족 문제를 해결합니다. 또한 이 생성은 '제어형' 생성으로, 사용자가 특정 매개변수(예: 기상 조건, 물체 속성 등)를 지정하면 모델이 그에 따라 생성 결과를 조정하여 데이터 생성 프로세스를 더욱 제어 가능하고 목표에 맞게 조정할 수 있습니다. 전체 프로세스는 Ominiverse와 Cosmos에서 결합할 수도 있습니다.
오미니버스 기반 코스모스 현실 시뮬레이션
2부 코스모스 프리딕트는 멀티모달 입력에서 가상 세계 상태를 생성할 수 있으며, 멀티 프레임 생성 및 액션을 지원합니다. 궤적 예측을 지원합니다. 즉, 시작 상태와 종료 상태가 주어지면 모델이 그럴듯한 중간 프로세스를 생성할 수 있습니다. 이것이 바로 핵심적인 물리적 세계 인식 및 구성 기능입니다.
세 번째 구성 요소는 시공간 인식 기능을 갖춘 개방형 완전 맞춤형 모델로, 연쇄 추론을 통해 비디오 데이터를 이해하고 상호 작용의 결과를 예측하는 Cosmos Reason입니다. 이는 행동을 계획하고 행동 결과를 예측하는 향상된 기능입니다.
이 세 가지 기능이 점진적으로 서로 겹쳐지면서 코스모스는 사실적인 이미지 토큰 + 텍스트 명령 프롬프트 토큰 입력에서 머신 액션 토큰 출력에 이르는 완전한 행동 체인을 수행할 수 있습니다.
이 기본 모델은 실제로 잘 작동해야 합니다. 출시 후 불과 두 달 만에 1X, Agility Robotics, Figure AI 등 세 개의 주요 기업이 이 모델을 사용하기 시작했습니다. 큰 언어 모델이 선두를 달리고 있지는 않지만, 구현된 인텔리전스 NVIDIA는 정말 최고 수준입니다.
NVIDIA는 코스모스를 통해 자연스럽게 프레임워크를 미세 조정하여 다음과 같이 개선했습니다. 휴머노이드 로봇 전용 기본 모델인 Isaac GR00T N1을 훈련시켰습니다.
이삭 GR00T N1의 듀얼 시스템 아키텍처
빠른 응답을 위한 듀얼 시스템 아키텍처가 특징입니다. "시스템 1"과 심도 있는 추론을 위한 "시스템 2"로 구성되어 있습니다. 잡기, 이동, 양팔 조작과 같은 일반적인 작업을 처리하도록 완벽하게 미세 조정되었습니다. 또한 특정 로봇에 맞게 완벽하게 사용자 정의할 수 있으며 로봇 개발자가 실제 또는 합성 데이터를 사용하여 사후 학습할 수 있습니다. 따라서 다양한 형태와 크기의 거의 모든 종류의 로봇에 이 모델을 적용할 수 있습니다.
예를 들어, 뉴턴 물리 엔진에 대한 NVIDIA와 Google DeepMind 및 Disney의 협업에서는 Isaac GR00T N1을 기반으로 매우 흔하지 않은 소형 디즈니 BDX 로봇을 구동했습니다. 물리 엔진으로서의 뉴턴은 매우 섬세하기 때문에 가상 환경에서 구현된 지능을 훈련하기 위한 물리적 보상 시스템을 구축하기에 충분합니다.
NVIDIA는 위에서 언급한 엔비디아 옴니버스와 엔비디아 코스모스 트랜스퍼 월드 베이스 모델을 결합하여 아이작 GR00T 블루프린트를 만들었으며, 소수의 인간 데모로부터 대량의 합성 움직임 데이터를 생성하여 다음을 위한 로봇 조작 훈련을 위해 블루프린트의 첫 번째 구성 요소를 사용하여 단 11시간 만에 6,500시간(약 9개월)의 인간 데모 데이터에 해당하는 780,000개의 합성 궤적을 생성했습니다.Isaac GR00T N1 데이터의 상당 부분이 이 소스에서 나왔으며 이 데이터를 통해 GR00T N1은 실제 데이터만 사용할 때보다 최대 40퍼센트 향상된 성능을 발휘할 수 있었습니다. . 트윈 시뮬레이션 시스템 순수 가상 시스템인 Omniverse와 실제 이미지 생성 시스템인 Cosmos Transfer를 통해 NVIDIA는 각 모델에 대해 다음과 같은 고품질 데이터를 제공할 수 있습니다. 고품질의 데이터를 제공할 수 있습니다. 이것이 NVIDIA가 다루는 모델의 두 번째 측면이기도 합니다. 작년부터 라오 황은 GTC에서 '세 가지 컴퓨터' 개념을 강조해왔습니다. 하나는 구현된 지능을 포함한 AI를 훈련하는 데 사용되는 대형 GPU용 서버인 DGX입니다. 다른 하나는 엣지 컴퓨팅 및 자율 시스템을 위한 엔비디아의 임베디드 컴퓨팅 플랫폼인 AGX로, 자율주행이나 로보틱스용 코어 칩과 같이 엔드단에서 AI를 구체적으로 구현하는 데 사용됩니다. 세 번째는 데이터 생성 컴퓨터 옴니버스+코스모스입니다. 구체화된 지능의 3대 컴퓨팅 시스템 이 시스템 세트는 이번 GTC에서 황이 재조명했으며, 그는 특히 이 컴퓨팅 파워로 10억 달러 규모의 시스템을 만들 수 있으며, 이는 세계에서 가장 진보된 컴퓨팅 시스템을 만드는 데 도움이 될 것이라고 언급했다. 이 시스템은 10억 대의 로봇을 탄생시킬 수 있습니다. 훈련에서 배포에 이르기까지 산술 연산 능력은 NVIDIA가 사용합니다. 루프의 이 부분도 닫혀 있습니다. 이전 세대 블랙웰 칩과 순수하게 비교한다면, 블랙웰 울트라는 하드웨어 측면에서 이전 세대 블랙웰 칩과 실제로 일치하지 않는다고 볼 수 있습니다. 블랙웰 울트라는 '핵폭탄'과 '폭탄'이라는 이전 형용사와는 전혀 어울리지 않으며, 심지어 치약에 가깝기도 합니다. 그러나 로드맵 계획의 관점에서 보면, 이 모든 것이 루빈 아키텍처 다음 해인 내년에 칩 공정에서 트랜지스터, 랙 통합, GPU 상호 연결 및 캐비닛 상호 연결 및 기타 사양이 크게 개선될 것이라는 젠슨 황의 레이아웃에 담겨 있으며, 중국인들은 다음과 같이 말하곤 했죠. "쇼는 아직 오지 않았습니다. 파이의 하드웨어 수준과 대조적으로 소프트웨어 수준에서 지난 2년간 NVIDIA는 거친 승차감이라고 할 수 있습니다. 엔비디아의 전체 소프트웨어 생태계를 살펴보면, 메노, 님, 블루프린트 3단계 서비스부터 모델 최적화, 모델 캡슐화, 애플리케이션까지 풀 스택 솔루션을 구축할 수 있습니다. 클라우드 서비스 기업의 에코시스템은 모든 NVIDIA AI와 겹칩니다. 이 새로운 에이전트, AI 인프라와 함께 엔비디아는 이 파이의 기본 모델에 더해 모든 부분을 먹어치우는 역할을 하고 있습니다. 소프트웨어 이 부분, 오래된 노란 식욕, 그리고 NVIDIA의 주가는 그만큼 큽니다. 로봇 시장에서 NVIDIA의 야망은 더 큽니다. 모델, 데이터, 산술 세 가지 요소를 손에 쥐고 있습니다. 기본 언어 모델의 머리, 구성하는 기본 구현 된 지능의 머리를 따라 잡지 못했습니다. 그림자와 그림자, 독점 거인의 구현된 지능 버전이 이미 지평선에 머리를 내밀었습니다. 내부에서는 각 링크, 각 제품이 잠재적인 1,000억 달러 시장에 해당합니다. 초창기에 홀로 베팅을 했던 행운의 도박왕 젠슨 황은 GPU 독점권을 통해 얻은 돈으로 더 큰 베팅을 하기 시작했습니다. 이 도박, 소프트웨어 또는 로봇 시장의 양쪽에서 먹이를 찾는다면, 엔비디아는 먹이사슬의 최상위 독점기업인 AI 시대의 구글입니다. 그러나 NVIDIA의 GPU 마진을 보면 여전히 그 미래를 기대할 수 있습니다. 감사하게도, 이것은 그가 한 번도 관리해본 적이 없는 게임인 올드 옐로우에게 큰 도박이며, 그가 이길지 질지는 알기 어렵습니다. 3) 트리니티 컴퓨팅 시스템, 훈련부터 종료까지 로봇 컴퓨팅 제국 구축
결론
데어리퀸과 WGG가 청두에서 얼음 디저트와 디지털 아트를 결합한 독특한 NFT 팝업을 선보이며 가상 영역을 넘어선 NFT 프로젝트의 적응력을 보여줬습니다.
JP 모건 오닉스, 아폴로 글로벌 등 주요 금융 기관은 싱가포르 통화청과 협력하여 간소화된 포트폴리오 관리를 위한 블록체인 통합을 모색하고 있습니다.
Google은 정교한 멀웨어 사기를 저지른 혐의로 3명의 개인을 상대로 소송을 제기했습니다. 피고인들은 Google의 상표를 악용하여 기만적인 소셜 미디어 프로필을 사용하여 Google의 AI 챗봇인 Bard의 업그레이드로 위장한 멀웨어를 배포했습니다. 이 법적 소송은 손해배상을 청구하는 동시에 AI 기술 시대에 디지털 보안의 중요성이 커지고 있음을 강조합니다.
SEC는 그레이스케일의 이더리움 ETF 결정 기한을 2024년 1월 1일까지 연장하며, 경쟁 환경과 진화하는 시장 역학 관계 속에서 그레이스케일의 전략적 움직임에 불확실성을 불러일으켰습니다.
데어리퀸, 중국 청두에서 위어도 고스트 갱 콜라보레이션으로 NFT에 입문하다. '얼음과 눈의 계절' 팝업은 간식을 제공할 뿐만 아니라 방문객을 NFT 체험에 몰입하게 하여 전통 비즈니스와 디지털 혁신의 융합을 강조합니다.
NHL 브레이크어웨이 NFT 플랫폼은 Sweet와 협력하여 디지털 수집품 분야에 진출하여 하키 팬들에게 특별한 경험을 제공합니다. 19달러로 책정된 시리즈 1 스타터 팩은 기억에 남는 순간을 담아 커뮤니티 참여를 촉진하고 주요 스포츠 리그에 NFT를 통합하는 중요한 이정표를 세웠습니다.
미국 증권거래위원회(SEC)가 그레이스케일의 이더리움 선물 신탁에 대한 조사를 연장했으며, 이는 미국 내 암호화폐 상장지수펀드(ETF)의 궤도에 영향을 미칠 수 있는 결정입니다.
CEO 줄리안 호스프가 이끄는 케이크 그룹은 핵심 사업인 베이크에 집중하기 위해 52명의 팀원을 감원하고 구조조정을 단행하는 한편, 암호화폐 환경의 어려움 속에서 전략적 전환을 위한 케이크 2.0을 발표했습니다.
청두의 데어리퀸은 위어도 고스트 갱과의 색다른 NFT 콜라보레이션으로 매장을 '유령 스키 리조트' 팝업으로 바꾸고, 한정판 상품과 독특한 아이스크림을 선보이며 놀라움을 선사했습니다.
상당수의 OpenSea 사용자가 가짜 개발자 API 위험 경고 및 가짜 NFT 제안과 같은 기만적인 수법을 특징으로 하는 광범위한 이메일 피싱 캠페인을 경험한 바 있습니다.