바이낸스 CEO, 암호화폐 사용자를 노리는 '주식-씨앗-문구' 사기 증가 경고
사기꾼이 피해자를 속여 자신이 관리하는 지갑으로 자금을 이체하도록 유도하는 새로운 "공유-씨앗-문구" 사기가 암호화폐 사용자를 대상으로 발생하고 있습니다. 바이낸스 CEO 리처드 텅은 사용자들에게 경계를 늦추지 말고 원치 않는 개인 정보 요청에 응하지 말 것을 경고했습니다.
Weatherly
자콥 자오 @IOSG
인공 지능은 '패턴 맞추기'에 중점을 두던 것에서 벗어나 "패턴 피팅" 기반 통계 학습에서 "구조적 추론"을 중심으로 한 기능 체계로, 사후 학습(post-training)을 핵심으로 하는 역량 체계로 전환하고 있습니다. 교육)의 중요성이 급부상하고 있습니다. DeepSeek-R1의 등장은 빅 모델 시대에 강화 학습의 패러다임 전환을 의미하며, 사전 훈련은 모델의 전반적인 역량 기반을 구축하고, 사후 훈련은 강화학습은 더 이상 단순한 가치 정렬 도구가 아니라 추론 체인의 품질과 복잡한 의사결정 능력을 체계적으로 향상시키는 것으로 입증되었으며, 지능을 지속적으로 향상시키는 기술 경로로 점차 진화하고 있습니다.
동시에 Web3는 탈중앙화된 산술 네트워크와 암호화 인센티브를 통해 AI의 생산 관계를 재구성하고 있으며, 롤아웃 샘플링, 보상 신호 및 검증 가능한 훈련에 대한 강화 학습의 구조적 요구는 블록체인의 산술, 협업, 인센티브 분배 및 검증 가능한 훈련과 일치하고 있습니다. 롤아웃 샘플링, 보상 신호 및 검증 가능한 훈련에 대한 강화 학습의 구조적 요구는 블록체인의 산술 능력, 인센티브 분배 및 검증 가능한 실행과 자연스럽게 부합합니다. 이 백서에서는 AI 훈련 패러다임과 강화 학습 기술의 원리를 체계적으로 분해하고, 강화 학습×웹3의 구조적 이점을 입증하며, 프라임 인텔렉트, 젠신, 누스 리서치, 그라데이션, 그레일, 프랙션 AI 등의 프로젝트를 분석할 것입니다.
최신 대규모 언어 모델(LLM) 훈련의 전체 수명 주기는 일반적으로 훈련 전(사전 훈련), 감독 미세 조정(SFT), 훈련 후의 세 가지 핵심 단계로 나뉩니다/. RL). 이 세 단계는 각각 '세계 모델 구축 - 작업 기능 주입 - 추론 및 가치 형성'의 기능을 담당하며, 계산 구조, 데이터 요구 사항 및 검증 난이도에 따라 분산형 매칭의 정도가 결정됩니다. span text="">자기 지도 학습을 통해 모델 언어의 통계적 구조와 LLM 기능의 근간이 되는 크로스 모달 월드 모델을 구축합니다. 이 단계에서는 수조 개의 말뭉치에 대해 전 세계적으로 동기화된 학습이 필요하고, 수천에서 수만 개의 H100 동형 클러스터에 의존하며, 80~95%의 비용이 들고, 대역폭과 데이터 권한에 매우 민감하므로 고도로 중앙화된 환경에서 수행해야 합니다.
감독 미세 조정은 소량의 데이터와 5~15%의 비용으로 작업 기능 및 명령 형식을 주입하는 데 사용됩니다. -15%, 미세 조정은 전체 매개변수 학습 또는 파라메트릭 효율 미세 조정(PEFT) 방법으로 수행할 수 있으며, LoRA, LoRA 및 감독 미세 조정은 소량의 데이터와 약 5-15%의 비용으로 작업 기능과 명령어 형식을 주입하는 데 사용됩니다. text="">Q-LoRA 및 어댑터가 업계에서 주류입니다. 그러나 동기화된 그라데이션이 여전히 필요하기 때문에 탈중앙화 잠재력은 제한적입니다.
사후 학습은 모델의 추론 능력, 가치, 보안 경계를 결정하는 여러 반복적인 하위 단계로 구성되며, 그 하위 단계는 다음과 같습니다. 방법에는 강화 학습 시스템(RLHF, RLAIF, GRPO)과 RL이 없는 선호도 최적화(DPO) 및 프로세스 보상 모델(PRM)이 모두 포함됩니다. 이 단계는 데이터 양과 비용(5~10%)이 적고 롤아웃과 정책 업데이트에 집중하며, 비동기 및 분산 실행을 자연스럽게 지원하고 노드가 전체 가중치를 보유할 필요가 없으며 검증 가능한 계산과 온체인 인센티브의 조합으로 개방적이고 분산된 훈련 네트워크를 생성하여 Web3에 가장 적합한 훈련 세그먼트가 됩니다.

강화 학습(RL)을 통해환경 상호작용-보상-피드백-전략 업데이트로 모델이 자율적으로 의사 결정 능력을 향상하도록 유도하며, 핵심 구조는 상태, 행동, 보상 및 전략으로 구성된 피드백의 폐쇄 루프라고 볼 수 있습니다. 완전한 RL 시스템은 일반적으로 정책(정책 네트워크), 롤아웃(경험 샘플링), 학습자(정책 업데이터)의 세 가지 유형의 구성 요소로 구성됩니다. 정책은 환경과 상호작용하여 궤적을 생성하고 학습자는 보상 신호에 따라 정책을 업데이트하여 반복적이고 지속적인 최적화 학습 프로세스를 수행합니다.

정책 네트워크(정책): 환경 상태로부터 생성되는 작업의 상태에서 생성되며, 시스템의 의사 결정 핵심입니다. 일관성을 유지하기 위한 훈련에는 중앙 집중식 역전파가 필요하며, 추론을 여러 노드에 분산하여 병렬로 실행할 수 있습니다.
경험 샘플링(롤아웃): 노드는 정책을 기반으로 환경 상호작용을 수행하여 상태-행동-보상 궤적을 생성합니다. -보상 등의 궤적을 생성합니다. 이 프로세스는 고도로 병렬적이고 통신량이 매우 적으며 하드웨어 차이에 민감하지 않으므로 탈중앙화에서 확장하기에 가장 적합한 부분입니다.
학습자: 모든 롤아웃 궤적을 집계하고 정책 그라데이션 업데이트를 수행하며 컴퓨팅 파워와 대역폭에 대한 요구사항이 가장 높은 유일한 모듈입니다. 컴퓨팅 성능과 대역폭에 대한 요구 사항이 가장 높은 유일한 모듈이므로 일반적으로 컨버전스 안정성을 보장하기 위해 중앙 집중식으로 유지하거나 가볍게 중앙 집중화합니다.
강화 학습은 일반적으로 5단계로 나눌 수 있으며, 전체 프로세스는 다음과 같습니다.

#데이터 탐색데이터 탐색. span>
입력 단서가 주어지면 정책 모델 πθ는 여러 후보 추론 체인 또는 완전한 궤적을 생성하여 후속 선호도 평가 및 보상 모델링을 위한 샘플 기반을 제공하고 정책 탐색의 폭을 결정합니다.
#선호도 피드백 단계(RLHF/RLAIF)
RLHF(인간으로부터의 강화 학습 피드백)은 다중 후보 응답, 인간 선호도 라벨링, 보상 모델(RM) 학습, PPO를 통한 전략 최적화를 통해 모델 출력이 인간의 가치에 더 부합하도록 하는 GPT-3.5 → GPT-4의 핵심 부분입니다
RLAIF(Reinforcement Learning from AI Feedback)는 수동 주석을 AI 판사 또는 헌법 규칙으로 대체하여 선호도 획득을 자동화하고 비용을 크게 절감하며 확장 가능한 특징을 가지며 주류 얼라인먼트 패러다임의 핵심 부분이 되었습니다.
#보상 모델링보상 모델링<
입력 보상 모델링에 대한 기본 설정, 출력과 보상을 매핑하는 학습. RM은 모델에 "정답이 무엇인지"를 가르치고, PRM은 모델에 "올바르게 추론하는 방법"을 가르칩니다. "올바르게 추론하는 방법"을 가르칩니다.
RM(보상 모델)은 최종 답변이 얼마나 잘되었는지 평가하는 데 사용됩니다. 좋은지 나쁜지를 평가하고 결과물에만 점수를 매깁니다.
프로세스 보상 모델(PRM) 더 이상 최종 답안만 평가하지 않습니다. 최종 답만 평가하는 것이 아니라 각 추론 단계, 각 토큰, 각 논리 세그먼트에 점수를 매기며, 기본적으로 모델에 '생각하는 방법을 가르치는' OpenAI o1과 DeepSeek-R1의 핵심 기술입니다.
#보상 검증 가능성(RLVR / Reward 검증 가능성)
보상 신호의 생성 및 사용에 '검증 가능성 제약'을 도입하여 가능한 한 재현 가능한 규칙, 사실 또는 합의에 기반한 보상이 제공되도록 합니다. 이는 보상 신호의 생성 및 사용에 검증 가능성 제약을 도입하여 가능한 한 재현 가능한 규칙, 사실 또는 합의에서 보상이 도출되도록 함으로써 보상 해킹 및 편향의 위험을 줄이고 개방형 환경에서 감사 가능성 및 확장성을 개선합니다.
#정책 최적화정책 최적화
보상 모델이 제공하는 신호에 따라 정책 파라미터 θ를 업데이트하여 더 추론이 가능하고 더 안전하며 더 안정적인 행동 패턴을 가진 정책 πθ′을 얻는 프로세스입니다. 주요 최적화 접근 방식은 다음과 같습니다.
PPO(Proximal Policy 최적화): 안정성으로 잘 알려져 있지만, 복잡한 추론 작업에서 느린 수렴과 안정성 부족 등의 한계에 직면하는 RLHF를 위한 전통적인 최적화 기법입니다.
GRPO(그룹 상대 정책 최적화): DeepSeek-R1의 핵심 혁신 기술입니다. 의 핵심 혁신으로, 단순히 순위를 매기는 것이 아니라 후보 답변 그룹 내 우세도 분포를 모델링하여 기대 가치를 추정합니다. 이 방법은 보상 크기 정보를 보존하고, 추론 체인 최적화에 더 적합하며, 보다 안정적인 훈련 프로세스를 갖추고 있어 PPO 이후 심층 추론 시나리오를 위한 중요한 강화 학습 최적화 프레임워크로 간주됩니다.
DPO(직접 선호도 최적화): 비강화 학습 사후 훈련 방식: 궤적 생성, 보상 모델 구축, 훈련이 없는 방식입니다. DPO는 궤적을 생성하고 보상 모델을 구축하는 대신 선호도 쌍에 대해 직접 최적화하기 때문에 비용이 저렴하고 안정적이어서 라마, 젬마 등과 같은 오픈 소스 모델을 정렬하는 데 널리 사용되지만 추론 성능을 향상시키지는 못합니다.
#새 정책 배포 단계(새 정책 배포)
최적화된 모델은 더 강력한 시스템-2 추론, 인간 또는 AI 선호도에 더 부합하는 행동, 더 낮은 더 낮은 환각률, 더 높은 보안을 제공합니다. 이 모델은 계속해서 선호도를 학습하고, 프로세스를 최적화하며, 지속적인 반복을 통해 의사 결정의 품질을 개선하여 폐쇄형 루프를 형성합니다.

강화 학습은 연구 초기 단계부터 발전해 왔습니다. span>은 초기 게임 인텔리전스에서 산업 전반의 자율적 의사 결정을 위한 핵심 프레임워크로 진화했으며, 적용 시나리오는 기술 성숙도와 산업 구현 정도에 따라 크게 5가지로 분류할 수 있으며, 각각의 방향에서 주요 혁신을 주도해 왔습니다.
게임 & amp; 전략
로봇 공학 및 구현된 AI: RL은 로봇이 지속적인 제어, 역학 모델링, 환경 상호작용을 통해 조작법을 학습할 수 있도록 지원합니다, 모션 제어 및 교차 모드 작업(예: RT-2, RT-X)을 통해 로봇을 학습할 수 있으며, 산업화를 향해 빠르게 나아가고 있으며 실제 로봇 공학에서 핵심적인 기술 경로입니다.
디지털 추론(디지털 추론 / LLM 시스템-2): 대형 모델을 구동하기 위한 RL + PRM RL + PRM은 '언어적 모방'에서 '구조적 추론'으로 대형 모델을 추진하며, 대표적인 성과로는 추론 체인 수준에서의 보상 최적화가 핵심인 DeepSeek-R1, OpenAI o1/o3, Anthropic Claude, AlphaGeometry 등을 들 수 있습니다. 이 기술의 핵심은 최종 정답을 평가하는 것이 아니라 추론 체인 수준에서 보상을 최적화하는 것입니다.
자동화된 과학적 발견 및 수학적 최적화: RL 라벨이 없고 복잡한 보상과 넓은 검색 공간에서 최적의 구조나 정책을 찾습니다. 공간에서 최적의 구조나 정책을 찾기 위해 알파텐서, 알파데브, 퓨전 RL과 같은 근본적인 혁신을 이루며 인간의 직관을 뛰어넘는 탐색 능력을 입증했습니다.
경제적 의사결정 및 트레이딩: RL은 전략 최적화, 고차원 리스크 관리, 전략 개발을 위한 플랫폼으로 사용됩니다. 전략 최적화, 고차원 리스크 관리, 적응형 트레이딩 시스템 생성에 사용되는 RL은 기존의 정량적 모델보다 불확실한 환경에서도 지속적인 학습이 가능하므로 스마트 금융의 핵심 구성 요소입니다. ">강화 학습(RL)은 본질적으로 "인센티브 중심 시스템"이기 때문에 Web3와 자연스럽게 어울립니다. RL은 보상 신호에 의존하여 전략을 최적화하는 반면 블록체인은 참여자의 행동을 조정하는 데 금융 인센티브에 의존하므로 메커니즘 수준에서 자연스럽게 일치하게 됩니다. 대규모 이기종 롤아웃, 보상 분배, 진위성 검증과 같은 RL의 핵심 요구사항은 Web3의 아키텍처적 강점이 있는 분야입니다.
#디커플링 추론 및 학습
#
롤아웃(탐색적 샘플링): 이 모델은 현재 정책인 계산 집약적이지만 통신이 드문 작업을 기반으로 대량의 데이터를 생성합니다. 노드 간 빈번한 통신이 필요하지 않으며 전 세계적으로 분산된 소비자 GPU에서 병렬 생성에 적합합니다.
업데이트(파라미터 업데이트): 수집된 데이터를 기반으로 모델 가중치를 업데이트하는 작업으로 대역폭이 높은 중앙 집중식 노드에서 수행해야 합니다.
디커플링 추론 학습은 분산형 이기종 산술에 적합합니다: 롤아웃. 오픈 네트워크에 아웃소싱하고 토큰 메커니즘을 통해 기여도에 따라 과금할 수 있으며, 모델 업데이트는 안정성을 보장하기 위해 중앙 집중식으로 유지됩니다.
#검증 가능성
ZK와 학습 증명은 노드가 진실하게 추론을 실행하고 있는지 검증하는 수단을 제공함으로써 개방형 네트워크에서 정직성 문제를 해결합니다. 코드나 수학적 추론과 같은 결정론적 작업에서 검증자는 단순히 답을 확인하는 것만으로 작업량을 확인할 수 있어 탈중앙화된 RL 시스템의 신뢰성을 획기적으로 높일 수 있습니다.
#인센티브 레이어, 토큰 이코노미 기반 피드백 생성 메커니즘
Web3의 토큰 메커니즘은 RLHF/RLAIF 선호도 피드백 기여자에게 직접 보상하여 선호도 데이터 생성을 위한 투명하고 정산 가능하며 허가 없는 인센티브 구조를 가능하게 하고, 스테이킹/슬래싱은 피드백의 품질을 더욱 제한하여 기존 토큰 경제보다 더 강력한 인센티브 구조를 만들어냅니다. 스테이킹/슬래싱은 피드백의 품질을 더욱 제한하여 기존 크라우드소싱보다 더 효율적이고 조정된 피드백 마켓플레이스를 만들어냅니다.
#멀티지능 강화학습(MARL) 잠재력멀티지능 강화학습(MARL) 잠재력Multi-intelligent Reinforcement Learning (MARL) Potential
/p>블록체인은 본질적으로 개방적이고 투명하며 지속적으로 진화하는 다중 지능 환경으로, 계정, 계약 및 지능이 인센티브 중심 방식으로 전략을 지속적으로 조정하고 있어 대규모 MARL 검증 환경을 구축할 수 있는 잠재력을 자연스럽게 부여받았습니다. 아직 초기 단계이지만, 상태 공개, 검증 가능한 실행, 프로그래밍 가능한 인센티브는 향후 MARL 개발을 위한 원칙적인 이점을 제공합니다.
위의 이론적 틀을 바탕으로 현재 생태계에서 가장 대표적인 프로젝트를 간략히 분석해 보겠습니다.
프라임 인텔리전스는 글로벌 오픈 산술 시장을 구축하고, 훈련의 문턱을 낮추고, 협력적 분산 훈련을 촉진하며, 완전한 오픈 소스 초지능 기술 스택을 개발하는 데 전념하고 있습니다. 이 시스템에는 Prime Compute(통합 클라우드/분산 연산 환경), INTELLECT 모델 제품군(10B-100B+), 개방형 강화 학습을 위한 환경 허브, 대규모 합성 데이터 엔진(SYNTHETIC-1/2)이 포함됩니다.
프라임 인텔리전스 핵심 인프라 구성 요소 prime-rl 강화 학습과 관련성이 높은 비동기 분산 환경을 위해 설계된 프레임워크입니다.
TopLoc은 대역폭 병목 현상을 해소하는 OpenDiLoCo 통신 프로토콜과 계산 무결성을 보장하는 TopLoc 인증 메커니즘을 포함하여 비동기 분산 환경의 문제에 대한 완벽한 솔루션을 제공하는 세계 최초의 플랫폼입니다.
#프라임 인텔리전스 핵심 인프라 구성 요소Prime Intellect 핵심 인프라 구성 요소

< span leaf="">#기술 초석: prime-rl 비동기 강화 학습 프레임워크
prime-rl은 대규모 비동기 분산 환경을 위해 설계된 Prime Intellect의 핵심 훈련 엔진으로, Actor-Learner를 통해 다음과 같이 작동합니다. 완전히 분리되어 높은 처리량의 추론과 안정적인 업데이트를 달성합니다. 롤아웃 워커와 트레이너는 더 이상 동기화 및 차단되지 않으며, 노드는 최신 전략을 가져오고 생성된 데이터를 업로드하기만 하면 언제든지 참여하거나 종료할 수 있습니다.. p>

액터(롤아웃 워커): 모델 추론 및 데이터 생성을 담당합니다. prime Intellect는 액터 측에서 vLLM 추론 엔진을 혁신적으로 통합합니다. vLLM의 PagedAttention 기술과 Continuous Attention 기술은 vLLM의 핵심 요소입니다. vLLM의 페이징어텐션 기술과 연속 배칭 기능을 통해 액터는 매우 높은 처리량으로 추론 궤적을 생성할 수 있습니다.
학습자 학습자(트레이너): 정책 최적화를 담당합니다. 학습자는 공유 경험 버퍼에서 비동기적으로 데이터를 가져옵니다. 학습자는 공유 경험 버퍼에서 데이터를 비동기적으로 가져와 모든 액터가 현재 배치를 완료할 때까지 기다리지 않고 그라데이션을 업데이트합니다.
오케스트레이터: 모델 가중치 및 데이터 흐름 스케줄링을 담당합니다.
#prime-rl의 주요 혁신prime-rl의 주요 혁신>> strong>
진정한 비동기성: Prime-rl은 기존 PPO의 동기식 패러다임을 거부하고, 느린 노드를 기다리지 않으며, 일괄 정렬이 필요하지 않고, 성능에 관계없이 원하는 수의 GPU가 언제든지 액세스할 수 있어 분산화된 RL을 실현할 수 있습니다.
FSDP2와 MoE의 긴밀한 통합: prime-rl은 FSDP2 파라미터 슬라이싱과 MoE 스파스 활성화를 통해 분산 환경에서 100억 개의 모델을 효율적으로 훈련할 수 있게 해줍니다. prime-rl을 사용하면 분산 환경에서 수백억 개의 모델을 효율적으로 훈련할 수 있으며, Actor는 활성 전문가만 실행하여 메모리와 추론 비용을 획기적으로 절감할 수 있습니다.
GRPO+(그룹 상대 정책 최적화): GRPO는 크리틱 네트워크가 필요하지 않으며 계산을 크게 줄여줍니다. : GRPO는 Critic 네트워크의 필요성을 없애고, 컴퓨팅 및 메모리 오버헤드를 크게 줄이며, 비동기 환경에 자연스럽게 적응하고, prime-rl의 GRPO+는 높은 지연 시간 조건에서 안정적인 컨버전스를 보장하도록 안정화되어 있습니다.
#INTELLECT 모델 제품군: 분산형 RL 기술 성숙의 신호
INTELLECT-1 (10B. 10월 2024)은 3개 대륙의 이기종 네트워크(통신 점유율 2%, 산술 활용도 98%)에서 OpenDiLoCo를 효율적으로 훈련할 수 있음을 처음으로 입증하여 지역 간 훈련의 물리적 인식을 깼다.
INELLECT-1 (10B. span leaf="">INTELLECT-2 (32B, 2025년 4월)는 다단계 지연, 비동기 환경에서 prime-rl과 GRPO+의 안정적인 수렴 능력을 검증하고 분산화된 글로벌 오픈 산술 참여를 달성하기 위한 최초의 비허가형 RL 모델입니다. RL;
INTELLECT-3 (106B MoE, 11월 2025)는 12B 파라미터만 활성화하는 스파스 아키텍처를 채택하고, 훈련은 512×H200으로 학습되며, 훨씬 더 큰 규모의 중앙 집중식 폐쇄 소스 모델에 근접하거나 심지어 이를 능가하는 전반적인 성능으로 플래그십 추론 성능(AIME 90.8%, GPQA 74.4%, MMLU-Pro 81.9% 등)을 달성합니다.
프라임 인텔리전스는 또한 다음과 같은 여러 지원 인프라를 구축합니다. 시간 간격을 두고 통신하고 가중치 차이를 정량화하여 지리적 간 훈련을 위한 통신을 수백 배까지 줄여 INTELLECT-1이 3개 대륙 네트워크에서 98%의 사용률을 유지할 수 있도록 하며, TopLoc + Verifiers는 분산화된 신뢰 실행 계층을 형성하여 지문 인식과 샌드박스 검증을 활성화할 수 있도록 합니다. 활성화 핑거프린팅과 샌드박스 검증을 통해 추론 및 보상 데이터의 신뢰성을 보장하는 SYNTHETIC 데이터 엔진, 파이프라인 병렬화를 통해 대규모 고품질 추론 체인을 생성하고 671B 모델을 소비자 GPU 클러스터에서 효율적으로 실행할 수 있도록 하는 SYNTHETIC 데이터 엔진이 있습니다. 이러한 구성 요소는 분산형 RL을 위한 데이터 생성, 검증 및 추론 처리량을 위한 중요한 엔지니어링 기반을 제공하며, INTELLECT 제품군은 이 기술 스택이 성숙한 세계 최고 수준의 모델을 생성하여 분산형 훈련 시스템이 개념 단계에서 실용 단계로 나아가고 있음을 보여줍니다.
Gensyn의 목표는 전 세계의 유휴 컴퓨팅 성능을 신뢰가 필요 없고 무한히 확장 가능한 개방형 AI 학습 인프라로 통합하는 것입니다. 핵심은 장치 간 표준화된 실행 레이어, 트러스트 없는 작업 검증 시스템을 갖춘 P2P 조정 네트워크, 스마트 계약을 통한 자동화된 작업 및 보상 할당으로 구성됩니다. 젠슨은 강화학습의 특성을 중심으로 RL 스웜, SAPO, 스킵파이프와 같은 핵심 메커니즘을 소개합니다. 생성, 평가, 업데이트를 분리하는 유니티의 핵심 메커니즘은 글로벌 이기종 GPU '스웜'을 활용하여 집단적 진화를 달성합니다. 궁극적으로 제공하는 것은 단순한 산술이 아니라 검증 가능한 인텔리전스입니다.
#Gensyn 스택을 위한 강화 학습 앱

#RL Swarm: 탈중앙화된 협업 강화 학습 엔진
RL Swarm은 새로운 협업 모델을 보여줍니다. 단순히 작업을 분배하는 것이 아니라, 협업 학습 과정과 유사한 인간의 사회적 학습을 모방하여 무한 반복되는 분산형 '생성-평가-업데이트' 사이클입니다.
솔버: 노드 이질성과 함께 로컬 모델 추론 및 롤아웃 생성을 담당합니다. Gensyn은 CodeZero와 같은 고처리량 추론 엔진과 로컬로 통합하여 단순한 답변이 아닌 전체 궤적을 출력합니다.
제안자: 과제(수학, 코드 문제 등)를 동적으로 생성하여 과제 다양성 및 커리큘럼 학습과 같은 난이도 조정.
평가자: 고정된 '심판 모델' 또는 규칙을 사용하여 로컬 롤업을 평가합니다. 고정된 "심판 모델" 또는 규칙을 사용하여 로컬 롤아웃을 평가하여 로컬 보상 신호를 생성합니다. 평가 프로세스를 감사할 수 있어 오류의 여지를 줄일 수 있습니다.
이 세 가지를 함께 사용하면 중앙 집중식 스케줄링 없이 대규모 협업 학습이 가능한 P2P RL 조직 구조를 형성할 수 있습니다.

< span leaf="">#SAPO: 탈중앙화를 위해 리팩터링된 정책 최적화 알고리즘
SAPO(Swarm Sarm Optimization Algorithm). SAPO(스웜 샘플링 정책 최적화)는 대규모 탈중앙화를 통해 "롤아웃 공유 및 그라데이션 공유 대신 그라데이션이 없는 신호 샘플 필터링"에 중점을 두고 있습니다. 롤아웃 샘플링 및 수신된 롤아웃을 로컬에서 생성된 것으로 처리하여 중앙 조정이 없고 노드 지연 시간에 큰 차이가 없는 환경에서 안정적인 컨버전스를 유지합니다. 크리틱 네트워크에 의존하고 계산 비용이 많이 드는 PPO나 그룹 내 지배력 추정을 기반으로 하는 GRPO에 비해, SAPO는 매우 낮은 대역폭으로 대규모 강화 학습 최적화에 효과적으로 참여할 수 있는 소비자 GPU를 지원합니다.
RL 스웜 및 SAPO를 통해 Gensyn은 강화 학습 특히 훈련 후 단계의 강화 학습(특히 RLVR)은 고빈도 파라미터 동기화보다 대규모의 다양한 탐색(롤아웃)에 더 의존하기 때문에 탈중앙화 아키텍처에 자연스럽게 적합합니다. PoL 및 Verde의 검증 시스템과 결합된 Gensyn은 전 세계 수백만 개의 이기종 GPU로 구성된 자체 진화하는 초지능 네트워크, 즉 더 이상 단일 거대 기술에 의존하지 않는 수조 개의 파라미터 모델을 훈련할 수 있는 대안을 제시합니다.
Nous Research는 탈중앙화되고 스스로 진화하는 인지 인프라를 구축하고 있습니다. 핵심 구성 요소인 헤르메스, 아트로포스, 디스트로, 싸이케, 월드심은 지속적인 폐쇄 루프 지능형 진화 시스템으로 구성되어 있습니다. '사전 학습-사후 학습-추론'의 전통적인 선형 프로세스와 달리, Nous는 데이터 생성, 검증, 학습, 추론을 지속적인 피드백 루프로 통합하기 위해 DPO, GRPO, 거부 샘플링과 같은 강화 학습 기술을 채택하여 지속적으로 자기 개선하는 시스템을 구축합니다. Nous는 DPO, GRPO, 거부 샘플링 및 기타 강화 학습 기술을 사용하여 데이터 생성, 검증, 학습 및 추론을 지속적인 피드백 루프로 통합하여 지속적인 자기 개선 AI 생태계를 구축합니다.
#누스 리서치 구성 요소 개요누스 리서치 구성 요소 개요Nous 리서치 구성 요소 개요Nous 연구 구성 요소 개요< /p>

#모델 레이어: 헤르메스와 추론 능력의 진화
헤르메스 제품군은 누스 리서치의 주요 사용자 대면 모델 인터페이스이며, 그 진화는 전통적인 SFT/DPO 정렬에서 추론 강화 학습(추론 RL)으로의 업계 마이그레이션 경로를 명확하게 보여줍니다.
헤르메스 1-3: 명령어 정렬 및 초기 프록시 기능: 헤르메스 1-3은 강력한 명령어 정렬을 달성하기 위해 저비용 DPO에 의존했으며, 헤르메스 3에서는 다음과 같은 도움으로 아트로포스 검증 메커니즘이 처음 도입된 합성 데이터를 사용했습니다.
Hermes 4 / DeepHermes: 시스템 2 스타일의 느린 사고가 사고 체인을 통해 가중치에 기록되며, 테스트-시간 확장으로 수학 및 코드 성능을 개선합니다. 타임 스케일링은 수학과 코드 성능을 개선하고 거부 샘플링 + 아트로포스 검증을 사용하여 고순도 추론 데이터를 구축합니다.
DeepHermes 는 또한 배포가 어려운 PPO를 GRPO로 대체하여 Psyche 탈중앙화 GPU에서 RL 추론을 가능하게 합니다. Psyche의 분산형 GPU 네트워크는 오픈 소스 추론 RL의 확장성을 위한 엔지니어링 기반을 마련합니다.
아트로포스는 Nous RL 시스템의 진정한 허브입니다. 아트로포스는 힌트, 도구 호출, 코드 실행, 다중 라운드 상호작용을 표준화된 RL 환경으로 캡슐화하여 출력이 올바른지 직접 검증함으로써 비용이 많이 들고 확장성이 없는 인간 주석 대신 결정론적 보상 신호를 제공합니다. 더 중요한 것은 탈중앙화된 트레이닝 네트워크인 싸이케에서 아트로포스는 노드가 실제로 전략을 개선하고 있는지 검증하는 '심판' 역할을 수행하여 감사 가능한 증명 학습을 지원하고, 분산형 RL의 보상 신뢰성 문제를 근본적으로 해결한다는 점입니다.

< span leaf="">#DisTrO와 싸이케: 분산 강화 학습을 위한 최적화 레이어
기존 RLF(RLHF/RLAIF) 훈련은 중앙화된 고대역폭 클러스터에 의존하는데, 이는 오픈소스가 복제할 수 없는 핵심 장벽입니다. disTrO는 모멘텀 디커플링과 그라데이션 압축을 통해 RL의 통신 비용을 몇 배로 줄여 인터넷 대역폭에서 훈련을 실행할 수 있게 합니다; 싸이체는 온체인 네트워크에 이 훈련 메커니즘을 배포하여 노드가 다음을 수행할 수 있도록 합니다. 싸이케는 이 트레이닝 메커니즘을 온체인 네트워크에 배포하여 노드가 추론, 검증, 보상 평가 및 가중치 업데이트를 로컬에서 완료하여 완전한 RL 폐쇄 루프를 형성할 수 있도록 합니다.
Nous의 시스템에서 Atropos는 사고의 사슬을 검증하고, DisTrO는 훈련 통신을 압축하며, Psyche는 RL 루프를 실행하고, World Sim은 복잡한 환경을 제공하며, Forge는 실제 추론을 포착합니다; Hermes는 모든 학습을 가중치로 기록합니다. 강화 학습은 단순한 훈련 단계가 아니라 데이터, 환경, 모델, 인프라를 연결하는 Nous 아키텍처의 핵심 프로토콜로, 오픈 소스 연산 네트워크에서 지속적으로 스스로 개선하는 살아있는 시스템으로 거듭납니다. 왼쪽;">그레이디언트 네트워크의 핵심 비전은 오픈 인텔리전스 스택을 통해 AI 컴퓨팅 패러다임을 재구성하는 것입니다. 그라디언트의 기술 스택은 독립적으로 진화하는 이기종 핵심 프로토콜 세트로 구성됩니다. Gradient의 기술 스택은 독립적으로 진화하고 이질적으로 협업할 수 있는 일련의 핵심 프로토콜로 구성되어 있습니다. 이 시스템은 최하위 통신 계층부터 최상위 지능형 협업 계층까지 Parallax(분산 추론), Echo(분산 RL 학습), Lattica(P2P 네트워크), SEDM / Massgen / Symphony / CUAHarm(메모리, 협업, 보안), VeriLLM(신뢰 인증), Mirage(하이파이 시뮬레이션)의 순으로 구성되어 있으며, 이 프로토콜들은 함께 AI 컴퓨팅 패러다임의 지속적인 진화를 구성하고 있습니다. 시뮬레이션)를 통해 지속적으로 진화하는 탈중앙화된 지능형 인프라를 구성합니다.

< span leaf="">#Echo - 강화 학습 훈련 아키텍처
Echo는 강화 학습의 훈련, 추론, 추론 과정을 분리하는 것을 핵심 설계 철학으로 하는 Gradient의 강화 학습 프레임워크입니다. Echo의 핵심 설계 개념은 강화 학습에서 훈련, 추론, 데이터(보상) 경로를 분리하여 이기종 환경에서 롤아웃 생성, 정책 최적화, 보상 평가를 독립적으로 확장하고 스케줄링할 수 있도록 하는 것입니다. 추론 측 및 훈련 측 노드로 구성된 이기종 네트워크에서 작동하며, 경량 동기화 메커니즘으로 광역 이기종 환경에서 훈련 안정성을 유지하여 기존 DeepSpeed RLHF/VERL에서 추론-훈련 혼합으로 인한 SPMD 장애 및 GPU 사용률 병목 현상을 효과적으로 완화합니다.

Echo는 "추론 학습 듀얼 클러스터 아키텍처"를 채택하여 산술 활용도를 극대화하며, 듀얼 클러스터는 서로를 차단하지 않고 독립적으로 실행됩니다.
샘플 처리량 극대화: 추론 스웜 소비자 GPU와 엣지 장치로 구성된 추론 스웜은 파이프라인이 있는 Parallax를 통해 높은 처리량을 위해 구축되었습니다. 추론 스웜은 소비자 GPU와 엣지 디바이스로 구성되며, 궤적 생성에 중점을 두고 Parallax를 통한 파이프라인 병렬로 높은 처리량의 샘플러를 구축합니다.
그라데이션 연산 최대화: 트레이닝 스웜
추론 스웜 스웜은 중앙 집중식 클러스터 또는 전 세계 여러 위치에서 실행할 수 있는 소비자용 GPU 네트워크로 구성되며 학습 과정에 초점을 맞춰 그라데이션 업데이트, 파라미터 동기화 및 LoRA 튜닝을 담당합니다.
정책과 데이터 일관성을 유지하기 위해 Echo는 비동기식 및 동시식 접근 방식을 제공합니다. (비동기) 정책 가중치 및 궤적의 양방향 일관성 관리를 위한 경량 동기화 프로토콜:
풀 모드|정확도 우선: 훈련 측에서 추론 노드가 새 궤적을 가져오기 전에 모델 버전을 강제로 새로 고쳐 궤적의 최신성을 보장하므로 정책 노후화에 매우 민감한 작업에 적합합니다.
비동기 푸시-풀(푸시-풀) 모드|효율 우선순위: 추론 측에서 버전 라벨이 지정된 궤적을 지속적으로 생성하고 훈련 측에서 자체 속도로 이를 소비하는 동안 코디네이터가 버전 편차를 모니터링하고 무게 새로 고침을 트리거하여 장치 활용도를 극대화하는 방식입니다. 활용도를 극대화합니다.
하단에서 Echo는 Parallax(저대역폭 환경에서의 이질적 추론) 및 경량 분산 훈련 구성 요소(예: VERL)를 기반으로 구축되었으며, LoRA를 사용하여 노드 간 동기화 비용을 절감합니다. 이를 통해 글로벌 이기종 네트워크에서 강화 학습을 안정적으로 실행할 수 있습니다.
비텐서는 고유한 유마 합의 메커니즘을 통해 보상 함수의 거대하고 희박하며 매끄럽지 않은 네트워크를 구축합니다.
반면, 비텐서 에코시스템의 코버넌트 AI는 수직적으로 통합된 사전 트레이닝-RL 사후 트레이닝을 구축합니다. SN3 템플러, SN39 바실리카, SN81 그레이일 이 중 SN3 Templar는 기본 모델의 사전 학습을 담당하고, SN39 Basilica는 분산 연산 마켓플레이스를 제공하며, SN81 Grail은 사후 학습을 위한 '검증 가능한 추론 계층' 역할을 수행하여 RLHF/RLAIF의 핵심 과정을 수행하고 기본 모델에서 정렬 전략까지 폐쇄 루프 최적화 과정을 완성합니다. 기본 모델에서 정렬 전략까지 최적화를 완료하는 RLHF/RLAIF 핵심 프로세스는 RLHF/RLAIF 핵심 프로세스에 의해 수행됩니다. "">GRAIL의 목표는 모델 아이덴티티에 연결된 각 강화 학습 롤아웃의 진위를 암호학적으로 증명하여 신뢰가 필요 없는 환경에서 RLHF가 안전하게 실행될 수 있도록 보장하는 것입니다. 이 프로토콜은 세 가지 계층 메커니즘을 통해 신뢰 체인을 구축합니다.
결정론적 챌린지 생성: 결정적 챌린지 생성을 위한 블록 해싱이 있는 무작위 비콘을 사용하여 예측 불가능하지만 재현 가능한 챌린지 과제(예: SAT, GSM8K)를 생성하여 계산 전 부정 행위를 제거합니다.
PRF 도입을 통한 샘플링 및 스케치 커미트먼트, 검증자가 매우 저렴한 비용으로 토큰 수준 로그프로브 및 추론 체인을 샘플링하여 롤아웃이 선언적 모델에 의해 실제로 생성되었는지 확인할 수 있습니다.
모델 신원 바인딩: 추론 프로세스를 모델 가중치 지문과 토큰 분포의 구조화된 서명에 바인딩하여 모델의 교체 또는 결과의 재생을 즉시 인식할 수 있도록 합니다. 이는 RL에서 추론 롤아웃을 위한 신뢰성의 근원을 제공합니다.
이 메커니즘에 더해, Grail 서브넷은 GRPO 스타일의 검증 가능한 사후 훈련 과정을 구현합니다. 마이너는 동일한 주제에 대해 여러 추론 경로를 생성하고 검증자는 그 정확성, 추론 체인 품질, SAT 만족도에 따라 점수를 매깁니다. 검증자는 정확성, 추론 체인의 품질, SAT 만족도를 기준으로 점수를 매기고 정규화된 결과를 TAO 가중치로 체인에 기록합니다. 공개 실험 결과, 이 프레임워크는 Qwen2.5-1.5B의 수학 정확도를 12.7%에서 47.6%로 향상시켜 부정행위를 방지하고 모델을 크게 강화할 수 있음을 입증했습니다. Grail은 아직 메인넷에 공식적으로 출시되지 않은 Covenant AI의 트레이닝 스택에서 탈중앙화된 RLVR/RLAIF의 신뢰와 실행을 위한 초석입니다.
Fraction AI: 경쟁 기반 강화 학습 RLFC
Fraction AI의 아키텍처는 경쟁을 통한 강화 학습(RLFC)과 게임화된 데이터 주석을 중심으로 명시적으로 구축되어 기존 RLHF의 정적 보상과 수동 주석을 개방형, 개방형, 휴먼 라벨링으로 대체합니다. 기존 RLHF의 수동 주석은 개방적이고 역동적인 경쟁 환경으로 대체됩니다. 서로 다른 공간에서 에이전트 간의 상대적 순위와 AI 심사위원의 점수가 실시간 보상을 구성하며, 정렬 프로세스는 지속적인 온라인 다중 지능 게임 시스템으로 진화합니다.
기존 RLHF와 Fraction AI의 RLFC의 핵심 차이점:
RLFC의 핵심 가치는 더 이상 단일 모델에서 보상이 나오는 것이 아니라 RLFC의 핵심 가치는 보상이 더 이상 단일 모델에서 나오는 것이 아니라 진화하는 적과 평가자로부터 나오며, 보상 모델의 악용을 방지하고 전략 다양성을 통해 생태계가 지역 최적화에 빠지는 것을 방지한다는 것입니다. 스페이스의 구조는 게임의 본질(제로섬 또는 포지티브섬)을 결정하고 적대적 및 협력적 맥락 모두에서 복잡한 행동의 출현을 유도합니다.
시스템 아키텍처 측면에서 Fraction AI는 학습 과정을 네 가지 주요 구성 요소로 분류합니다.
에이전트: 오픈 소스 LLM을 기반으로 하는 경량 정책 단위로, 저비용 업데이트를 위해 QLoRA를 통해 차등 가중치로 확장됩니다.
스페이스: 에이전트가 비용을 지불하고 승패에 따라 보상을 받는 격리된 작업 도메인 환경
< span leaf="">AI 심사위원: 확장 가능하고 분산된 평가를 제공하기 위해 RLAIF로 구축된 즉각적인 보상 계층
학습 증명: 전략 업데이트를 특정 경쟁 결과에 연결하여 교육 과정을 검증할 수 있고 속임수를 쓰지 못하도록 보장합니다.
프랙션 AI의 본질은 인간과 컴퓨터의 협업을 통해 진화하는 엔진을 구축하는 것입니다." 사용자는 전략 수준에서 메타 옵티마이저 역할을 하며 프롬프트 엔지니어링과 하이퍼파라미터 구성을 통해 탐색 방향을 안내하고, 에이전트는 마이크로 경쟁에서 대량의 고품질 선호도 쌍을 자동으로 생성합니다. 쌍). 이 모델을 사용하면 데이터 주석을 통해 "신뢰 없는 미세 조정"을 통해 비즈니스 루프를 닫을 수 있습니다.

위 첨단 프로젝트의 해체적 분석에 따르면 각 팀의 진입점(알고리즘, 엔지니어링 또는 마케팅)은 다르지만 강화 학습(RL)이 Web3와 결합되면 기본 아키텍처 로직이 매우 일관된 '디커플링' 로직으로 수렴되는 것을 관찰할 수 있습니다. RL과 Web3의 기본 아키텍처 로직은 매우 일관된 "분리-검증-동기 부여" 패러다임으로 수렴됩니다. 이는 단순한 기술적 우연이 아니라 강화 학습의 고유한 속성에 대한 탈중앙화 네트워크의 적응에 따른 필연적인 결과입니다.
롤아웃 및 학습의 물리적 분리(푸시 및 트레이닝) -- 기본 계산 토폴로지
통신이 희박하고 병렬화가 가능한 롤아웃은 글로벌 소비자 GPU에 아웃소싱되며 고대역폭 파라미터 업데이트가 집중되어 있습니다. Prime Intellect의 비동기 액터-학습자부터 Gradient Echo의 듀얼 클러스터 아키텍처에 이르는 소수의 트레이닝 노드에 집중됩니다.
검증 중심 신뢰 - 계층의 - 인프라
허가 없는 네트워크에서 계산 신뢰성은 Gensyn의 PoL, Prime의 TOPLOC, Grayson의 POL과 같은 구현으로 대표되는 수학적 및 기계적 설계를 통해 적용되어야 합니다. 대표적인 구현으로는 Gensyn의 PoL, Intellect의 TOPLOC, Grail의 암호화 검증이 있습니다.
토큰화된 인센티브 루프 - 시장이 스스로 규제합니다. - 시장 자율 규제
Tokenised Incentive Loop(TIL) - 산술 공급, 데이터 생성, 검증 정렬, 인센티브 분배의 폐쇄 루프에서 인센티브로 참여를 유도하고 슬래시로 부정 행위를 억제하여 네트워크가 개방 환경에서 안정적으로 유지되도록 하는 방식입니다. 네트워크는 개방된 환경에서 안정적으로 유지되며 지속적으로 진화합니다.
아키텍처의 융합에도 불구하고 프로젝트는 각자의 유전자에 따라 서로 다른 기술 해자를 선택했습니다:
알고리즘적 돌파구 (Nous Research): 분산 훈련을 수학의 바닥에서부터 해결하려고 시도합니다. 근본적인 충돌(대역폭 병목 현상)을 해결하려고 합니다. 이 회사의 DisTrO 옵티마이저는 대규모 모델 훈련을 가정용 광대역에서 실행하여 물리적 한계를 '다운그레이드'하는 것을 목표로 경사도 트래픽을 수천 배 압축하는 것을 목표로 합니다.
시스템 엔지니어링(Prime Intellect, Gensyn, Gradient): 차세대 'AI 런타임 시스템' 구축에 주력하고 있습니다. "Prime Intellect의 ShardCast와 Gradient의 Parallax. 는 모두 기존 네트워크 조건에서 극한의 엔지니어링을 통해 이기종 클러스터링 효율을 최대한 끌어내는 것입니다.
시장 게임 학교(비텐서, 프랙션 AI): 보상 기능에 집중하다. 디자인. 미묘한 채점 메커니즘을 설계함으로써 채굴자들이 최적의 전략을 자발적으로 찾도록 유도하여 지능의 출현을 가속화합니다.
장점, 도전 과제, 그리고 최종 게임
< span leaf="">강화 학습과 Web3를 결합하는 패러다임에서 시스템 차원의 장점은 무엇보다도 비용 구조와 거버넌스 구조의 재작성에서 찾을 수 있습니다.
비용 재작성: RL 사후 교육 롤아웃의 필요성은 무한하며, 매우 저렴한 비용으로 전 세계의 롱테일 연산을 동원할 수 있는 Web3의 능력은 중앙 집중식 클라우드 공급업체가 따라올 수 없는 비용적 이점입니다.
소버린 정렬: AI 가치에 대한 대형 벤더의 독점 깨기. 커뮤니티는 토큰을 통해 모델에 대한 "좋은 답"에 투표하여 AI 거버넌스를 민주화할 수 있습니다.
동시에 시스템은 두 가지 구조적 제약에 직면해 있습니다.
대역폭의 벽: DisTrO와 같은 혁신에도 불구하고 물리적 대역폭의 벽은 그다지 강력하지 않습니다. DisTrO 및 기타 혁신에도 불구하고 물리적 지연 시간은 여전히 초대형 파라메트릭 모델(70B 이상)의 전체 볼륨 학습을 제한하고 있으며, Web3 AI는 현재 미세 조정 및 추론에 더 제한되어 있습니다.
굿하트의 보상 해킹의 법칙: 인센티브가 높은 네트워크에서는 마이너가 보상 규칙(예: "보상 해킹" 규칙)을 "과도하게 맞추는" 것이 쉽습니다. 실제 지능을 향상시키기보다는 보상 규칙(점수 스와이프)을 '맞추기' 때문입니다. 부정행위를 방지하는 강력한 보상 기능을 설계하는 것은 영원한 게임입니다.
악의적인 비잔틴 워커: 훈련 신호를 적극적으로 조작하고 독살하여 모델 수렴을 약화시키는 행위. 핵심은 치트 방지 보상 기능을 지속적으로 설계하는 것이 아니라 적대적 견고성을 갖춘 메커니즘을 구축하는 것입니다.
강화 학습은 Web3와 결합하여 인텔리전스를 생성하고, 정렬하고, 가치를 부여하는 방식을 근본적으로 다시 쓰고 있습니다. 강화 학습의 진화 경로는 세 가지 상호 보완적인 방향으로 요약할 수 있습니다.
탈중앙화된 푸시 트레이닝 네트워크: 산술 마이너에서 정책 네트워크로, 병렬 및 검증 가능한 롤아웃을 글로벌 롱테일 GPU에 아웃소싱, 단기적으로는 검증 가능한 추론 시장에 집중, 중기적으로는 작업별로 클러스터링된 강화 학습 하위 네트워크로 진화;
< span text="">선호도와 보상의 자산화: 라벨링된 노동에서 데이터 형평성까지. 선호도와 보상의 자산화는 고품질 피드백과 보상 모델을 관리 가능하고 배포 가능한 데이터 자산으로 전환하여 '마크업 노동'에서 '데이터 자산'으로 업그레이드합니다.
전반적으로 강화 학습 × Web3의 진정한 기회는 탈중앙화된 버전의 OpenAI를 복제하는 것이 아니라 "생산의 지능형 관계"를 다시 쓰는 데 있습니다. 진정한 기회는 탈중앙화된 버전의 OpenAI를 복제하는 것이 아니라 "지능의 생산 관계"를 다시 쓰는 것입니다: 학습 실행을 개방형 산술 시장으로 만들고, 보상 및 선호도를 관리 가능한 온체인 자산으로 만들고, 지능의 가치를 플랫폼에 중앙화하지 않고 트레이너, 정렬자 및 사용자 간에 재분배하는 것입니다. 재배포.

사기꾼이 피해자를 속여 자신이 관리하는 지갑으로 자금을 이체하도록 유도하는 새로운 "공유-씨앗-문구" 사기가 암호화폐 사용자를 대상으로 발생하고 있습니다. 바이낸스 CEO 리처드 텅은 사용자들에게 경계를 늦추지 말고 원치 않는 개인 정보 요청에 응하지 말 것을 경고했습니다.
Weatherly새로운 추측에 따르면 잭 도시와 사토시 나카모토는 암호화 전문 지식과 비트코인의 초기 이정표와의 관계를 언급하며 연결고리가 있다고 합니다. 지지자들은 설득력 있는 유사점을 발견한 반면, 회의론자들은 이 이론을 근거 없는 억측이라고 일축합니다. 이것이 비트코인 창시자의 열쇠일까요, 아니면 또 다른 막다른 골목일까요?
Catherine2028년 완공을 목표로 하는 350억 달러 규모의 이 프로젝트는 OpenAI의 스타게이트 비용의 3배에 달하는 규모로, 급증하는 AI 수요를 충족하는 것을 목표로 합니다. 이것이 대담한 비전일까요, 아니면 지나친 도전일까요?
Kikyo트럼프 공식 상품 구매자는 2025년 3월 1일이 마감일인 대통령의 날 프로모션을 통해 무료 TRUMP 밈코인을 받을 수 있습니다. 트럼프 메모리코인은 지속적인 프로모션에도 불구하고 최고점 대비 78% 하락하는 등 상당한 시장 변동성을 경험했습니다.
Weatherly추상체인의 보안 침해로 인해 여러 지갑이 손상되었지만, 개발자들은 이것이 글로벌 AGW 문제는 아니라고 밝혔습니다. 이 익스플로잇은 추상 기반 게임인 Cardex의 취약점과 연결된 것으로 보이며, 타사 보안 위험을 강조하고 있습니다.
Catherine월드 오브 우먼(WoW)은 웹3.0의 여성 선구자들을 기념하기 위해 아티스트 사라 바우만과 함께 여성들의 참여를 장려하는 NFT 초상화 시리즈를 출시하고 무료 채굴을 제공합니다. 이 프로젝트는 웹3.0 분야의 성별 격차를 해소하고, 블록체인에서 여성에게 힘을 실어주려는 와우의 노력을 강조하는 것으로 2025년 이더리움 덴버에서 첫 선을 보일 예정입니다.
Anais노르웨이 당국은 당초 가스, 채굴, 부동산에 투자하기로 약속한 투자자 자금을 로펌의 계좌로 빼돌린 혐의로 4명의 개인을 글로벌 암호화폐 사기 혐의로 기소했습니다.
Kikyo전 OpenAI CTO였던 미라 무라티가 윤리적 AI와 개방형 연구에 중점을 둔 AI 스타트업인 Thinking Machines Lab을 설립했습니다. 이 회사는 OpenAI, 메타, 미스트랄에서 최고의 인재를 영입했으며, 현재 사업 확장을 위한 자금 조달을 모색하고 있습니다.
Weatherly암호화폐 지갑은 암호화폐 자산을 관리하는 주요 도구가 될 것이며, 전 바이낸스 CEO 창펑 자오는 거래소는 전문 트레이더를 위한 서비스를 제공하고 지갑은 일반 사용자를 위한 주요 인터페이스로 남겨두어야 한다고 제안했습니다.
CatherineBullish는 홍콩에서 암호화폐 거래 라이선스를 획득하며 9개의 다른 라이선스 플랫폼에 합류했습니다. 회사는 기관 고객 서비스에 집중하고 전 세계로 입지를 확장하는 한편, 홍콩이 선도적인 디지털 자산 허브로서의 역할을 계속 강화할 계획입니다.
Anais