Tác giả: Michael O’Rourke Nguồn: cointelegraph Biên dịch: Shan Ou Ba, Golden Finance
Để nhận ra toàn bộ tiềm năng của dữ liệu mở và tận hưởng chương trình đào tạo mô hình ngôn ngữ quy mô lớn (LLM) chi phí thấp, chia sẻ dữ liệu nghiên cứu thuận tiện và dịch vụ lưu trữ DApp không ngừng nghỉ, chúng ta phải chuyển đổi nó từ cơ sở hạ tầng tập trung sang kiến trúc phi tập trung.
Dữ liệu mở hiện là động lực chính thúc đẩy nền kinh tế công nghệ toàn cầu đang nổi lên, với giá trị thị trường hơn 350 tỷ đô la. Tuy nhiên, nhiều nguồn dữ liệu mở dựa vào cơ sở hạ tầng tập trung, điều này trái ngược với lý tưởng tự chủ và chống kiểm duyệt của Web3.
Để khai thác hết tiềm năng của dữ liệu mở, cần phải chuyển sang cơ sở hạ tầng phi tập trung. Khi hệ sinh thái dữ liệu mở chuyển sang kiến trúc mở và phi tập trung, nhiều lỗ hổng trong ứng dụng của người dùng sẽ được giải quyết.
Các kịch bản ứng dụng của cơ sở hạ tầng phi tập trung rất rộng, bao gồm:
• Lưu trữ các ứng dụng phi tập trung (DApp)
• Chạy robot giao dịch
• Chia sẻ dữ liệu nghiên cứu
• Đào tạo và suy luận LLM
Đi sâu hơn vào các trường hợp sử dụng này, chúng ta sẽ thấy rằng so với cơ sở hạ tầng tập trung, kiến trúc phi tập trung hiệu quả và thiết thực hơn trong việc sử dụng dữ liệu mở.
LLM có chi phí đào tạo và suy luận thấp hơn
Việc phát hành AI nguồn mở DeepSeek đã từng khiến thị trường công nghệ Hoa Kỳ bốc hơi 1 nghìn tỷ đô la, chứng minh đầy đủ sức mạnh của các giao thức nguồn mở. Đây là lời cảnh báo rằng chúng ta nên chú ý đến nền kinh tế toàn cầu mới lấy dữ liệu mở làm cốt lõi.
Hiện nay, các mô hình AI tập trung, khép kín rất tốn kém để đào tạo, điều này cũng ảnh hưởng đến khả năng đào tạo và tạo ra kết quả có độ chính xác cao của LLM. Ví dụ, chi phí đào tạo cuối cùng của DeepSeek R1 chỉ khoảng 5,5 triệu đô la, so với GPT-4 của OpenAI có chi phí đào tạo hơn 100 triệu đô la. Tuy nhiên, ngành công nghiệp AI mới nổi vẫn dựa vào các nền tảng cơ sở hạ tầng tập trung (như nhà cung cấp API LLM), điều này trái ngược với ý tưởng đổi mới nguồn mở.
Trên thực tế, việc lưu trữ các LLM nguồn mở như Llama 2 và DeepSeek R1 vừa dễ dàng vừa rẻ. Không giống như blockchain có trạng thái đòi hỏi phải đồng bộ hóa liên tục, LLM không có trạng thái và chỉ yêu cầu cập nhật định kỳ.
Mặc dù LLM tương đối dễ chạy, việc thực hiện suy luận trên các mô hình nguồn mở vẫn tốn kém về mặt tính toán vì các toán tử nút yêu cầu sức mạnh tính toán của GPU. Nhưng điều đáng chú ý là các mô hình này không cần phải cập nhật theo thời gian thực, điều này có thể tiết kiệm rất nhiều chi phí về lâu dài.
Sự ra đời của các mô hình cơ sở chung (như GPT-4) giúp có thể phát triển các sản phẩm mới dựa trên lý luận theo ngữ cảnh. Tuy nhiên, các công ty tập trung (như OpenAI) sẽ không cho phép bất kỳ mạng ngẫu nhiên nào truy cập vào các mô hình đã được đào tạo của họ để suy luận.
Thay vào đó, các nhà điều hành nút phi tập trung có thể hoạt động như điểm cuối AI, cung cấp dữ liệu xác định cho khách hàng, do đó hỗ trợ phát triển LLM nguồn mở. Mạng phi tập trung giúp giảm rào cản gia nhập bằng cách trao quyền cho các nhà khai thác khởi chạy các cổng trên mạng.
Các giao thức cơ sở hạ tầng phi tập trung này xử lý hàng triệu yêu cầu trên mạng không cần cấp phép của chúng thông qua cổng lõi nguồn mở và cơ sở hạ tầng dịch vụ. Do đó, bất kỳ doanh nhân hoặc nhà điều hành nào cũng có thể triển khai cổng thông tin của mình và thâm nhập vào các thị trường mới nổi.
Ví dụ, một nhóm có thể tận dụng các tài nguyên điện toán phi tập trung để đào tạo một LLM về giao thức không cần cấp phép Akash, giao thức này cung cấp các dịch vụ điện toán tùy chỉnh với mức giá thấp hơn 85% so với các nhà cung cấp dịch vụ đám mây tập trung.
Hiện nay, các công ty AI chi khoảng 1 triệu đô la mỗi ngày cho việc bảo trì cơ sở hạ tầng để chạy các dịch vụ suy luận LLM. Điều này có nghĩa là quy mô hàng năm của thị trường cơ sở hạ tầng AI (SAM) có thể đạt khoảng 365 triệu đô la Mỹ.
Dữ liệu cho thấy các điều kiện thị trường đang chỉ ra tiềm năng tăng trưởng to lớn của cơ sở hạ tầng phi tập trung. Sự phát triển phi tập trung của các nguồn tài nguyên điện toán AI trong tương lai sẽ mang lại không gian đổi mới lớn hơn cho ngành.
Chia sẻ dữ liệu nghiên cứu dễ tiếp cận
Trong lĩnh vực nghiên cứu khoa học, việc chia sẻ dữ liệu kết hợp với máy học và mô hình ngôn ngữ lớn (LLM) có khả năng đẩy nhanh tiến độ nghiên cứu và cải thiện cuộc sống con người. Tuy nhiên, việc truy cập dữ liệu bị hạn chế do hệ thống tạp chí học thuật có chi phí cao. Các tạp chí này chỉ xuất bản những nghiên cứu được ủy ban của họ chấp thuận và thường ẩn sau mức phí đăng ký đắt đỏ, khiến chúng khó được tiếp cận rộng rãi.
Với sự ra đời của các mô hình máy học không kiến thức (ZK) dựa trên blockchain, dữ liệu giờ đây có thể được chia sẻ và tính toán trong môi trường không cần tin cậy trong khi vẫn bảo vệ được quyền riêng tư mà không làm rò rỉ thông tin nhạy cảm. Do đó, các nhà nghiên cứu và nhà khoa học có thể chia sẻ và truy cập dữ liệu nghiên cứu mà không cần phải xóa thông tin nhận dạng cá nhân có khả năng bị hạn chế.
Để chia sẻ dữ liệu nghiên cứu mở một cách bền vững, các nhà nghiên cứu cần một cơ sở hạ tầng phi tập trung để thưởng cho họ khi truy cập dữ liệu và loại bỏ các bên trung gian. Một mạng dữ liệu mở được khuyến khích có thể đảm bảo dữ liệu khoa học vẫn có thể truy cập được ngoài các tạp chí đắt tiền và các công ty tư nhân.
Lưu trữ DApp không thể ngăn cản
Các nền tảng lưu trữ dữ liệu tập trung như Amazon Web Services (AWS), Google Cloud và Microsoft Azure rất phổ biến trong số các nhà phát triển ứng dụng. Mặc dù các nền tảng này dễ truy cập, nhưng các nền tảng tập trung lại có nguy cơ xảy ra lỗi tại một điểm duy nhất, ảnh hưởng đến độ tin cậy và có khả năng dẫn đến gián đoạn dịch vụ hiếm khi xảy ra nhưng hợp lý.
Lịch sử công nghệ đầy rẫy những trường hợp nền tảng Cơ sở hạ tầng dưới dạng dịch vụ (IaaS) không thể cung cấp dịch vụ liên tục. Ví dụ:
• Vào năm 2022, do Infura tuân thủ lệnh trừng phạt của Hoa Kỳ, MetaMask đã tạm thời từ chối quyền truy cập của người dùng ở một số khu vực. Mặc dù MetaMask là nền tảng phi tập trung, nhưng các kết nối và điểm cuối mặc định của nó lại dựa vào Infura tập trung để truy cập Ethereum.
• Khách hàng của Infura cũng gặp phải tình trạng gián đoạn vào năm 2020.
• Các dịch vụ gọi thủ tục từ xa tập trung (RPC) của Solana và Polygon bị quá tải trong thời gian lưu lượng truy cập cao điểm, gây ra tình trạng tắc nghẽn mạng.
Trong một hệ sinh thái nguồn mở đang phát triển mạnh mẽ, một công ty riêng lẻ khó có thể đáp ứng được nhiều nhu cầu khác nhau của nhà phát triển. Hiện nay, có hàng ngàn blockchain Lớp 1, giải pháp Rollup, dịch vụ lập chỉ mục, giao thức lưu trữ và các giao thức phần mềm trung gian khác trên thị trường, đáp ứng nhiều trường hợp sử dụng thích hợp khác nhau.
Hầu hết các nền tảng tập trung (như nhà cung cấp RPC) vẫn tiếp tục xây dựng cùng một cơ sở hạ tầng, điều này không chỉ tạo ra sự cản trở mà còn làm chậm quá trình tăng trưởng và ảnh hưởng đến khả năng mở rộng vì các giao thức tập trung vào việc xây dựng lại nền tảng thay vì phát triển các tính năng mới.
Ngược lại, sự thành công của các ứng dụng mạng xã hội phi tập trung như BlueSky và AT Protocol cho thấy nhu cầu của người dùng đối với các giao thức phi tập trung đang tăng lên. Bằng cách chuyển từ RPC tập trung sang truy cập dữ liệu mở, các giao thức này nhắc nhở chúng ta về tầm quan trọng của việc xây dựng và áp dụng cơ sở hạ tầng phi tập trung.
Ví dụ, các giao thức tài chính phi tập trung (DeFi) có thể lấy dữ liệu giá trên chuỗi từ Chainlink mà không cần dựa vào API tập trung để biết thông tin giá và dữ liệu thị trường theo thời gian thực.
Hiện tại, thị trường Web3 có khoảng 100 tỷ yêu cầu RPC có thể phục vụ, với chi phí cho mỗi triệu yêu cầu dao động từ 3 đến 6 đô la. Do đó, tổng quy mô thị trường khả dụng (TAM) của Web3 RPC là khoảng 100-200 triệu đô la/năm. Khi mức độ sẵn có của dữ liệu mới tăng đều đặn, khối lượng yêu cầu RPC có thể vượt quá 1 nghìn tỷ mỗi ngày.
Để thích ứng với sự phát triển của truyền dữ liệu mở và tham gia vào thị trường dữ liệu nguồn mở, việc chuyển sang cơ sở hạ tầng phi tập trung là điều bắt buộc.
Dữ liệu mở đòi hỏi cơ sở hạ tầng phi tập trung
Về lâu dài, chúng ta sẽ thấy các máy khách blockchain nói chung chuyển giao các chức năng lưu trữ và mạng cho các giao thức trung gian chuyên biệt.
Ví dụ, Solana đã đi đầu trong việc thúc đẩy lưu trữ phi tập trung và là công ty đầu tiên lưu trữ dữ liệu của mình trên các chuỗi như Arweave. Kết quả là, Solana và Phantom một lần nữa trở thành công cụ chính để xử lý lưu lượng giao dịch cho Mã thông báo meme chiến dịch tranh cử tổng thống TRUMP, một khoảnh khắc quan trọng trong lịch sử tài chính và văn hóa.
Trong tương lai, chúng ta sẽ thấy ngày càng nhiều dữ liệu chạy qua các giao thức cơ sở hạ tầng, điều này sẽ khiến các nền tảng phần mềm trung gian trở thành một phần phụ thuộc quan trọng ở lớp giao thức. Khi các giao thức trở nên mô-đun và có thể mở rộng hơn, điều này sẽ tạo ra không gian cho phần mềm trung gian phi tập trung, nguồn mở được tích hợp ở lớp giao thức.
Trong tương lai, sẽ không khả thi khi các công ty tập trung đóng vai trò trung gian cho dữ liệu tiêu đề máy khách nhẹ. Cơ sở hạ tầng phi tập trung không cần sự tin cậy, phân tán, tiết kiệm chi phí và chống kiểm duyệt.
Do đó, cơ sở hạ tầng phi tập trung sẽ trở thành lựa chọn mặc định cho các nhà phát triển ứng dụng và doanh nghiệp, thúc đẩy mô hình tăng trưởng cùng có lợi và cùng có lợi.