Tác giả: Yu Lili; Nguồn: Undercurrent Waves
Trong số bảy công ty khởi nghiệp mô hình lớn ở Trung Quốc, DeepSeek ít nổi tiếng nhất, nhưng nó luôn có thể được ghi nhớ theo những cách không ngờ tới.
Một năm trước, điều bất ngờ này đến từ gã khổng lồ cổ phần tư nhân định lượng Huanfang đứng sau nó. Đây là công ty duy nhất ngoài các nhà sản xuất lớn dự trữ 10.000 con chip A100. sau này sẽ là nguồn gốc của cuộc chiến giá cả dành cho các mẫu xe cỡ lớn ở Trung Quốc.
DeepSeek trở nên nổi tiếng vào tháng 5 khi liên tục bị AI bắn phá. Lý do là họ đã phát hành một mô hình nguồn mở có tên DeepSeek V2, mang lại hiệu quả chi phí chưa từng có: chi phí suy luận giảm xuống chỉ còn 1 nhân dân tệ trên một triệu token, xấp xỉ 1/7 so với Llama3 70B, GPT-4 One- thứ bảy mươi của Turbo.
Giá lần lượt giảm. Cuộc chiến giá mẫu lớn của Trung Quốc sắp nổ ra.
Vụ nổ súng thực sự che giấu sự thật rằng không giống như nhiều công ty lớn đốt tiền để trợ cấp, DeepSeek có lãi.
Đằng sau điều này là sự đổi mới toàn diện về kiến trúc mô hình của DeepSeek. Nó đề xuất kiến trúc MLA (Cơ chế chú ý tiềm ẩn nhiều đầu mới) hoàn toàn mới, giúp giảm mức sử dụng bộ nhớ xuống 5%-13% so với kiến trúc MHA được sử dụng phổ biến nhất trước đây. đồng thời, nó là duy nhất Cấu trúc DeepSeekMoESparse cũng giảm khối lượng tính toán đến mức tối đa, tất cả những điều này cuối cùng đều góp phần giảm chi phí.
Tại Thung lũng Silicon, DeepSeek được mệnh danh là "sức mạnh bí ẩn đến từ phương Đông". Nhà phân tích chính của SemiAnalysis tin rằng bài báo DeepSeek V2 "có thể là bài báo tốt nhất trong năm nay". Cựu nhân viên OpenAI Andrew Carr gọi bài báo này là “đầy trí tuệ đáng kinh ngạc” và áp dụng các cài đặt đào tạo của nó vào mô hình của riêng mình. Jack Clark, cựu giám đốc chính sách của OpenAI và đồng sáng lập Anthropic, tin rằng DeepSeek “sử dụng một nhóm phù thủy khó đoán” và tin rằng những mẫu xe cỡ lớn sản xuất tại Trung Quốc “sẽ trở nên quan trọng như máy bay không người lái và ô tô điện, điều không thể bỏ qua”. Quyền lực ”
Đây là một tình huống hiếm gặp trong làn sóng AI mà về cơ bản Thung lũng Silicon dẫn dắt câu chuyện. Nhiều người trong ngành nói với chúng tôi rằngPhản ứng mạnh mẽ này bắt nguồn từ sự đổi mới ở cấp độ kiến trúc và là nỗ lực hiếm hoi của các công ty mô hình lớn trong nước và thậm chí cả các mô hình lớn dựa trên nguồn mở toàn cầu. Một nhà nghiên cứu AI cho biết kiến trúc Chú ý đã được đề xuất trong nhiều năm nhưng hầu như chưa bao giờ được sửa đổi thành công chứ chưa nói đến việc xác minh trên quy mô lớn. "Đây thậm chí là ý tưởng sẽ bị cắt bỏ khi đưa ra quyết định, bởi vì hầu hết mọi người đều thiếu tự tin."
Mặt khác, các mẫu lớn trong nước là lý do tại sao Trước đây chúng ta hiếm khi tham gia vào đổi mới ở cấp độ kiến trúc là do ít người chủ động phá bỏ khuôn mẫu:Hoa Kỳ giỏi hơn về đổi mới công nghệ từ 0-1, trong khi Trung Quốc giỏi hơn về đổi mới ứng dụng từ 1-10 . Hơn nữa, kiểu hành vi này rất không kinh tế - một thế hệ mẫu mới đương nhiên sẽ do ai đó sản xuất trong vài tháng nữa, và các công ty Trung Quốc chỉ cần làm theo và áp dụng tốt. Đổi mới cơ cấu mô hình đồng nghĩa với việc không có con đường để đi, phải trải qua nhiều thất bại, thời gian và chi phí kinh tế rất lớn.
DeepSeek rõ ràng là một kẻ nổi loạn. Giữa những ồn ào cho rằng các công nghệ mô hình lớn chắc chắn sẽ hội tụ và đi theo con đường tắt thông minh hơn, DeepSeek đánh giá cao giá trị tích lũy được trong các “đường vòng” và tin rằng ngoài đổi mới ứng dụng, các doanh nhân mô hình lớn của Trung Quốc cũng có thể tham gia đổi mới công nghệ toàn cầu. dòng chảy.
Nhiều lựa chọn của DeepSeek là duy nhất. Tính đến thời điểm hiện tại, trong số 7 startup mô hình quy mô lớn tại Trung Quốc, đây là công ty duy nhất đã từ bỏ con đường “cần và muốn” và tập trung vào nghiên cứu, công nghệ mà không làm ứng dụng toC. chưa xem xét đầy đủ đến việc thương mại hóa và được lựa chọn chắc chắn. Có những công ty thậm chí còn chưa huy động vốn theo con đường nguồn mở. Những điều này khiến nó thường bị lãng quên bên ngoài bàn poker nhưng mặt khác lại thường được người dùng trong cộng đồng lan truyền như “nước máy”.
DeepSeek được tạo ra như thế nào? Vì mục đích này, chúng tôi đã phỏng vấn Liang Wenfeng, người sáng lập DeepSeek, người hiếm khi xuất hiện.
Người sáng lập những năm sau 80 này, người đã nghiên cứu công nghệ ở hậu trường kể từ kỷ nguyên Magic Square, vẫn tiếp tục phong cách giản dị của mình trong kỷ nguyên DeepSeek và tất cả Giống như các nhà nghiên cứu, họ “đọc báo, viết mã và tham gia thảo luận nhóm” mỗi ngày.
Nhiều người sáng lập quỹ định lượng có kinh nghiệm làm việc trong các quỹ phòng hộ ở nước ngoài. Hầu hết họ đều học chuyên ngành vật lý, toán học, v.v. Điểm khác biệt là Liang Wenfeng luôn xuất thân từ đó. có nền tảng địa phương và được nghiên cứu từ những năm đầu. Đây cũng là hướng đi của trí tuệ nhân tạo tại Khoa Kỹ thuật Điện tử của Đại học Chiết Giang.
Nhiều người trong ngành và các nhà nghiên cứu DeepSeek nói với chúng tôi rằng Liang Wenfeng là người rất hiếm trong ngành AI Trung Quốc hiện tại "có cả năng lực kỹ thuật cơ sở hạ tầng mạnh mẽ và nghiên cứu mô hình năng lực, đồng thời có năng lực kỹ thuật cơ sở hạ tầng mạnh mẽ và khả năng nghiên cứu mô hình. Một người có thể huy động các nguồn lực" và "có thể đưa ra những đánh giá chính xác từ cấp cao và chi tiết hơn các nhà nghiên cứu tiền tuyến". Anh ta có một "khả năng học tập đáng kinh ngạc". " và đồng thời "trông không giống ông chủ chút nào mà giống ông chủ hơn." Giống như một kẻ lập dị”.
Đây là một cuộc phỏng vấn đặc biệt hiếm hoi. Trong cuộc phỏng vấn, nhà lý tưởng kỹ thuật này đã đưa ra một tiếng nói đặc biệt hiếm thấy trong giới khoa học và công nghệ Trung Quốc:Ông là một trong số ít người đặt “quan điểm đúng sai” trước “quan điểm lợi ích” và nhắc nhở chúng ta để xem thời đại, người đưa "sự đổi mới nguyên bản" vào chương trình nghị sự.
Một năm trước, khi DeepSeek vừa kết thúc, chúng tôi đã phỏng vấn Liang Wenfeng lần đầu tiên: "Crazy Magic Square: Một trong những Mô hình lớn của "con đường" khổng lồ AI vô hình. Nếu lúc đó “Tham vọng điên cuồng và chân thành điên cuồng” vẫn là một khẩu hiệu đẹp đẽ vào thời điểm đó thì một năm sau, nó đã trở thành một hành động.
Sau đây là phần hội thoại
Cuộc chiến về giá Phát súng đầu tiên được bắn như thế nào?
"Undercurrent": Sau khi phát hành mẫu DeepSeek V2, nó nhanh chóng gây ra một cuộc chiến giá cả mẫu máy quy mô lớn đẫm máu. mọi người nói rằng bạn là một con cá da trơn trong ngành.
Liang Wenfeng: Chúng tôi không có ý trở thành cá da trơn, chúng tôi chỉ vô tình trở thành một con cá trê mà thôi.
"Undercurrent": Kết quả này có làm bạn ngạc nhiên không?
Liang Wenfeng: Rất bất ngờ. Tôi không ngờ rằng mức giá lại khiến mọi người nhạy cảm đến vậy. Chúng tôi chỉ làm mọi việc theo tốc độ của riêng mình và sau đó tính toán giá thành. Nguyên tắc của chúng tôi là không đưa tiền hay kiếm lợi nhuận khổng lồ. Mức giá này cũng là một khoản lợi nhuận nhỏ so với chi phí.
"Undercurrent": Zhipu AI theo sau 5 ngày sau, tiếp theo là Byte, Alibaba, Baidu, Tencent và các nhà sản xuất lớn khác.
Liang Wenfeng: Zhipu AI là sản phẩm cấp thấp và các mẫu cùng cấp độ như của chúng tôi vẫn tính phí rất nhiều tiền. Byte thực sự là người đầu tiên làm theo. Mẫu hàng đầu đã giảm xuống ngang mức giá của chúng tôi, điều này sau đó khiến các nhà sản xuất lớn khác phải giảm giá. Bởi vì giá thành của các mẫu máy từ các nhà sản xuất lớn cao hơn nhiều so với của chúng tôi nên chúng tôi không ngờ rằng sẽ có người mất tiền khi làm việc này, và cuối cùng nó đã trở thành logic của việc trợ cấp đốt tiền trong thời đại Internet.
"Dòng chảy ngầm": Nhìn từ bên ngoài, việc giảm giá trông giống như cố gắng thu hút người dùng, điều này thường xảy ra trong các cuộc chiến giá cả trong thời đại Internet.
Liang Wenfeng: Thu hút người dùng không phải là mục đích chính của chúng tôi. Một mặt, chúng tôi giảm giá vì chúng tôi đang khám phá cấu trúc của mô hình thế hệ tiếp theo và mặt khác, chúng tôi cũng cảm thấy rằng cả API và AI đều phải phổ biến và phù hợp với túi tiền của mọi người.
"Undercurrent": Trước đó, hầu hết các công ty Trung Quốc đều trực tiếp sao chép thế hệ cấu trúc Llama này cho các ứng dụng. cắt?
Liang Wenfeng: Nếu mục tiêu là tạo ứng dụng thì sử dụng cấu trúc Llama và ngắn, phẳng và nhanh sản phẩm cũng là một sự lựa chọn hợp lý. Nhưng đích đến của chúng ta là AGI, có nghĩa là chúng ta cần nghiên cứu các cấu trúc mô hình mới để đạt được khả năng mô hình mạnh mẽ hơn trong điều kiện nguồn lực hạn chế. Đây là một trong những nghiên cứu cơ bản cần thiết để mở rộng quy mô sang mô hình lớn hơn. Ngoài cấu trúc mô hình, chúng tôi cũng đã thực hiện rất nhiều nghiên cứu khác, bao gồm cách cấu trúc dữ liệu, cách làm cho mô hình giống con người hơn, v.v., tất cả đều được phản ánh trong các mô hình chúng tôi đưa ra. Ngoài ra, cơ cấu của Llama được ước tính là tụt hậu hai thế hệ so với trình độ tiên tiến của nước ngoài về hiệu quả đào tạo và chi phí suy luận.
"Undercurrent": Khoảng cách thế hệ này chủ yếu đến từ đâu?
Liang Wenfeng: Trước hết là có sự chênh lệch về hiệu quả đào tạo. Chúng tôi ước tính rằng cấu trúc mô hình và động lực đào tạo có thể khác biệt gấp đôi giữa mô hình tốt nhất trong nước và mô hình nước ngoài tốt nhất. Chỉ riêng điều này, chúng ta phải tiêu thụ gấp đôi sức mạnh tính toán để đạt được hiệu quả tương tự. Ngoài ra, có thể có khoảng cách gấp đôi về hiệu quả dữ liệu, có nghĩa là chúng ta phải tiêu thụ gấp đôi lượng dữ liệu đào tạo và sức mạnh tính toán để đạt được hiệu quả tương tự. Nhìn chung, nó tiêu thụ sức mạnh tính toán gấp 4 lần. Điều chúng ta phải làm là tiếp tục thu hẹp những khoảng cách này.
"Undercurrent": Hầu hết các công ty Trung Quốc chọn có cả mô hình và ứng dụng. Tại sao DeepSeek hiện chỉ chọn nghiên cứu và thăm dò?
Liang Wenfeng: Bởi vì chúng tôi cảm thấy điều quan trọng nhất hiện nay là tham gia vào làn sóng đổi mới toàn cầu. Trong nhiều năm qua, các công ty Trung Quốc đã quen với việc người khác thực hiện những đổi mới công nghệ và chúng tôi sử dụng chúng để kiếm tiền từ các ứng dụng, nhưng đây không phải là chuyện đương nhiên. Trong làn sóng này, điểm xuất phát của chúng ta không phải là tận dụng cơ hội để làm giàu mà là đi đầu về công nghệ để thúc đẩy sự phát triển của toàn bộ hệ sinh thái.
"Dòng điện ngầm": Nhận thức quán tính để lại cho hầu hết mọi người trong kỷ nguyên Internet và Internet di động là Hoa Kỳ rất giỏi đổi mới công nghệ, và Trung Quốc làm ứng dụng tốt hơn.
Liang Wenfeng: Chúng tôi tin rằng với sự phát triển kinh tế,Trung Quốc sẽ dần trở thành nước đóng góp chứ không phải lúc nào cũng vậy quá giang. Trong làn sóng CNTT khoảng ba mươi năm trở lại đây, về cơ bản chúng ta chưa tham gia vào đổi mới công nghệ thực sự. Chúng ta đã quen với Định luật Moore từ trên trời rơi xuống và phần cứng cũng như phần mềm tốt hơn sẽ xuất hiện sau khi nằm ở nhà 18 tháng. Luật mở rộng quy mô cũng được xử lý theo cách này.
Nhưng trên thực tế, đây chính là thứ mà cộng đồng công nghệ phương Tây thống trị đã làm việc không mệt mỏi qua nhiều thế hệ để tạo ra, chỉ vì chúng ta không tham gia vào việc này quá trình trước đó, vì vậy chúng tôi bỏ qua sự tồn tại của nó.
Khoảng cách thực sự không phải là một hay hai năm, mà là sự khác biệt giữa nguyên bản và bắt chước
"Undercurrent": Tại sao DeepSeek V2 lại khiến nhiều người ở Thung lũng Silicon ngạc nhiên?
Liang Wenfeng: Trong số lượng lớn các đổi mới diễn ra hàng ngày ở Hoa Kỳ, đây là một cái chung. Lý do khiến họ ngạc nhiên là đây là một công ty Trung Quốc tham gia trò chơi của họ với tư cách là người đóng góp sáng tạo. Xét cho cùng, hầu hết các công ty Trung Quốc đều quen đi theo thay vì đổi mới.
"Undercurrent": Nhưng sự lựa chọn này quá xa xỉ trong bối cảnh Trung Quốc. Mô hình lớn là một trò chơi đầu tư lớn và không phải công ty nào cũng có vốn để chỉ nghiên cứu đổi mới sáng tạo mà không tính đến thương mại hóa trước tiên.
Liang Wenfeng: Chi phí đổi mới chắc chắn không thấp, và quán tính trong quá khứ của chủ nghĩa chiếm đoạt cũng không phù hợp với các điều kiện quốc gia trước đây có liên quan. Nhưng bây giờ, cho dù nhìn vào quy mô kinh tế của Trung Quốc hay lợi nhuận của các công ty lớn như Byte và Tencent, chúng đều không hề thấp trên thế giới. Cái chúng ta thiếu trong đổi mới chắc chắn không phải là vốn mà là thiếu sự tự tin và không biết cách tổ chức nhân tài với mật độ cao để đạt được đổi mới hiệu quả.
"Dòng chảy ngầm": Tại sao các công ty Trung Quốc, kể cả các công ty lớn không thiếu tiền, lại dễ dàng ưu tiên thương mại hóa nhanh chóng?
Liang Wenfeng: Trong ba mươi năm qua, chúng ta chỉ nhấn mạnh đến việc kiếm tiền và bỏ qua sự đổi mới. Sự đổi mới không hoàn toàn do hoạt động kinh doanh thúc đẩy mà còn đòi hỏi sự tò mò và sáng tạo. Chúng ta chỉ bị ràng buộc bởi quán tính của quá khứ, nhưng đó cũng là một giai đoạn.
"Undercurrent": Nhưng xét cho cùng, bạn là một tổ chức thương mại, không phải một tổ chức nghiên cứu khoa học phúc lợi công cộng nếu bạn chọn đổi mới và chia sẻ nó. thông qua mã nguồn mở thì lấy đâu tạo hào? Những cải tiến như kiến trúc MLA vào tháng 5 sẽ sớm được các công ty khác sao chép phải không?
Liang Wenfeng: Đối mặt vớicác công nghệ mang tính đột phá, con hào được hình thành bởi nguồn đóng là rất ngắn- đã sống. Ngay cả khi OpenAI là nguồn đóng thì cũng không thể ngăn được việc bị người khác vượt qua. Vì vậy, chúng tôi gửi gắm giá trị vào nhóm. Các đồng nghiệp của chúng tôi phát triển trong quá trình này, tích lũy nhiều bí quyết và hình thành một tổ chức cũng như văn hóa có thể đổi mới, đó chính là con hào của chúng tôi.
Nguồn mở và xuất bản các bài viết, thực tế là không mất gì cả. Đối với nhân viên kỹ thuật, được theo dõi là một cảm giác thành tựu tuyệt vời. Trên thực tế, nguồn mở giống một hành vi văn hóa hơn là một hành vi thương mại. Cho đi thực sự là một vinh dự thêm. Một công ty làm điều này cũng sẽ có sức hấp dẫn về văn hóa.
"Undercurrent": Bạn nghĩ gì về những tín đồ thị trường như Zhu Xiaohu?
Liang Wenfeng: Zhu Xiaohu là người kiên định, nhưng phong cách chơi của anh ấy phù hợp hơn với các công ty sản xuất kiếm tiền nhanh chóng, và bạn Hãy nhìn vào những công ty có lợi nhuận cao nhất nước Mỹ, họ đều là những công ty công nghệ cao có lịch sử phát triển lâu đời.
"Undercurrent": Nhưng khi nói đến mô hình quy mô lớn, khó có thể hình thành lợi thế tuyệt đối nếu chỉ dẫn đầu về công nghệ. thứ bạn đang đặt cược là Cái gì?
Liang Wenfeng: Điều chúng tôi thấy là AI của Trung Quốc không phải lúc nào cũng ở vị trí đi sau. Chúng tôi thường nói rằng có khoảng cách một hoặc hai năm giữa AI của Trung Quốc và Hoa Kỳ, nhưng khoảng cách thực sự là sự khác biệt giữa tính nguyên bản và tính bắt chước. Nếu điều này không thay đổi, Trung Quốc sẽ luôn là kẻ đi sau nên không thể thoát khỏi một số cuộc thám hiểm.
Sự lãnh đạo của NVIDIA không chỉ là nỗ lực của một công ty mà là kết quả của nỗ lực chung của toàn bộ cộng đồng công nghệ và ngành công nghệ phương Tây. Họ có thể nhìn thấy xu hướng công nghệ thế hệ tiếp theo và có lộ trình trong tay. Sự phát triển AI ở Trung Quốc cũng đòi hỏi một hệ sinh thái như vậy. Nhiều chip trong nước không thể phát triển vì thiếu cộng đồng kỹ thuật hỗ trợ và chỉ có thông tin cũ. Do đó, Trung Quốc phải có người đi đầu về công nghệ.
Đầu tư nhiều hơn không nhất thiết tạo ra nhiều đổi mới hơn
< mạnh>"Dòng chảy ngầm": DeepSeek ngày nay có tính chất lý tưởng ngay từ những ngày đầu của OpenAI và nó cũng là nguồn mở. Bạn sẽ chọn nguồn đóng trong tương lai chứ? Cả OpenAI và Mistral đều đã trải qua quá trình chuyển từ nguồn mở sang nguồn đóng.
Liang Wenfeng: Chúng tôi sẽ không đóng nguồn. Chúng tôi tin rằng điều quan trọng hơn hết là phải có một hệ sinh thái kỹ thuật mạnh mẽ.
"Dòng ngầm": Bạn có kế hoạch tài chính chưa? Theo báo cáo phương tiện truyền thông, Huanfang có kế hoạch tách ra và niêm yết DeepSeek một cách độc lập. Các công ty khởi nghiệp AI ở Thung lũng Silicon cuối cùng chắc chắn sẽ bị ràng buộc với các nhà sản xuất lớn.
Liang Wenfeng: Không có kế hoạch tài chính trong ngắn hạn. Vấn đề chúng tôi gặp phải chưa bao giờ là tiền. nhưng lệnh cấm vận chuyển chip cao cấp.
"Undercurrent": Nhiều người tin rằng thực hiện AGI và định lượng là hai việc hoàn toàn khác nhau có thể được thực hiện một cách lặng lẽ, nhưng AGI có thể cần phải làm như vậy. chiến đấu cao và hình thành liên minh, điều này có thể làm tăng khoản đầu tư của bạn.
Liang Wenfeng: Đầu tư nhiều hơn không nhất thiết tạo ra nhiều đổi mới hơn. Nếu không, các nhà sản xuất lớn có thể tiếp quản mọi đổi mới.
"Undercurrent": Hiện tại bạn không làm đơn, có phải vì bạn không có gen để vận hành không?
Liang Wenfeng: Chúng tôi tin rằng giai đoạn hiện tại là thời kỳ bùng nổ của đổi mới công nghệ, không phải là thời kỳ bùng nổ của ứng dụng. Về lâu dài, chúng tôi hy vọng sẽ hình thành một hệ sinh thái trong đó ngành sử dụng trực tiếp công nghệ và sản phẩm của chúng tôi. Chúng tôi chỉ chịu trách nhiệm về các mô hình cơ bản và những đổi mới tiên tiến, sau đó các công ty khác xây dựng hoạt động kinh doanh toB và toC dựa trên DeepSeek. Nếu chúng ta có thể hình thành một ngành công nghiệp thượng nguồn và hạ nguồn hoàn chỉnh, chúng ta không cần phải tự mình tạo ra các ứng dụng. Tất nhiên, nếu cần thì không có trở ngại nào để chúng tôi áp dụng nhưng nghiên cứu và đổi mới công nghệ sẽ luôn là ưu tiên hàng đầu của chúng tôi.
"Undercurrent": Nhưng nếu chọn API thì tại sao lại chọn DeepSeek thay vì các nhà sản xuất lớn?
Liang Wenfeng: Thế giới trong tương lai có thể sẽ chuyên môn hóa về sự phân công lao động cơ bản đòi hỏi sự đổi mới liên tục. . Các nhà sản xuất lớn Nó có ranh giới khả năng riêng và có thể không phù hợp.
"Undercurrent": Nhưng liệu công nghệ có thực sự nới rộng được khoảng cách? Bạn cũng nói rằng không có bí mật kỹ thuật tuyệt đối nào cả.
Liang Wenfeng: Không có bí mật nào về công nghệ, nhưng việc thiết lập lại cần có thời gian và chi phí. Về lý thuyết, card đồ họa của Nvidia không có bí mật kỹ thuật và dễ sao chép, nhưng cần có thời gian để tổ chức lại đội ngũ và bắt kịp công nghệ thế hệ tiếp theo nên thực tế hào vẫn còn rất rộng.
"Dòng điện ngầm": Sau khi bạn giảm giá, Byte đã làm theo trước, điều này cho thấy rằng họ vẫn cảm thấy có mối đe dọa nào đó. Bạn nghĩ sao về giải pháp mới để startup cạnh tranh với các công ty lớn?
Liang Wenfeng: Thành thật mà nói, chúng tôi không quan tâm nhiều đến vấn đề này, chúng tôi chỉ làm theo con đường. Cung cấp dịch vụ đám mây không phải là mục tiêu chính của chúng tôi. Mục tiêu của chúng tôi vẫn là đạt được AGI.
Cho đến nay tôi chưa thấy bất kỳ giải pháp mới nào, nhưng các nhà sản xuất lớn không có lợi thế rõ ràng. Các nhà sản xuất lớn có sẵn người dùng nhưng hoạt động kinh doanh dòng tiền của họ cũng là một gánh nặng, khiến họ dễ bị lật đổ bất cứ lúc nào.
"Undercurrent": Bạn nghĩ gì về kết quả của sáu công ty khởi nghiệp mô hình lớn ngoài DeepSeek?
Liang Wenfeng: Có thể 2 đến 3 gia đình sẽ sống sót. Chúng ta vẫn đang trong giai đoạn đốt tiền nên những người có định vị bản thân rõ ràng, hoạt động tinh tế hơn sẽ có cơ hội sống sót cao hơn. Các công ty khác có thể được tái phát minh. Những thứ có giá trị sẽ không biến mất mà sẽ thay đổi.
"Dòng chảy ngầm": Trong kỷ nguyên hình vuông ma thuật, thái độ cạnh tranh được đánh giá là "đi theo con đường riêng" và ít được chú ý đến so sánh theo chiều ngang. Về cạnh tranh, xuất phát điểm trong suy nghĩ của bạn là gì?
Liang Wenfeng: Điều tôi thường nghĩ đến là liệu một thứ có thể làm cho xã hội hiệu quả hơn không, còn bạn Bạn có thể tìm được một vị trí tốt trong chuỗi phân công lao động công nghiệp của mình? Miễn là kết quả cuối cùng là làm cho xã hội hiệu quả hơn thì điều đó vẫn có giá trị. Có nhiều giai đoạn ở giữa, và sự chú ý quá mức chắc chắn sẽ khiến bạn choáng váng.
Nhóm thanh niên làm những việc "không thể hiểu nổi"
"Dòng chảy ngầm": Jack Clark, cựu giám đốc chính sách của OpenAI và đồng sáng lập của Anthropic, tin rằng DeepSeek đã thuê "một nhóm phù thủy khó đoán". Loại người nào đã tạo ra DeepSeek v2?
Liang Wenfeng: Không có thiên tài bí ẩn nào cả, họ đều là những sinh viên mới tốt nghiệp từ các trường đại học hàng đầu. Tốt nghiệp thực tập với bằng Tiến sĩ. 4 và 5, cũng như một số bạn trẻ mới tốt nghiệp được vài năm.
"Undercurrent": Nhiều công ty kiểu mẫu lớn kiên trì săn đón người nước ngoài. Nhiều người cho rằng 50 nhân tài hàng đầu trong lĩnh vực này có thể đều dành cho các công ty. không phải ở Trung Quốc, người của bạn đến từ đâu?
Liang Wenfeng: Không có người nào từ nước ngoài trở về trên mẫu V2, họ đều là người địa phương. Top 50 nhân tài có thể không có ở Trung Quốc, nhưng có lẽ chúng ta có thể tự đào tạo ra những người như vậy.
"Undercurrent": Sự đổi mới MLA này diễn ra như thế nào? Tôi nghe nói ý tưởng này xuất phát từ sở thích cá nhân của một nhà nghiên cứu trẻ?
Liang Wenfeng: Sau khi tóm tắt một số thay đổi chủ đạo trong kiến trúc Chú ý, anh đột nhiên muốn thiết kế một giải pháp thay thế . kế hoạch. Tuy nhiên, đó là cả một quá trình dài từ ý tưởng đến thực hiện. Chúng tôi đã thành lập một nhóm cho việc này và chúng tôi phải mất vài tháng để hoàn thành nó.
"Dòng chảy ngầm": Sự ra đời của nguồn cảm hứng khác biệt này có liên quan chặt chẽ đến cấu trúc tổ chức hoàn toàn đổi mới của bạn. Trong kỷ nguyên Magic Square, bạn hiếm khi phân công mục tiêu hoặc nhiệm vụ từ trên xuống dưới. Nhưng liệu AGI, một cuộc khám phá biên giới đầy bất ổn, có đòi hỏi nhiều hành động quản lý hơn không?
Liang Wenfeng: DeepSeek cũng hoàn toàn là từ dưới lên. Hơn nữa, chúng ta thường không đặt trước sự phân công lao động mà là sự phân công lao động tự nhiên. Mọi người đều có trải nghiệm phát triển độc đáo của riêng mình và có những ý tưởng riêng, vì vậy không cần phải thúc ép họ. Trong quá trình tìm hiểu, khi gặp vấn đề, anh ấy sẽ mời người khác cùng thảo luận. Nhưng khi một ý tưởng có tiềm năng, chúng tôi sẽ phân bổ nguồn lực từ trên xuống dưới.
"Undercurrent": Tôi nghe nói DeepSeek rất linh hoạt trong việc huy động thẻ và con người.
Liang Wenfeng: Không có giới hạn trên cho mỗi chúng ta trong việc chuyển thẻ và chuyển người. Nếu có ý kiến, mọi người có thể gọi thẻ của cụm đào tạo bất cứ lúc nào mà không cần phê duyệt. Đồng thời, do không có hệ thống phân cấp và liên phòng ban nên mọi người đều có thể được gọi linh hoạt miễn là bên kia cũng quan tâm.
"Dòng chảy ngầm": Phương pháp quản lý lỏng lẻo cũng phụ thuộc vào việc bạn chọn một nhóm người có tình yêu mãnh liệt. Tôi nghe nói bạn rất giỏi tuyển dụng người dựa trên chi tiết và bạn có thể chọn những người xuất sắc dựa trên các chỉ số đánh giá phi truyền thống.
Liang Wenfeng: Tiêu chí lựa chọn người của chúng tôi luôn là tình yêu và sự tò mò nên nhiều người có một số đặc điểm riêng. Trải nghiệm rất thú vị. Nhiều người mong muốn nghiên cứu nhiều hơn là quan tâm đến tiền bạc.
"Undercurrent": Transformer ra đời trong Phòng thí nghiệm AI của Google và ChatGPT ra đời trong OpenAI. Bạn có nghĩ AILab của một công ty lớn và một công ty không? công ty khởi nghiệp có vai trò quan trọng đối với sự đổi mới? Sự khác biệt trong giá trị được tạo ra là gì?
Liang Wenfeng: Cho dù đó là Google Labs, OpenAI hay thậm chí là AI Labs của các nhà sản xuất lớn của Trung Quốc , chúng rất có giá trị. Cuối cùng OpenAI đã thành công và đó cũng là một tai nạn lịch sử.
"Dòng chảy ngầm": Có phải sự đổi mới phần lớn là ngẫu nhiên? Tôi thấy dãy phòng họp ở giữa khu văn phòng của bạn có cửa bên trái và bên phải có thể đẩy mở theo ý muốn. Đồng nghiệp của bạn nói rằng điều này là để nhường chỗ cho cơ hội. Khi máy biến áp ra đời, có một câu chuyện kể rằng những người đi ngang qua tình cờ nghe thấy nó và tham gia, cuối cùng biến nó thành một khuôn khổ phổ quát.
Liang Wenfeng: Tôi nghĩ sự đổi mới trước hết là vấn đề niềm tin. Tại sao Thung lũng Silicon lại đổi mới đến vậy? Đầu tiên là dám. Khi Chatgpt ra mắt, cả nước thiếu niềm tin vào sự đổi mới tiên tiến. Từ nhà đầu tư đến nhà sản xuất lớn, ai cũng cảm thấy khoảng cách quá lớn nên cứ làm ứng dụng. Nhưng sự đổi mới trước tiên đòi hỏi sự tự tin. Sự tự tin này thường rõ ràng hơn ở những người trẻ tuổi.
"Undercurrent": Nhưng bạn không tham gia tài trợ và hiếm khi lên tiếng. Tiếng nói xã hội của bạn chắc chắn không tốt bằng những công ty đang hoạt động. về tài chính. Làm thế nào để đảm bảo DeepSeek Đây có phải là lựa chọn hàng đầu cho những người làm mô hình lớn?
Liang Wenfeng: Bởi vì chúng tôi đang làm điều khó khăn nhất. Điều thu hút những nhân tài hàng đầu nhất chắc chắn là việc giải quyết những vấn đề khó khăn nhất trên thế giới. Trên thực tế, những tài năng hàng đầu đều bị đánh giá thấp ở Trung Quốc. Bởi vì có quá ít những đổi mới cốt lõi ở toàn bộ cấp độ xã hội nên chúng không có cơ hội được xác định. Chúng tôi đang làm điều khó khăn nhất và điều đó lại hấp dẫn họ.
"Undercurrent": Bản phát hành OpenAI trước đó không chờ đợi GPT5. Nhiều người cho rằng đây rõ ràng là một sự chậm lại trong đường cong công nghệ. nhiều người đang bắt đầu đặt câu hỏi về Luật mở rộng Bạn nghĩ sao?
Liang Wenfeng: Chúng tôi rất lạc quan và toàn bộ ngành dường như đang đi đúng với kỳ vọng. OpenAI không phải là thần thánh và không thể lúc nào cũng đứng đầu.
"Undercurrent": Bạn nghĩ sẽ mất bao lâu để AGI được hiện thực hóa? Trước khi phát hành DeepSeek V2, bạn đã phát hành các mô hình toán học và tạo mã Mô hình dày đặc đã được chuyển sang MOE, vậy tọa độ lộ trình AGI của bạn là gì?
Liang Wenfeng: Có thể 2 năm, 5 năm hay 10 năm tóm lại là sẽ thành hiện thực. trong cuộc đời của chúng ta. Về lộ trình, ngay cả trong nội bộ công ty chúng tôi cũng chưa có sự đồng thuận. Nhưng chúng tôi đã đặt cược theo ba hướng. Một là toán học và mã, thứ hai là đa phương thức và thứ ba là ngôn ngữ tự nhiên. Toán học và mã là nền tảng thử nghiệm tự nhiên cho AGI. Nó hơi giống cờ vây. Nó là một hệ thống khép kín và có thể kiểm chứng, và có thể đạt được trí thông minh cao thông qua việc tự học. Mặt khác, việc học tập đa phương thức có sự tham gia của con người trong thế giới thực cũng có thể cần thiết đối với AGI. Chúng tôi cởi mở với mọi khả năng.
"Undercurrent": Bạn nghĩ cái kết của mô hình lớn sẽ như thế nào?
Liang Wenfeng: Sẽ có các công ty chuyên cung cấp các mô hình cơ bản và dịch vụ cơ bản, và sẽ có một chuỗi dài của sự phân công lao động chuyên nghiệp. Nhiều người hơn có thể đáp ứng nhu cầu đa dạng của xã hội nói chung.
Tất cả các thói quen đều là sản phẩm của thế hệ trước
< mạnh>"Dòng chảy": Trong năm qua, có nhiều thay đổi trong mô hình kinh doanh lớn của Trung Quốc. Ví dụ, Wang Huiwen, người đang hoạt động tích cực vào đầu năm ngoái, đã rút khỏi công ty giữa kỳ và các công ty mà ông ấy đang hoạt động. tham gia sau đó bắt đầu cho thấy sự khác biệt.
Liang Wenfeng: Wang Huiwen đã tự mình gánh chịu mọi tổn thất và để những người khác trốn thoát mà không bị tổn hại gì. Anh ấy đã đưa ra một lựa chọn bất lợi nhất cho bản thân nhưng tốt nhất cho mọi người, vì vậy anh ấy là một người rất tốt bụng, điều mà tôi rất ngưỡng mộ.
"Dòng ngầm": Hiện tại bạn tập trung phần lớn năng lượng của mình vào đâu?
Liang Wenfeng: Trọng tâm chính là nghiên cứu thế hệ mô hình lớn tiếp theo. Vẫn còn nhiều câu hỏi chưa được trả lời.
"Undercurrent": Một số công ty khởi nghiệp mô hình lớn khác khẳng định muốn có cả hai, xét cho cùng, công nghệ sẽ không mang lại khả năng lãnh đạo lâu dài. Liệu DeepSeek có dám tập trung nghiên cứu mô hình vì năng lực của mô hình không đủ?
Liang Wenfeng: Tất cả các thói quen đều là sản phẩm của thế hệ trước và có thể không còn giá trị trong tương lai. Sử dụng logic kinh doanh của Internet để thảo luận về mô hình lợi nhuận trong tương lai của AI, giống như bạn đã thảo luận về General Electric và Coca-Cola khi Ma Huateng bắt đầu công việc kinh doanh của mình. Có lẽ là một kiểu đục thuyền đi tìm kiếm.
"Undercurrent": Trong quá khứ, Huanfang có gen công nghệ và đổi mới mạnh mẽ, và sự phát triển của nó tương đối suôn sẻ. Đây là lý do tại sao bạn lạc quan. ?
Liang Wenfeng: Magic Square đã nâng cao niềm tin của chúng tôi vào sự đổi mới dựa trên công nghệ ở một mức độ nào đó, nhưng thực tế thì không Tất cả đều là những con đường bằng phẳng. Chúng ta đã trải qua một quá trình tích lũy lâu dài. Những gì chúng tôi nhìn từ bên ngoài là một phần của Magic Square sau năm 2015, nhưng thực tế chúng tôi đã làm được 16 năm rồi.
"Undercurrent": Quay lại chủ đề về sự đổi mới ban đầu. Bây giờ nền kinh tế đã bước vào thời kỳ suy thoái và vốn đã bước vào chu kỳ lạnh, liệu nó có mang lại nhiều hạn chế hơn cho sự đổi mới ban đầu?
Liang Wenfeng: Tôi không nghĩ vậy. Việc điều chỉnh cơ cấu công nghiệp của Trung Quốc sẽ dựa nhiều hơn vào sự đổi mới trong các công nghệ cốt lõi. Khi nhiều người phát hiện ra rằng việc kiếm tiền nhanh chóng trong quá khứ có thể là do may mắn của thời đại, họ sẽ sẵn sàng dấn thân và thực hiện những đổi mới thực sự hơn.
"Undercurrent": Vậy bạn cũng lạc quan về vấn đề này phải không?
Liang Wenfeng: Tôi lớn lên ở một thành phố hạng năm ở Quảng Đông vào những năm 1980. Cha tôi là giáo viên tiểu học. Vào những năm 1990, ở Quảng Đông có rất nhiều cơ hội kiếm tiền. Khi đó, nhiều phụ huynh đến nhà tôi hầu hết đều cho rằng việc học là vô ích. Nhưng bây giờ nhìn lại, suy nghĩ của tôi đã thay đổi. Vì kiếm tiền khó nên tôi thậm chí có thể không có cơ hội lái taxi. Điều đó thay đổi trong một thế hệ.
Sẽ ngày càng có nhiều đổi mới cốt lõi hơn trong tương lai. Bây giờ có thể không dễ hiểu vì toàn bộ nhóm xã hội cần được giáo dục về sự thật. Khi xã hội này cho phép những người có óc đổi mới sáng tạo trở nên thành công, tư duy nhóm sẽ thay đổi. Chúng ta vẫn cần một loạt thông tin thực tế và một quy trình.