Tác giả: Global Network
Ngày 27/1, ứng dụng DeepSeek đứng đầu danh sách APP miễn phí trên Apple US App Store Danh sách xếp hạng tải xuống đã vượt qua ChatGPT trong danh sách tải xuống của Hoa Kỳ. Cùng ngày, danh sách miễn phí của App Store Trung Quốc của Apple cho thấy DeepSeek đứng đầu tại Trung Quốc.
Cửa hàng ứng dụng Apple US

Danh sách miễn phí của Apple APP Store Trung Quốc
Ngày 27 tháng 1Làm mới tìm kiếm micro Bore có liên quan màn hình:


Feng Ji, người sáng lập và CEO của Game Science, nhà sản xuất "Black Myth: Ngộ Không", đã nhận xét về DeepSeek: Nó có thể là thành tựu khoa học công nghệ cấp quốc gia.
DeepSeek là gì?
DeepSeek, tên đầy đủ của Công ty TNHH Nghiên cứu Công nghệ Cơ bản Trí tuệ Nhân tạo Deep Seek Hàng Châu, được thành lập vào ngày 17 tháng 7 năm 2023. Đây là một công ty đổi mới công ty công nghệ tập trung vào Phát triển các mô hình ngôn ngữ lớn tiên tiến (LLM) và các công nghệ liên quan. Sau khi phát hành DeepSeek-V3 vào tháng 12 năm ngoái, Alexander Wang, người sáng lập công ty dịch vụ dữ liệu AI Scale AI, đã đăng tải rằng DeepSeek-V3 là Cộng đồng công nghệ Trung Quốc mang đến cho Hoa Kỳ một bài học cay đắng. "Trong khi Hoa Kỳ nghỉ ngơi, Trung Quốc (cộng đồng công nghệ) đang làm việc để bắt kịp với chi phí thấp hơn, tốc độ nhanh hơn và sức mạnh lớn hơn."Chưa đầy một tháng sau, trên Ngày 20 tháng 1 năm nay, DeepSeek chính thức open source mô hình suy luận R1. 
Theo DeepSeek, mẫu DeepSeek-R1 mới nhất của hãng sử dụng công nghệ học tăng cường trên quy mô lớn trong giai đoạn sau đào tạo. ít dữ liệu được dán nhãn thì khả năng suy luận của mô hình được cải thiện rất nhiều. Trong các tác vụ như toán học, mã hóa và lý luận ngôn ngữ tự nhiên, hiệu suất có thể so sánh với phiên bản chính thức của OpenAI o1.
Sau khi phát hành mô hình này, nó đã gây ra các cuộc thảo luận giữa nhiều ông trùm công nghệ trong giới AI ở nước ngoài. Ví dụ, Jim Fan, một nhà khoa học nghiên cứu cấp cao tại Nvidia, đã công khai tweet trên nền tảng xã hội cá nhân của mình: “Chúng ta đang ở thời điểm lịch sử: một công ty không thuộc Hoa Kỳ đang tiếp tục sứ mệnh ban đầu của OpenAI - trao quyền cho thế giới thông qua công nghệ tiên tiến mở thực sự. nghiên cứu về con người. Điều này có vẻ phản trực giác, nhưng những kết thúc thú vị nhất thường có nhiều khả năng trở thành hiện thực nhất.”

Tại sao DeepSeek đột nhiên trở nên phổ biến?
Vào ngày 26, DeepSeek đã trải qua một sự cố chớp nhoáng ngắn hạn. Nhiều cư dân mạng cho biết họ gặp phải thông báo “máy chủ bận” khi sử dụng nó. Đáp lại, DeepSeek cho biết rằng biến động dịch vụ địa phương đã xảy ra vào chiều hôm đó, nhưng vấn đề đã được giải quyết trong vòng vài phút. Sự cố này có thể là do lượt truy cập của người dùng tăng vọt sau khi phát hành mô hình mới và máy chủ tạm thời không thể đáp ứng nhu cầu đồng thời của một số lượng lớn người dùng. Tuy nhiên, trang trạng thái chính thức không coi vụ việc là một vụ tai nạn.
Như đã hiểu, Trước đây, thứ hạng của DeepSeek trong danh sách của Mỹ không có thành tích đặc biệt nổi bật nhưng lại không lọt vào top 10. Sự thăng tiến đột ngột này liên quan trực tiếp đến chuỗi thành tích nổi bật gần đây của họ. Theo tờ Quảng Châu Nhật báo, “Lý do khiến DeepSeek trở nên phổ biến có thể là do hai điểm: Hiệu suất và chi phí.” Nhà kinh tế học Zheng Lei nói với các phóng viên. DeepSeek giải thích rằng R1 sử dụng công nghệ học tăng cường trên quy mô lớn trong giai đoạn sau đào tạo, giúp cải thiện đáng kể khả năng suy luận của mô hình chỉ với rất ít dữ liệu được gắn nhãn. Thành tích vượt trội này không chỉ thu hút sự chú ý rộng rãi của cộng đồng công nghệ mà còn cho phép cộng đồng đầu tư nhìn thấy tiềm năng thương mại to lớn của nó. Điều đáng lo ngại hơn là điều thực sự khiến DeepSeek R1 trở nên khác biệt là giá thành của nó - hay nói cách khác là giá thành rất thấp. Chi phí đào tạo trước cho R1 của DeepSeek chỉ là 5,576 triệu USD, chưa bằng 1/10 chi phí đào tạo của mẫu OpenAI GPT-4o. Đồng thời, DeepSeek đã công bố giá API là 1 nhân dân tệ (lỗi bộ nhớ đệm)/4 nhân dân tệ (lỗi bộ nhớ đệm) trên một triệu mã thông báo đầu vào và 16 nhân dân tệ trên một triệu mã thông báo đầu ra. Khoản phí này bằng khoảng 1/30 chi phí vận hành của OpenAI o1. Vì vậy, DeepSeek được mệnh danh là "Pinduoduo" trong ngành AI. Zheng Lei thẳng thừng tuyên bốDeepSeek đã có tác động đáng kể đến thị trường phần cứng vì nó có thể giảm giá thành phần cứng của các mô hình trí tuệ nhân tạo và từ đó thúc đẩy sự phát triển của trí tuệ nhân tạo công nghệ trí tuệ< /strong>. Đội ngũ có ít hơn 140 người, đều đến từ các trường đại học hàng đầu trong nước
Lý do tại sao DeepSeek có thể Đạt được những đổi mới này không phải là thành tựu ngày một ngày hai, mà là kết quả của nhiều năm "ươm mầm" và lập kế hoạch dài hạn. Liang Wenfeng, người sáng lập DeepSeek, cũng là người sáng lập Magic Square Quantitative, một công ty cổ phần tư nhân định lượng hàng đầu. Deepseek tận dụng tối đa số tiền, dữ liệu và thẻ được tích lũy bởi Định lượng hình vuông ma thuật của nó.
Liang Wenfeng tốt nghiệp Đại học Chiết Giang với bằng đại học và sau đại học. Ông có bằng cử nhân và bằng thạc sĩ của Khoa Kỹ thuật Thông tin và Điện tử. Từ năm 2008, ông đã lãnh đạo nhóm của mình khám phá giao dịch định lượng hoàn toàn tự động bằng cách sử dụng máy học và các công nghệ khác. Vào tháng 7 năm 2023, DeepSeek chính thức được thành lập và bước vào lĩnh vực trí tuệ nhân tạo nói chung. Nó chưa bao giờ huy động được nguồn tài chính bên ngoài. Trước đây, Jack Clark, cựu giám đốc chính sách của OpenAI và đồng sáng lập Anthropic, tin rằng DeepSeek đã thuê “một nhóm phù thủy khó đoán”. Về vấn đề này, Liang Wenfeng đã được phỏng vấn. bởi truyền thông tự anh ấy từng tiết lộ rằng không có thiên tài bí ẩn nào Họ đều là những sinh viên tốt nghiệp từ các trường đại học hàng đầu, thực tập sinh có bằng tiến sĩ 4 và tiến sĩ 5 chưa tốt nghiệp, và một số bạn trẻ đã có bằng. mới tốt nghiệp cách đây vài năm.
Có thể thấy từ các báo cáo truyền thông đại chúng hiện nay rằng đặc điểm lớn nhất của nhóm DeepSeek là uy tín và trẻ trung. Ngay cả ở cấp lãnh đạo nhóm, hầu hết họ đều dưới 35 tuổi. Với đội ngũ dưới 140 người, hầu hết các kỹ sư và nhân viên R&D đều đến từ các trường đại học hàng đầu trong nước như Đại học Thanh Hoa, Đại học Bắc Kinh, Đại học Tôn Trung Sơn và Đại học Bưu chính Viễn thông Bắc Kinh và thời gian làm việc của họ ngắn. Bổ sung
Giải thích của chuyên gia: Trung Quốc mới Tại sao các mô hình AI lớn lại phổ biến trên internet?
Gần đây, DeepSeek, một công ty khởi nghiệp về AI của Trung Quốc, đã trở thành một trong những công ty nổi tiếng nhất các công ty trí tuệ nhân tạo (AI) trong và ngoài nước) là chủ đề được thảo luận sôi nổi trong lĩnh vực mô hình lớn. Trong vòng chưa đầy 30 ngày, DeepSeek đã cho ra mắt hai mô hình lớn là DeepSeek-V3 và DeepSeek-R1. Giá thành của chúng thấp so với các dự án mô hình quy mô lớn của nước ngoài thường tiêu tốn hàng trăm triệu thậm chí hàng chục tỷ USD và hiệu suất của chúng. có thể sánh ngang với các mẫu xe cỡ lớn hàng đầu nước ngoài. Đồng thời, DeepSeek khác với cách tiếp cận nguồn đóng của các gã khổng lồ mô hình lớn nước ngoài và áp dụng mô hình nguồn mở. Mô hình phát triển và thành tựu của công ty Trung Quốc này đã thu hút sự chú ý lớn ở Thung lũng Silicon. Nhiều phương tiện truyền thông chính thống của phương Tây đã đăng tải các bài viết than thở rằng “Các mô hình AI của Trung Quốc đã gây chấn động Thung lũng Silicon”, thậm chí còn gây ra “cơn sốt” của nhiều người nổi tiếng trong và ngoài nước. các nhà sản xuất và tổ chức đang cố gắng tái tạo kết quả của DeepSeek chỉ sau một đêm". Đặc điểm phát triển của DeepSeek là gì? Nó có mang lại cảm hứng nào đó cho con đường phát triển và ý tưởng đổi mới của các mô hình quy mô lớn trong nước không? Các phóng viên của "Global Times" đã phỏng vấn một số chuyên gia trong lĩnh vực trí tuệ nhân tạo vào ngày 26.
"Một đối thủ cạnh tranh cởi mở và hiệu quả về mặt chi phí đối với OpenAI o1"
DeepSeek đã phát hành mẫu lớn R1 vào ngày 20 tháng này và tuyên bố rằng "trong các tác vụ như toán học, mã hóa và lý luận ngôn ngữ tự nhiên, hiệu suất của nó có thể so sánh với phiên bản chính thức của OpenAI o1." Điều này có đã thu hút sự chú ý lớn từ truyền thông nước ngoài, đặc biệt là truyền thông Mỹ, đến công ty Trung Quốc này và kết quả mô hình lớn mới nhất của nó.
"Mô hình trí tuệ nhân tạo mở và rẻ DeepSeek của Trung Quốc đã khiến các nhà khoa học phấn khích." Tạp chí "Nature" đặt tiêu đề này vào ngày 24, ngôn ngữ lớn do các nhà khoa học Trung Quốc phát triển rất phấn khích về mô hình DeepSeek-R1, được coi là đối thủ cạnh tranh cởi mở và giá cả phải chăng với các mô hình "suy luận" như OpenAI o1.
"The New York Times" đã đưa tin vào ngày 24 với tiêu đề "Công ty khởi nghiệp trí tuệ nhân tạo DeepSeek của Trung Quốc cạnh tranh với những gã khổng lồ ở Thung lũng Silicon như thế nào", nói rằng đó là đã là một thành tựu to lớn để đạt được những kết quả trên. Một cột mốc quan trọng, nhưng nhóm đằng sau mô hình lớn DeepSeek-V3 mô tả một tiến bộ thậm chí còn lớn hơn. Họ đã đào tạo hệ thống chỉ bằng một phần nhỏ chip máy tính chuyên dụng cao được sử dụng bởi các công ty trí tuệ nhân tạo tiên tiến. Các kỹ sư Trung Quốc cho biết họ chỉ chi khoảng 6 triệu USD và khoảng 2.000 chip đặc biệt của Nvidia để hoàn thành việc đào tạo mẫu mới. Cả kinh phí lẫn quy mô sử dụng chip đều thấp hơn nhiều so với các công ty trí tuệ nhân tạo hàng đầu thế giới.
“Đây không phải là vấn đề Trung Quốc bắt kịp Hoa Kỳ, mà là vấn đề nguồn mở bắt kịp nguồn đóng”
DeepSeek đã thu hút nhiều sự chú ý. Ngoài hiệu suất chi phí cao, còn có một lý do khác: nguồn mở. Trong những ngày gần đây, trên Internet xuất hiện một làn sóng hồi sinh DeepSeek. Đại học California, Berkeley, Đại học Khoa học và Công nghệ Hồng Kông và công ty trí tuệ nhân tạo nổi tiếng HuggingFace, v.v. đã tái tạo thành công nó, chỉ sử dụng phương pháp học tăng cường mà không cần tinh chỉnh có giám sát, và thậm chí có thể hoàn thành việc tái tạo tại với chi phí chỉ vài chục đô la.
American Reddit cho biết vào ngày 25 rằng mô hình DeepSeek của Trung Quốc là nguồn mở, đó là lý do thực sự gây phấn khích. Về cơ bản, họ tạo ra kiến thức để cung cấp miễn phí những thứ này cho thế giới, đảm bảo rằng không ai có thể thực sự độc quyền về nó. Các công ty Trung Quốc về cơ bản đang làm điều hoàn toàn trái ngược với những gì các công ty Mỹ làm. Bạn có thể thấy OpenAI, Anthropic hoặc Google cung cấp nguồn mở cho bất kỳ mô hình mạnh mẽ nào không? Cho đến nay, chúng tôi chỉ mới xử lý được bề mặt của chúng. Meta là công ty lớn duy nhất của phương Tây đã có đóng góp đáng kể cho các mô hình lớn nguồn mở, nhưng họ có thể không mở nguồn các mô hình tốt nhất của mình trong tương lai. Yann LeCun, được biết đến như một trong "Ba người khổng lồ về học sâu", cho biết trên nền tảng xã hội X rằng đây không phải là vấn đề Trung Quốc bắt kịp Hoa Kỳ, mà là vấn đề nguồn mở bắt kịp nguồn đóng.
Liu Wei, giám đốc Phòng thí nghiệm Kỹ thuật nhận thức và tương tác giữa con người và máy tính của Đại học Bưu chính Viễn thông Bắc Kinh, cho biết trong một cuộc phỏng vấn với phóng viên của Global Times rằng ba yếu tố cốt lõi của mô hình lớn là Dữ liệu, thuật toán và sức mạnh tính toán, Deepseek sử dụng ít dữ liệu hơn và ít sức mạnh tính toán hơn. Thông qua tối ưu hóa thuật toán, nó đã đạt được kết quả tương đương hoặc thậm chí tốt hơn các mô hình lớn nổi tiếng của nước ngoài. Điều này rất đáng được ghi nhận. Đồng thời, chúng ta cũng phải thấy rằng nó là nguồn mở và có thể được sử dụng và tái tạo bởi những người dùng trên khắp thế giới muốn sử dụng mô hình lớn này.
Thẩm Dương, giáo sư tại Trường Báo chí và Trường Trí tuệ Nhân tạo tại Đại học Thanh Hoa, nói với phóng viên của Global Times vào ngày 26 rằng mô hình lớn của DeepSeek là khá nổi bật trong số các mô hình mã nguồn mở lớn trên thế giới. Một là sử dụng hỗn hợp nhiều công nghệ tiên tiến để đạt được những đột phá mang tính đổi mới vượt xa công nghệ đào tạo trước truyền thống. Anh ấy nói về một số ưu điểm của mô hình lớn này dựa trên kinh nghiệm sử dụng nó của bản thân. Đầu tiên, nó kết hợp các phương pháp hiện tại để cải thiện khả năng của các mô hình AI lớn với các cải tiến vi mô về kỹ thuật. Thứ hai, DeepSeek đã xuất bản các tài liệu liên quan và toàn bộ quá trình có thể được sao chép bởi mọi người. Đây là sức mạnh của nguồn mở. Thứ ba, quy trình suy luận của DeepSeek có những đổi mới riêng. Là một nhà nghiên cứu trong lĩnh vực AI, Thẩm Dương đã sử dụng AI hơn 30.000 lần. Ông tin rằng so với AI của Mỹ, DeepSeek vẫn có nhiều yếu tố Trung Quốc trong đó, chẳng hạn như một số từ ngữ nóng hổi trên Internet Trung Quốc.
Nâng cao kỹ năng suy luận
Về sự hiểu biết quan trọng mà mô hình phát triển của Deepseek mang lại cho sự phát triển và đổi mới của các mô hình lớn trong nước, Liu Wei tin rằng "sự đổi mới không có kế hoạch. Nó đòi hỏi thị trường và các tổ chức chuyên nghiệp phải tìm ra những cách thức mới thông qua nghiên cứu dài hạn. , đặc biệt đối với một số Công ty thương mại đã chú ý đến các lĩnh vực dọc từ lâu có thể tìm thấy những điểm đổi mới tốt hơn thông qua việc suy ngẫm về con đường công nghệ và ý thức phát triển thị trường. Điều này cũng đúng với quá trình phát triển ban đầu của OpenAI, điều này không phải vậy. do các quan chức và gã khổng lồ công nghệ Mỹ lên kế hoạch ”
Vài ngày trước, OpenAI, SoftBank và các công ty khác đã công bố kế hoạch "Stargate", sẽ chi 500 tỷ USD trong 4 năm để đẩy nhanh sự phát triển trí tuệ nhân tạo ở Hoa Kỳ. Liu Wei nhấn mạnh rằng con đường phát triển tập trung nguồn nhân lực, tài chính và vật chất, sau đó đưa ra các ưu đãi về chính sách sẽ có những điểm không chắc chắn nhất định về hướng nghiên cứu và kết quả nghiên cứu trong tương lai. "Vẫn cần khuyến khích nhiều công ty thương mại trong nước và viện nghiên cứu khoa học tập trung vào lĩnh vực nghiên cứu của riêng họ và tìm ra con đường đổi mới và phát triển của riêng mình."
Thẩm Dương cho biết trong lịch sử phát triển AI, những đột phá mới thường được thúc đẩy bởi sự kết hợp giữa đổi mới kỹ thuật khiêm tốn và khám phá khoa học. Xu hướng này được thể hiện sâu sắc trong kết quả của DeepSeek, nó không chỉ đột phá các phương pháp đào tạo truyền thống mà còn mang đến một góc nhìn mới trong việc nâng cao khả năng suy luận. "Mặc dù những thành tựu của nó vẫn còn ở mức độ giai đoạn, nhưng những đóng góp kỹ thuật và đổi mới lý thuyết của nó đã đặt nền tảng quan trọng cho sự phát triển AI trong tương lai." Shenyang tin rằng đóng góp của nhóm DeepSeek trong việc đào tạo trước mô hình cơ bản không chỉ ở cấp độ kỹ thuật. Bước đột phá. nằm ở độ chính xác và hiệu quả của các phương pháp kỹ thuật của nó. Sự đổi mới kỹ thuật này của DeepSeek đánh dấu một giai đoạn mới trong đào tạo mô hình AI, không chỉ giảm chi phí phát triển mà còn cung cấp lộ trình cho các công ty khác học hỏi. Đồng thời, sự đổi mới cốt lõi của DeepSeek còn thể hiện ở việc nâng cao khả năng suy luận, đặc biệt thông qua các đổi mới thuật toán liên quan nhằm phát huy khả năng suy luận tự nhiên của mô hình, chứng tỏ tiềm năng trong lĩnh vực AI - không cần phải tốn nhiều chi phí tư duy. chú thích chuỗi, mô hình vẫn có thể Khả năng suy luận xuất hiện.
Thẩm Dương tin rằng sự thành công của DeepSeek cũng cho phép chúng ta nhìn thấy hướng phát triển trong tương lai của ngành AI: đổi mới nguồn mở nhiều hơn, hợp tác sâu sắc giữa phần cứng và phần mềm, và Tối ưu hóa liên tục chi phí phát triển mô hình và khả năng suy luận. Đồng thời, chúng ta cũng phải thấy rằng mặc dù DeepSeek đã đạt được những kết quả ban đầu đáng kể nhưng nó vẫn cần phải đối mặt với nhiều thách thức sâu xa để đạt được những bước đột phá hơn nữa trong quá trình phát triển trong tương lai, chẳng hạn như nhu cầu về nhiều dữ liệu và thuật toán đào tạo nguyên bản hơn. . Sự đổi mới.