Nguồn: AI Faner
xAI hôm nay đã phát hành thế hệ mới của mô hình ngôn ngữ lớn Grok-3 và phiên bản đơn giản hóa Grok-3 mini. Các bài kiểm tra chuẩn mới nhất cho thấy Grok-3 thể hiện những lợi thế đáng kể khi so sánh trực tiếp với DeepSeek.
Trong bài kiểm tra năng lực toán học (AIME'24), Grok-3 đạt 52 điểm, cao hơn đáng kể so với 39 điểm của DeepSeek-V3. Về đánh giá kiến thức khoa học (GPQA), Grok-3 dẫn đầu với số điểm là 75, trong khi DeepSeek-V3 đạt 65 điểm. Trong bài kiểm tra khả năng lập trình (LCB tháng 10-tháng 2), Grok-3 cũng vượt qua DeepSeek-V3 với 57 điểm so với 36 điểm.

Trong bài kiểm tra hiệu năng AIME 2025 mới nhất, phiên bản Grok-3 Reasoning Beta đã đạt được số điểm tuyệt vời là 93 điểm ở điểm tổng hợp của thời gian suy luận và tính toán, phiên bản tinh gọn Grok-3 mini cũng đạt 90 điểm. Trong khi đó, DeepSeek-R1 đạt 75 điểm, trong khi Gemini-2 Flash Thinking chỉ đạt 54 điểm. Kết quả này càng làm nổi bật những ưu điểm vượt trội của Grok-3 trong suy luận toán học phức tạp và hiệu quả tính toán.

Điều đáng chú ý là DeepSeek-R1, mới được DeepSeek phát hành gần đây, cũng không vượt qua được Grok-3 trong các bài kiểm tra khả năng suy luận khác. Trong suy luận toán học, Grok-3 đạt 93 điểm và DeepSeek-R1 đạt 73 điểm; trong suy luận khoa học, Grok-3 đạt 85 điểm và DeepSeek-R1 đạt 74 điểm; trong suy luận lập trình, Grok-3 đạt 79 điểm, trong khi DeepSeek-R1 đạt 65 điểm.

Ngoài ra, trong đánh giá về đấu trường chatbot LMSYS, Grok-3 đạt khoảng 1.400 điểm, không chỉ vượt qua dòng DeepSeek mà còn vượt trội hơn các mô hình lớn phổ biến khác, bao gồm GPT-4, Claude, v.v.

Những dữ liệu này cho thấy mặc dù DeepSeek đã cho thấy đà phát triển mạnh mẽ trong vài tháng qua, nhưng hiệu suất tổng thể của Grok-3 vẫn duy trì vị trí dẫn đầu. Đặc biệt, những ưu điểm về mặt suy luận toán học và hiệu quả tính toán rõ ràng hơn, không chỉ phản ánh thế mạnh về mặt kỹ thuật của xAI trong nghiên cứu và phát triển mô hình mà còn cho thấy sự cạnh tranh khốc liệt trong lĩnh vực AI.