Google tăng tốc 3 lần cho các mô hình Gemma 4 với MTP Drafters

Công nghệThứ Tư, 6 tháng 5, 2026

Tóm tắt bởi AI

1 nguồn

Gemini News Google made Gemma 4 models 3x faster with MTP Drafters What's new? Speculative decoding pairs a heavy main model with a light drafter to pre-generate tokens; Gemma 4 models now run on consumer GPUs and edge devices; Erin 6 May 2026 · 1 min read Share: A major technology company has

Điểm chính

Google tăng tốc xử lý thông tin cho Gemma 4 gấp 3 lần.
Tính năng mới giúp giảm độ trễ trong ứng dụng AI.
Giải pháp dùng phương pháp giải mã suy đoán.
Hướng đến các ứng dụng AI cần phản hồi nhanh.

Google vừa tung ra tính năng giải mã suy đoán cho các mô hình ngôn ngữ lớn (LLM) Gemma 4, giúp tăng tốc độ xử lý thông tin gấp 3 lần TestingCatalog. Động thái này được kỳ vọng sẽ giảm thiểu độ trễ trong các ứng dụng AI, đặc biệt là chatbot và trợ lý viết mã, vốn đòi hỏi phản hồi nhanh chóng.

Tăng tốc độ xử lý AI

Tính năng mới sử dụng phương pháp giải mã suy đoán, kết hợp mô hình chính Gemma 4 với một mô hình drafter nhẹ hơn (MTP) TestingCatalog. MTP sẽ "soạn thảo" trước một số token, sau đó mô hình chính sẽ xác minh chúng song song TestingCatalog. Nhờ đó, hệ thống có thể chấp nhận toàn bộ một chuỗi thông tin trong thời gian ngắn hơn, tương đương với việc tạo ra một token duy nhất TestingCatalog.

Đối tượng hưởng lợi

Tính năng này hướng đến các nhà phát triển đang xây dựng các ứng dụng AI cần tốc độ phản hồi nhanh, như chatbot, trợ lý viết mã, và các ứng dụng di động TestingCatalog. Nó hỗ trợ các mô hình Gemma 4, bao gồm các biến thể 26B MoE và 31B Dense, và hoạt động trên cả GPU tiêu dùng và các thiết bị biên TestingCatalog.

Mục tiêu và kỳ vọng

Động lực chính của Google là giảm thời gian suy luận AI, giúp các mô hình ngôn ngữ tiên tiến trở nên thiết thực hơn cho nhiều ứng dụng TestingCatalog. Việc tăng tốc độ xử lý được kỳ vọng sẽ mở ra nhiều cơ hội phát triển cho các ứng dụng AI, mang lại trải nghiệm người dùng mượt mà và hiệu quả hơn.

Nghe tóm tắt

Tính năng nghe audio — sắp ra mắt