Foresight News đưa tin rằng giao thức AI phi tập trung Prime Intellect đã phát hành bản xem trước của inference stack. Inference stack này nhằm giải quyết các thách thức trong việc sử dụng tài nguyên tính toán trong quá trình giải mã autoregressive, hạn chế về bộ nhớ cache KV và các vấn đề độ trễ mạng công cộng. Nó sử dụng thiết kế pipeline song song, hỗ trợ mật độ tính toán cao và thực thi không đồng bộ. Ngoài ra, Prime Intellect đã phát hành ba bộ mã nguồn mở: PRIME-IROH (hệ thống giao tiếp ngang hàng), PRIME-VLLM (tích hợp vLLM hỗ trợ pipeline song song trên mạng công cộng) và PRIME-PIPELINE (sandbox nghiên cứu). Người dùng có thể chạy các mô hình lớn sử dụng các GPU như 3090 và 4090.