Согласно информации от Foresight News, децентрализованный AI-протокол Prime Intellect представил предварительный обзор своего inference stack. Эта стековая архитектура предназначена для решения проблем с эффективностью вычислений при autoregressive decoding, узкими местами в памяти KV cache и задержками в публичных сетях. В основе решения лежит pipeline parallel дизайн, обеспечивающий высокую плотность вычислений и асинхронное выполнение. Кроме того, Prime Intellect выпустил три открытых исходных кода: PRIME-IROH (бэкенд для peer-to-peer коммуникаций), PRIME-VLLM (интеграция vLLM с поддержкой pipeline parallelism в публичных сетях) и PRIME-PIPELINE (платформа для исследовательских экспериментов). Пользователи могут запускать крупные модели на GPU таких, как 3090 и 4090.