A Foresight News informa que o protocolo de IA descentralizada Prime Intellect lançou uma prévia de sua pilha de inferência. A pilha de inferência tem como objetivo resolver desafios na utilização computacional durante a decodificação autorregressiva, gargalos de memória KV cache e problemas de latência em redes públicas. Ela emprega um design de pipeline paralelo, suportando alta densidade computacional e execução assíncrona. Além disso, o Prime Intellect lançou três bases de código open-source: PRIME-IROH (backend de comunicação peer-to-peer), PRIME-VLLM (integração vLLM suportando pipeline paralelo em redes públicas) e PRIME-PIPELINE (sandbox de pesquisa). Os usuários podem executar modelos grandes usando GPUs como a 3090 e a 4090.