有没有想过我们的聊天机器人如何在没有中央服务器的情况下在几秒钟内回复?它运行在 Parallax 的 Swarm 上:一个完全去中心化的网状网络,你的提示被代币化、分段,并路由到持有模型分片的节点上。每个节点执行其分配的 LLM 层,传递隐藏状态,直到完成完整的推理。最佳节点是根据可用性、计算能力和延迟选择的。协调通过 DHT 以点对点的方式进行,从而实现高效的路由、自我修复和容错。去中心化推理本应如此。