中央サーバーなしで、当社のチャットボットがどのようにして数秒で応答できるのか疑問に思ったことはありませんか?
それはParallaxのSwarm上で動作しています。Swarmは完全に分散化されたメッシュであり、プロンプトはトークン化、セグメント化され、モデルシャードを保持するノード全体にルーティングされます。
各ノードは、割り当てられたLLMのレイヤーを実行し、完全な推論が完了するまで隠れた状態を転送します。
最適なノードは、可用性、計算能力、およびレイテンシーに基づいて選択されます。コーディネーションはDHTを介してピアツーピアで行われ、効率的なルーティング、自己修復、およびフォールトトレランスを可能にします。
分散型推論は本来あるべき姿です。