Vous êtes-vous déjà demandé comment notre chatbot répond en quelques secondes sans serveur central ?
Il fonctionne sur Swarm de Parallax : un maillage entièrement décentralisé où votre requête est tokenisée, segmentée et acheminée à travers des nœuds contenant des fragments de modèle.
Chaque nœud exécute ses couches attribuées du LLM, transmettant les états cachés jusqu’à ce que l’inférence complète soit terminée.
Les nœuds optimaux sont sélectionnés en fonction de la disponibilité, du calcul et de la latence. La coordination se fait de pair à pair via une DHT, permettant un routage efficace, une auto-réparation et une tolérance aux pannes.
L’inférence décentralisée comme elle devrait l’être.