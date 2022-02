L'équipe qui travaille sur Singularity est composée d'ingénieurs de Microsoft Azure et Research. Elle a publié cette semaine un document intitulé "Singularity : Planet-Scale, Preemptible and Elastic Scheduling of AI Workloads", qui fournit des détails techniques sur le projet Singularity. Le document est cosigné par 26 employés de Microsoft. On peut citer : Mark Russinovich, directeur technique d'Azure, Rimma Nehme, architecte partenaire, qui a travaillé sur la base de données multimodèle distribuée "Azure Cosmos DB" avant de passer à Azure pour travailler sur l'IA et l'apprentissage profond en 2019, et Dharma Shukla, Technical Fellow.Selon le document, Singularity est un service d'infrastructure entièrement géré et distribué à l'échelle mondiale pour les charges de travail d'IA chez Microsoft, avec un support pour divers accélérateurs matériels. « Il est conçu dès le départ pour évoluer sur une flotte mondiale de centaines de milliers de GPU et d'autres accélérateurs d'IA. Singularity est construit avec un objectif clé : faire baisser le coût de l'IA en maximisant le débit utile agrégé sur un pool fixe donné de capacité d'accélérateurs à l'échelle de la planète, tout en fournissant des SLA rigoureux pour plusieurs niveaux de prix », explique l'équipe dans le document.En termes simples, Singularity permet à des dizaines de milliers de GPU et d'accélérateurs d'IA de travailler ensemble. Il est un service d'infrastructure global conçu pour réduire les efforts inutiles. Singularity traite tous les appareils de l'infrastructure comme un seul cluster, ce qui permet de s'assurer que les appareils sont utilisés au maximum de leur potentiel. Il peut aussi s'adapter pour donner la priorité à différentes charges de travail. « Tout en utilisant de manière opportuniste la capacité disponible, Singularity assure simultanément l'isolation en respectant les accords de niveau de service au niveau des tâches », explique l'équipe.« Par exemple, il s'adapte à l'augmentation de la charge d'un travail d'inférence, libérant ainsi de la capacité en réduisant de manière élastique ou en préemptant des travaux de formation », a-t-elle ajouté. Contrairement à d'autres systèmes qui nécessitent un redémarrage à partir de zéro après un échec, Singularity peut reprendre le travail là où il a été interrompu. Selon l'équipe, cela réduit considérablement le gaspillage d'efforts, car les tâches de formation DNN (deep neural networks) peuvent prendre plusieurs semaines. Le document se concentre beaucoup plus sur la technologie de mise à l'échelle et les planificateurs de Singularity.Selon l'entreprise, ces deux éléments constituent sa sauce secrète, car ils réduisent les coûts et augmentent la fiabilité. Le logiciel dissocie automatiquement les tâches des ressources de l'accélérateur, ce qui signifie que lorsque les tâches augmentent ou diminuent, Microsoft change simplement le nombre de dispositifs sur lesquels les workers sont mappés. Cela est totalement transparent pour l'utilisateur. L'équipe explique que cela est possible grâce à "une nouvelle technique appelée "replica splicing" qui permet de découper en tranches temporelles plusieurs workers sur le même dispositif avec une surcharge négligeable.Microsoft fait cela tout en permettant à chaque travailleur d'utiliser la totalité de la mémoire du dispositif. Pour y parvenir, les auteurs ont besoin de ce qu'ils appellent un "proxy de périphérique" qui fonctionne dans son propre espace d'adressage et a une correspondance univoque avec un périphérique d'accélération physique. Lorsqu'un worker lance des API de périphérique, elles sont interceptées et envoyées via la mémoire partagée au processus de proxy de périphérique qui s'exécute dans un espace d'adressage distinct et dont la durée de vie est découplée de celle du processus du worker.Ce qui précède permet de programmer plus de tâches, plus efficacement, de sorte que les milliers de serveurs restent en service plus longtemps. Cela permet également une mise à l'échelle rapide, vers le haut ou vers le bas, sans interruption. « Singularity réalise une percée significative dans la planification des charges de travail d'apprentissage profond, en convertissant des fonctionnalités de niche telles que l'élasticité en fonctionnalités courantes et permanentes sur lesquelles le planificateur peut compter pour mettre en œuvre des accords de niveau de service rigoureux », concluent les chercheurs de Microsoft.Par ailleurs, le document consacre peu de temps à Singularity lui-même, mais propose quelques chiffres pour illustrer l'architecture du système. Une analyse des performances de Singularity mentionne un test effectué sur des serveurs Nvidia DGX-2 utilisant un Xeon Platinum 8168 avec deux sockets de 20 cœurs chacun, huit GPU V100 Model par serveur, 692 Go de RAM et mis en réseau via InfiniBand. Avec des centaines de milliers de GPU dans la flotte de Singularity, plus les FPGA et éventuellement d'autres accélérateurs, Microsoft dispose d'au moins des dizaines de milliers de serveurs de ce type.Rappelons que ce n'est pas la première fois que Microsoft utilise le terme Singularity. L'entreprise a déjà utilisé ce nom de code pour un projet sans rapport avec l'IA dans le passé. Ce Singularity était un système d'exploitation à micronoyau et un ensemble d'outils et de bibliothèques connexes développés entièrement en code géré. Singularity n'était pas basé sur Windows ; il a été écrit à partir de zéro comme une preuve de concept. Singularity a fini par engendrer et/ou influencer plusieurs autres projets de recherche sur les systèmes d'exploitation chez Microsoft, notamment Barrelfish, Helios, Midori et Drawbridge.En outre, Microsoft a beaucoup investi dans l'IA ces dernières années. Par exemple, la société a investi un milliard de dollars dans OpenAI en 2019. Elle a annoncé un an plus tard qu'elle avait construit le cinquième supercalculateur le plus puissant au monde. Bien que le superordinateur d'IA soit exclusivement destiné à OpenAI, les responsables de Microsoft ont déclaré qu'ils prévoyaient de mettre à disposition les grands modèles d'IA de l'entreprise et les outils d'optimisation de la formation via les services Azure AI et GitHub.Microsoft met également à disposition divers accélérateurs et services sous sa bannière Azure AI pour les clients qui n'ont pas besoin d'un superordinateur dédié. En novembre 2021, Microsoft a annoncé qu'elle élargissait sa gamme de superordinateurs d'IA avec des GPU NVIDIA A100 de 80 Go dans Azure. Malheureusement, le document partagé par l'équipe cette semaine ne mentionne pas que les recherches ou les techniques de Microsoft sont partagées ouvertement, mais il fait la lumière sur les opérations d'IA de l'entreprise.Source : Document de recherche Microsoft sur Singularity (PDF) Quel est votre avis sur le sujet ?Que pensez-vous du service d'infrastructure d'IA "Singularity" de Microsoft ?