Microsoft dévoile des informations sur son service d'infrastructure d'IA "Singularity",

Qui serait doté de plusieurs dizaines de milliers de GPU

Le 23 février 2022 à 14:10, par Bill Fassinou

88PARTAGES

Microsoft dévoile des informations sur son service d'infrastructure d'IA "Singularity"
qui serait doté de plusieurs dizaines de milliers de GPU

Le bruit courait depuis un moment que Microsoft travaille sur une infrastructure d'IA "à l'échelle de la planète", dont le nom de code est "Singularity". Cette semaine, l'équipe qui travaille sur le projet a décidé de partager d'amples informations avec le public. Selon elle, Singularity vise à fournir aux scientifiques des données et aux praticiens de l'IA un moyen de construire, de mettre à l'échelle, d'expérimenter et d'itérer sur leurs modèles sur un service d'infrastructure distribuée fourni par Microsoft et conçu spécifiquement pour l'IA. Il serait doté de dizaines de milliers de GPU - plus de 100 000 GPU, selon certaines sources.

L'équipe qui travaille sur Singularity est composée d'ingénieurs de Microsoft Azure et Research. Elle a publié cette semaine un document intitulé "Singularity : Planet-Scale, Preemptible and Elastic Scheduling of AI Workloads", qui fournit des détails techniques sur le projet Singularity. Le document est cosigné par 26 employés de Microsoft. On peut citer : Mark Russinovich, directeur technique d'Azure, Rimma Nehme, architecte partenaire, qui a travaillé sur la base de données multimodèle distribuée "Azure Cosmos DB" avant de passer à Azure pour travailler sur l'IA et l'apprentissage profond en 2019, et Dharma Shukla, Technical Fellow.

Selon le document, Singularity est un service d'infrastructure entièrement géré et distribué à l'échelle mondiale pour les charges de travail d'IA chez Microsoft, avec un support pour divers accélérateurs matériels. « Il est conçu dès le départ pour évoluer sur une flotte mondiale de centaines de milliers de GPU et d'autres accélérateurs d'IA. Singularity est construit avec un objectif clé : faire baisser le coût de l'IA en maximisant le débit utile agrégé sur un pool fixe donné de capacité d'accélérateurs à l'échelle de la planète, tout en fournissant des SLA rigoureux pour plusieurs niveaux de prix », explique l'équipe dans le document.

En termes simples, Singularity permet à des dizaines de milliers de GPU et d'accélérateurs d'IA de travailler ensemble. Il est un service d'infrastructure global conçu pour réduire les efforts inutiles. Singularity traite tous les appareils de l'infrastructure comme un seul cluster, ce qui permet de s'assurer que les appareils sont utilisés au maximum de leur potentiel. Il peut aussi s'adapter pour donner la priorité à différentes charges de travail. « Tout en utilisant de manière opportuniste la capacité disponible, Singularity assure simultanément l'isolation en respectant les accords de niveau de service au niveau des tâches », explique l'équipe.

« Par exemple, il s'adapte à l'augmentation de la charge d'un travail d'inférence, libérant ainsi de la capacité en réduisant de manière élastique ou en préemptant des travaux de formation », a-t-elle ajouté. Contrairement à d'autres systèmes qui nécessitent un redémarrage à partir de zéro après un échec, Singularity peut reprendre le travail là où il a été interrompu. Selon l'équipe, cela réduit considérablement le gaspillage d'efforts, car les tâches de formation DNN (deep neural networks) peuvent prendre plusieurs semaines. Le document se concentre beaucoup plus sur la technologie de mise à l'échelle et les planificateurs de Singularity.

Selon l'entreprise, ces deux éléments constituent sa sauce secrète, car ils réduisent les coûts et augmentent la fiabilité. Le logiciel dissocie automatiquement les tâches des ressources de l'accélérateur, ce qui signifie que lorsque les tâches augmentent ou diminuent, Microsoft change simplement le nombre de dispositifs sur lesquels les workers sont mappés. Cela est totalement transparent pour l'utilisateur. L'équipe explique que cela est possible grâce à "une nouvelle technique appelée "replica splicing" qui permet de découper en tranches temporelles plusieurs workers sur le même dispositif avec une surcharge négligeable.

Microsoft fait cela tout en permettant à chaque travailleur d'utiliser la totalité de la mémoire du dispositif. Pour y parvenir, les auteurs ont besoin de ce qu'ils appellent un "proxy de périphérique" qui fonctionne dans son propre espace d'adressage et a une correspondance univoque avec un périphérique d'accélération physique. Lorsqu'un worker lance des API de périphérique, elles sont interceptées et envoyées via la mémoire partagée au processus de proxy de périphérique qui s'exécute dans un espace d'adressage distinct et dont la durée de vie est découplée de celle du processus du worker.

Ce qui précède permet de programmer plus de tâches, plus efficacement, de sorte que les milliers de serveurs restent en service plus longtemps. Cela permet également une mise à l'échelle rapide, vers le haut ou vers le bas, sans interruption. « Singularity réalise une percée significative dans la planification des charges de travail d'apprentissage profond, en convertissant des fonctionnalités de niche telles que l'élasticité en fonctionnalités courantes et permanentes sur lesquelles le planificateur peut compter pour mettre en œuvre des accords de niveau de service rigoureux », concluent les chercheurs de Microsoft.

Par ailleurs, le document consacre peu de temps à Singularity lui-même, mais propose quelques chiffres pour illustrer l'architecture du système. Une analyse des performances de Singularity mentionne un test effectué sur des serveurs Nvidia DGX-2 utilisant un Xeon Platinum 8168 avec deux sockets de 20 cœurs chacun, huit GPU V100 Model par serveur, 692 Go de RAM et mis en réseau via InfiniBand. Avec des centaines de milliers de GPU dans la flotte de Singularity, plus les FPGA et éventuellement d'autres accélérateurs, Microsoft dispose d'au moins des dizaines de milliers de serveurs de ce type.

Rappelons que ce n'est pas la première fois que Microsoft utilise le terme Singularity. L'entreprise a déjà utilisé ce nom de code pour un projet sans rapport avec l'IA dans le passé. Ce Singularity était un système d'exploitation à micronoyau et un ensemble d'outils et de bibliothèques connexes développés entièrement en code géré. Singularity n'était pas basé sur Windows ; il a été écrit à partir de zéro comme une preuve de concept. Singularity a fini par engendrer et/ou influencer plusieurs autres projets de recherche sur les systèmes d'exploitation chez Microsoft, notamment Barrelfish, Helios, Midori et Drawbridge.

En outre, Microsoft a beaucoup investi dans l'IA ces dernières années. Par exemple, la société a investi un milliard de dollars dans OpenAI en 2019. Elle a annoncé un an plus tard qu'elle avait construit le cinquième supercalculateur le plus puissant au monde. Bien que le superordinateur d'IA soit exclusivement destiné à OpenAI, les responsables de Microsoft ont déclaré qu'ils prévoyaient de mettre à disposition les grands modèles d'IA de l'entreprise et les outils d'optimisation de la formation via les services Azure AI et GitHub.

Microsoft met également à disposition divers accélérateurs et services sous sa bannière Azure AI pour les clients qui n'ont pas besoin d'un superordinateur dédié. En novembre 2021, Microsoft a annoncé qu'elle élargissait sa gamme de superordinateurs d'IA avec des GPU NVIDIA A100 de 80 Go dans Azure. Malheureusement, le document partagé par l'équipe cette semaine ne mentionne pas que les recherches ou les techniques de Microsoft sont partagées ouvertement, mais il fait la lumière sur les opérations d'IA de l'entreprise.

Source : Document de recherche Microsoft sur Singularity (PDF)

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous du service d'infrastructure d'IA "Singularity" de Microsoft ?

Voir aussi

Azure AI : Microsoft annonce une nouvelle interface d'analyse de texte axée sur les soins de santé, des commandes personnalisées et des API de reconnaissance de formulaires

Microsoft permet à davantage de services Azure de s'exécuter n'importe où grâce à Azure Arc

Azure Stack HCI (Hyper-Converged Infrastructure) v2 est disponible en Preview et permet aux utilisateurs d'exécuter le service sur leurs propres serveurs

Microsoft tente une nouvelle fois de créer un service de grand livre alimenté par la blockchain, passant « d'une offre orientée produit à une solution orientée partenaire »

Le recours au cloud s'accélère dans les entreprises. Le paysage reste dominé par AWS et Azure et le cloud hybride reste la stratégie la plus répandue, selon Global Cloud Survey de Denodo

Vous avez lu gratuitement 32 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Microsoft dévoile des informations sur son service d'infrastructure d'IA "Singularity",

Qui serait doté de plusieurs dizaines de milliers de GPU

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Microsoft dévoile des informations sur son service d'infrastructure d'IA "Singularity", Qui serait doté de plusieurs dizaines de milliers de GPU

Microsoft dévoile des informations sur son service d'infrastructure d'IA "Singularity",

Qui serait doté de plusieurs dizaines de milliers de GPU