Runware utilise du matériel personnalisé et une orchestration avancée pour une inférence IA rapide

Parfois, une démo suffit pour comprendre un produit. Et c'est le cas de Runware. Si vous vous rendez sur le site Web de Runware, entrez une invite et appuyez sur Entrée pour générer une image, vous serez surpris de la rapidité avec laquelle Runware génère l'image pour vous : cela prend moins d'une seconde.

Runware est un nouveau venu dans le paysage des startups d’inférence d’IA, ou d’IA générative. La société construit ses propres serveurs et optimise la couche logicielle sur ces serveurs pour supprimer les goulots d'étranglement et améliorer les vitesses d'inférence pour les modèles de génération d'images. La startup a déjà obtenu un financement de 3 millions de dollars auprès de Speedrun d'Andreessen Horowitz, Halo II de LakeStar et Lunar Ventures.

L'entreprise ne veut pas réinventer la roue. Il veut juste le faire tourner plus vite. En coulisses, Runware fabrique ses propres serveurs avec autant de GPU que possible sur la même carte mère. Elle dispose de son propre système de refroidissement sur mesure et gère ses propres centres de données.

Lorsqu'il s'agit d'exécuter des modèles d'IA sur ses serveurs, Runware a optimisé la couche d'orchestration avec des optimisations du BIOS et du système d'exploitation pour améliorer les temps de démarrage à froid. Il a développé ses propres algorithmes qui attribuent les charges de travail d’interférence.

La démo est impressionnante en elle-même. Désormais, l’entreprise souhaite utiliser tout ce travail dans la recherche et le développement et en faire une entreprise.

Contrairement à de nombreuses sociétés d'hébergement de GPU, Runware ne louera pas ses GPU en fonction du temps GPU. Il estime plutôt que les entreprises devraient être encouragées à accélérer leur charge de travail. C'est pourquoi Runware propose une API de génération d'images avec une structure tarifaire traditionnelle de coût par appel d'API. Il est basé sur des modèles d'IA populaires de Flux et Stable Diffusion.

“Si vous regardez Together AI, Replicate, Hugging Face – tous – ils vendent des calculs basés sur le temps GPU”, a déclaré le co-fondateur et PDG Flaviu Radulescu à Testeur Joe. « Si vous comparez le temps qu’il nous faut pour créer une image par rapport à eux. Et puis vous comparez les prix, vous verrez que nous sommes tellement moins chers, tellement plus rapides.

“Il leur sera impossible d'égaler cette performance”, a-t-il ajouté. « Surtout chez un fournisseur de cloud, vous devez fonctionner dans un environnement virtualisé, ce qui ajoute des délais supplémentaires. »

Alors que Runware examine l'ensemble du pipeline d'inférence et optimise le matériel et les logiciels, la société espère pouvoir utiliser des GPU de plusieurs fournisseurs dans un avenir proche. Cela a été un effort important pour plusieurs startups, car Nvidia est le leader incontesté dans le domaine des GPU, ce qui signifie que les GPU Nvidia ont tendance à être assez chers.

« Pour le moment, nous utilisons uniquement des GPU Nvidia. Mais cela devrait être une abstraction de la couche logicielle », a déclaré Radulescu. « Nous pouvons basculer un modèle de la mémoire GPU très, très rapidement, ce qui nous permet de placer plusieurs clients sur les mêmes GPU.

« Nous ne sommes donc pas comme nos concurrents. Ils chargent simplement un modèle dans le GPU, puis le GPU effectue un type de tâche très spécifique. Dans notre cas, nous avons développé cette solution logicielle, qui nous permet de changer de modèle dans la mémoire GPU pendant que nous effectuons l'inférence.

Si AMD et d'autres fournisseurs de GPU peuvent créer des couches de compatibilité qui fonctionnent avec les charges de travail d'IA typiques, Runware est bien placé pour créer un cloud hybride qui s'appuierait sur les GPU de plusieurs fournisseurs. Et cela sera certainement utile s’il veut rester moins cher que ses concurrents en matière d’inférence IA.

rewrite this content and keep HTML tags

Parfois, une démo suffit pour comprendre un produit. Et c'est le cas de Runware. Si vous vous rendez sur le site Web de Runware, entrez une invite et appuyez sur Entrée pour générer une image, vous serez surpris de la rapidité avec laquelle Runware génère l'image pour vous : cela prend moins d'une seconde.

Runware est un nouveau venu dans le paysage des startups d’inférence d’IA, ou d’IA générative. La société construit ses propres serveurs et optimise la couche logicielle sur ces serveurs pour supprimer les goulots d'étranglement et améliorer les vitesses d'inférence pour les modèles de génération d'images. La startup a déjà obtenu un financement de 3 millions de dollars auprès de Speedrun d'Andreessen Horowitz, Halo II de LakeStar et Lunar Ventures.

L'entreprise ne veut pas réinventer la roue. Il veut juste le faire tourner plus vite. En coulisses, Runware fabrique ses propres serveurs avec autant de GPU que possible sur la même carte mère. Elle dispose de son propre système de refroidissement sur mesure et gère ses propres centres de données.

Lorsqu'il s'agit d'exécuter des modèles d'IA sur ses serveurs, Runware a optimisé la couche d'orchestration avec des optimisations du BIOS et du système d'exploitation pour améliorer les temps de démarrage à froid. Il a développé ses propres algorithmes qui attribuent les charges de travail d’interférence.

La démo est impressionnante en elle-même. Désormais, l’entreprise souhaite utiliser tout ce travail dans la recherche et le développement et en faire une entreprise.

Contrairement à de nombreuses sociétés d'hébergement de GPU, Runware ne louera pas ses GPU en fonction du temps GPU. Il estime plutôt que les entreprises devraient être encouragées à accélérer leur charge de travail. C'est pourquoi Runware propose une API de génération d'images avec une structure tarifaire traditionnelle de coût par appel d'API. Il est basé sur des modèles d'IA populaires de Flux et Stable Diffusion.

“Si vous regardez Together AI, Replicate, Hugging Face – tous – ils vendent des calculs basés sur le temps GPU”, a déclaré le co-fondateur et PDG Flaviu Radulescu à Testeur Joe. « Si vous comparez le temps qu’il nous faut pour créer une image par rapport à eux. Et puis vous comparez les prix, vous verrez que nous sommes tellement moins chers, tellement plus rapides.

“Il leur sera impossible d'égaler cette performance”, a-t-il ajouté. « Surtout chez un fournisseur de cloud, vous devez fonctionner dans un environnement virtualisé, ce qui ajoute des délais supplémentaires. »

Alors que Runware examine l'ensemble du pipeline d'inférence et optimise le matériel et les logiciels, la société espère pouvoir utiliser des GPU de plusieurs fournisseurs dans un avenir proche. Cela a été un effort important pour plusieurs startups, car Nvidia est le leader incontesté dans le domaine des GPU, ce qui signifie que les GPU Nvidia ont tendance à être assez chers.

« Pour le moment, nous utilisons uniquement des GPU Nvidia. Mais cela devrait être une abstraction de la couche logicielle », a déclaré Radulescu. « Nous pouvons basculer un modèle de la mémoire GPU très, très rapidement, ce qui nous permet de placer plusieurs clients sur les mêmes GPU.

« Nous ne sommes donc pas comme nos concurrents. Ils chargent simplement un modèle dans le GPU, puis le GPU effectue un type de tâche très spécifique. Dans notre cas, nous avons développé cette solution logicielle, qui nous permet de changer de modèle dans la mémoire GPU pendant que nous effectuons l'inférence.

Si AMD et d'autres fournisseurs de GPU peuvent créer des couches de compatibilité qui fonctionnent avec les charges de travail d'IA typiques, Runware est bien placé pour créer un cloud hybride qui s'appuierait sur les GPU de plusieurs fournisseurs. Et cela sera certainement utile s’il veut rester moins cher que ses concurrents en matière d’inférence IA.

Laisser un commentaire