Alibaba mise 290 millions de dollars sur un avenir de l'IA au-delà du texte

Alibaba mise 290 millions de dollars sur un avenir de l'IA au-delà du texte

Les modèles de langage ne suffisent pas à eux seuls. Alibaba finance les infrastructures pour l'IA multimodale qui interagit avec le monde physique.

Elena CostaElena Costa10 avril 20267 min
Partager

Alibaba mise 290 millions de dollars sur un avenir de l'IA au-delà du texte

Début avril 2026, Alibaba Cloud a dirigé un tour de financement de 2 milliards de yuans — environ 290 millions de dollars — dans ShengShu Technology, une startup chinoise de trois ans, principalement connue pour Vidu, son générateur de vidéos par intelligence artificielle. L'opération a également impliqué TAL Education et Baidu Ventures. Ce qui est frappant, ce n'est pas seulement le montant, bien que substantiel : ShengShu avait déjà levé près de 88 millions de dollars seulement deux mois auparavant. Ce qui attire l'attention, c'est l'utilisation prévue de cet argent.

Le but déclaré n'est pas d'améliorer Vidu ni d'étendre son activité de vidéos. Il s'agit de construire un modèle du monde général, entraîné avec des données multimodales qui incluent la vision, l'audio et le toucher, avec des applications directes dans la robotique physique et la conduite autonome. Concrètement, ShengShu cherche à faire apprendre à une intelligence artificielle comment interagir avec les lois physiques du monde, plutôt que de se limiter à traiter des séquences de texte.

Cette distinction est plus importante qu'il n'y paraît au premier abord.

Pourquoi les modèles de langage ne peuvent pas y parvenir seuls

Les grands modèles de langage sont extraordinairement compétents dans leur domaine : raisonnement symbolique, génération de texte, synthèse d'informations. Cependant, ils souffrent d'une limitation structurelle que seule une version supplémentaire des paramètres ne peut résoudre : ils ne peuvent pas généraliser à des environnements physiques en boucle fermée. Un robot qui doit calibrer la force exacte pour tenir un objet fragile ne peut pas se fier à des probabilités statistiques sur des séquences de tokens. Il doit avoir "vu" des milliers d'itérations de cet objet, dans différentes conditions de lumière, texture et température. Techniquement, il a besoin d'un modèle du monde.

Ce n'est pas de la spéculation : c'est le goulet d'étranglement qui limite actuellement le déploiement massif de la robotique physique autonome. Les entreprises qui cherchent à déployer des robots dans des secteurs comme la fabrication, la logistique ou les soins de santé se heurteront au fait que leurs modèles de langage, aussi raffinés soient-ils, échouent au moment de transférer un comportement des simulations numériques vers des environnements réels. Ce phénomène est nommé dans l'industrie : le problème du sim-to-real gap, l'écart entre ce que le modèle apprend dans un environnement simulé et ce qu'il peut exécuter dans le monde physique avec une variabilité réelle.

ShengShu construit précisément l'infrastructure pour combler cette lacune. Et Alibaba paye pour cela.

Vu à travers les 6D du développement technologique, ce mouvement marque la transition d'une technologie qui a passé des années dans la phase de numérisation et de déception — où les promesses dépassent les résultats en applications physiques — vers une phase de perturbation concrète dans les secteurs industriels. Cette perturbation ne viendra pas d'un texte plus raffiné ; elle viendra d'une simulation plus précise.

L'arithmétique derrière le pari

Le montant total du financement de ShengShu en seulement deux mois — près de 380 millions de dollars au total — n'est pas un accident. Il révèle l'économie de ce que signifie construire un modèle du monde à grande échelle.

Parmi les catégories de dépenses les plus intensives pour ce genre de projet, on trouve trois domaines : la collecte massive de données multimodales (vidéo, capteur, audio, haptique), le développement de plateformes de simulation pour générer des données synthétiques de haute fidélité, et l'infrastructure informatique nécessaire pour entraîner des modèles qui gèrent cette hétérogénéité des signaux. Aucune de ces trois catégories n'est bon marché, et aucune ne se développe de manière linéaire.

Pour Alibaba Cloud, le calcul stratégique diffère de celui de ShengShu. Le cloud a besoin de verticales à forte valeur computationnelle pour justifier son infrastructure. Les modèles de monde général — en raison de leur besoin d'entraînement continu, de simulation et d'inférence en temps réel — constituent exactement le type de charge de travail qui transforme une capacité de cloud inactive en revenus récurrents. La participation d'Alibaba dans ShengShu n'est pas seulement un pari financier ; c'est une manière de créer une demande captive pour sa plateforme.

Ce schéma est cohérent avec d'autres mouvements récents d'Alibaba : le lancement de HappyHorse 1.0 — son modèle de génération de vidéo qui a dominé les classements mondiaux d'Artificial Analysis en avril 2026 — et RynnBrain, son outil de cartographie d'objets en robotique. Alibaba ne mise pas sur une seule opportunité ; elle construit les couches d'une même architecture commerciale où le cloud, les modèles propres et les startups dans lesquelles elle investit s'entraident.

Les actions d'Alibaba à Hong Kong ont augmenté de 2,12 % le 10 avril 2026 après la confirmation de HappyHorse, dans un contexte technologique où le marché avait déjà progressé de 6,75 %. Les investisseurs lisent le même schéma.

Quand la vidéo cesse d'être du divertissement et devient une donnée industrielle

Il y a un retournement conceptuel qui mérite d'être souligné car il a des implications pour toute entreprise considérant l'intelligence artificielle comme outil de productivité : la vidéo générative a cessé d'être un produit de consommation pour devenir une source de données d'entraînement pour des systèmes physiques.

Vidu, le générateur de vidéo de ShengShu, n'est pas le but de l'entreprise. C'est le mécanisme d'accumulation de données visuelles qui alimentera le modèle du monde. Chaque vidéo générée, chaque interaction utilisateur, chaque variation de scène est, selon la logique de ShengShu, un point de données sur la façon dont le monde se comporte visuellement. Ce répertoire, étendu à des dizaines de millions d'interactions, devient le substrat d'entraînement pour un système qui, finalement, doit comprendre la causalité physique, et pas seulement la corrélation statistique.

Cette logique a un parallèle historique direct : Google n'a pas construit Street View pour vendre des photos de rues. Il l'a construit pour entraîner des systèmes de reconnaissance visuelle qui alimentent aujourd'hui tout, depuis Maps jusqu'aux capteurs de ses projets de conduite autonome. ShengShu fait quelque chose de structurellement similaire : utiliser un produit de consommation de masse comme mécanisme d'accumulation de données pour une application industrielle de bien plus grande valeur.

Pour les dirigeants d'entreprises opérant dans la fabrication, la logistique, la santé ou la mobilité, le message est clair : les entreprises qui contrôlent aujourd'hui des répertoires de données multimodales de qualité — vidéo, capteurs, audio dans des contextes physiques réels — ont un avantage que l'on ne peut pas facilement acheter sur le marché des données. L'accumulation est cruciale maintenant, avant que les modèles du monde ne murissent.

Le déplacement a déjà commencé, et le texte n'est que le premier pas

Alibaba, ShengShu, ByteDance et un nombre croissant d'acteurs chinois et mondiaux sont en compétition dans une course dont le prix n'est pas le meilleur chatbot. Le prix est de contrôler la couche d'intelligence qui connecte le monde numérique au monde physique : robotique industrielle, véhicules autonomes, systèmes de fabrication adaptative.

Les modèles de langage ont démocratisé l'accès au raisonnement symbolique. Cela a été le premier pas. Les modèles du monde, s'ils atteignent la maturité technique que cet investissement suppose possible, démocratiseront l'accès au raisonnement physique : la capacité des systèmes autonomes à agir avec discernement dans des environnements variables, sans intervention humaine constante. Cette transition définit quelles entreprises et quels secteurs conservent le contrôle sur leurs propres processus de production et lesquels cèdent ce contrôle à ceux qui possèdent l'infrastructure d'intelligence.

L'investissement d'Alibaba dans ShengShu marque le début visible de la phase de disruption dans la robotique et l'industrie physique. Cela ne se fait pas par le biais d'un produit fini, mais à travers la donnée la plus précieuse du secteur : la capacité de simuler le monde avec suffisamment de fidélité pour entraîner des systèmes qui, ensuite, opéreraient dans celui-ci. Cette capacité, une fois consolidée, ne dévalue pas seulement un secteur ; elle redéfinit qui a le droit de facturer pour l'intelligence qui fait bouger les choses.

Partager
0 votes
Votez pour cet article !

Commentaires

...

Vous pourriez aussi aimer