Alibaba investiert 290 Millionen Dollar in die Zukunft der KI jenseits von Text
Anfang April 2026 führte Alibaba Cloud eine Finanzierungsrunde in Höhe von 2 Milliarden Yuan – rund 290 Millionen Dollar – in ShengShu Technology an, ein dreijähriges chinesisches Start-up, das hauptsächlich für Vidu, seinen KI-gesteuerten Video-Generator, bekannt ist. Auffällig ist nicht nur die Summe, die zwar beträchtlich ist: ShengShu hatte erst zwei Monate zuvor fast 88 Millionen Dollar eingesammelt. Auffällig ist vielmehr, wofür dieses Geld verwendet werden soll.
Das deklarierte Ziel ist nicht, Vidu zu verbessern oder das Video-Geschäft auszubauen. Es geht darum, ein allgemeines Weltmodell zu entwickeln, das mit multimodalen Daten trainiert wird, darunter Vision, Audio und Tastsinn, mit direkten Anwendungen in der physischen Robotik und im autonomen Fahren. Operativ gesehen versucht ShengShu, eine KI zu entwickeln, die lernt, mit der Physik der Welt zu interagieren, nicht nur Textsequenzen zu verarbeiten.
Diese Unterscheidung ist bedeutender, als es auf den ersten Blick scheint.
Warum Sprachmodelle alleine nicht ausreichen
Die großen Sprachmodelle sind innerhalb ihres Bereichs außergewöhnlich kompetent: symbolisches Denken, Textgenerierung, Informationssynthese. Aber sie haben eine strukturelle Einschränkung, die keine zusätzliche Parameterversion alleine lösen kann: Sie sind nicht in der Lage, auf physische, geschlossene Umgebungen zu generalisieren. Ein Roboter, der die genaue Kraft kalibrieren muss, um einen zerbrechlichen Gegenstand zu halten, kann sich nicht auf statistische Wahrscheinlichkeiten über Tokenfolgen verlassen. Er muss Tausende von Iterationen dieses Objekts unter verschiedenen Licht- und Temperaturbedingungen „gesehen“ haben. Er benötigt ein Weltmodell.
Das ist keine Spekulation: Es ist der Flaschenhals, der heute die großflächige Implementierung autonomer physischer Robotik einschränkt. Unternehmen, die versuchen, Roboter in der Fertigung, Logistik oder medizinischen Betreuung einzusetzen, werden feststellen, dass ihre Sprachmodelle, so verfeinert sie auch sein mögen, in dem Moment versagen, in dem sie Verhalten von digitalen Simulationen in reale Umgebungen übertragen müssen. Das Phänomen ist in der Branche bekannt: das sim-to-real gap, die Lücke zwischen dem, was das Modell in einer simulierten Umgebung lernt und dem, was es in der realen physischen Welt mit realer Variabilität umsetzen kann.
ShengShu entwickelt genau die Infrastruktur, um diese Lücke zu schließen. Und Alibaba bezahlt dafür.
Aus der Perspektive der 6 Ds der technologischen Entwicklung kennzeichnet dieser Schritt den Übergang von einer Technologie, die jahrelang in der Phase der Digitalisierung und Enttäuschung war – wo die Versprechen die Ergebnisse in physischen Anwendungen übertreffen – hin zu einer Phase konkreter Disruption in Industriesektoren. Die Disruption wird nicht durch verfeinerten Text erzeugt; sie wird durch präzisere Simulationen vorangetrieben.
Die Mathematik hinter der Wette
Die kumulierte Finanzierungsgröße von ShengShu in nur zwei Monaten – insgesamt fast 380 Millionen Dollar – ist kein Zufall. Sie offenbart die Ökonomie dessen, was es bedeutet, ein Weltmodell in großem Maßstab zu bauen.
Zu den kapitalintensivsten Ausgaben in diesem Projekt zählen drei Kategorien: die massenhafte Erfassung multimodaler Daten (Video, Sensoren, Audio, Haptik), die Entwicklung von Simulationsplattformen zur Erstellung hochauflösender synthetischer Daten und die Recheninfrastruktur zum Trainieren von Modellen, die mit dieser Heterogenität von Signalen umgehen können. Keine dieser drei Kategorien ist günstig, und keine skaliert linear.
Für Alibaba Cloud ist die strategische Berechnung anders als die von ShengShu. Die Cloud benötigt hochmoderne Vertikalen, um ihre Infrastruktur zu rechtfertigen. Allgemeine Weltmodelle – aufgrund ihres Bedarfs an kontinuierlichem Training, Simulation und Echtzeit-Inferenz – sind genau die Art von Arbeitslast, die ungenutzte Cloud-Kapazitäten in wiederkehrende Einnahmen umwandelt. Alibabas Beteiligung an ShengShu ist nicht nur eine finanzielle Wette; es ist eine Möglichkeit, eine gefangene Nachfrage für ihre Plattform zu schaffen.
Dieses Muster korreliert mit anderen jüngsten Bewegungen von Alibaba: die Einführung von HappyHorse 1.0 – ihrem Video-Generierungsmodell, das im April 2026 die globalen Rankings für Kunstanalysen anführte – und RynnBrain, ihrem Werkzeug zur Objekterkennung in der Robotik. Alibaba investiert nicht in eine einzige Wette; es baut Schichten einer gemeinsamen Geschäftsanlage auf, in der Cloud, eigene Modelle und investierte Start-ups sich gegenseitig verstärken.
Die Aktien von Alibaba in Hongkong stiegen am 10. April 2026 um 2,12% nach der Bestätigung von HappyHorse, an einem Tag, an dem der Technologiesektor bereits um 6,75% gestiegen war. Der Markt erkennt dasselbe Muster.
Wenn Video aufhört, Unterhaltung zu sein, und zu industriellen Daten wird
Es gibt eine konzeptionelle Wendung, die erwähnt werden sollte, da sie Auswirkungen auf jedes Unternehmen hat, das KI als Produktivitätswerkzeug betrachten will: Generatives Video hat aufgehört, ein Massenverbrauchsprodukt zu sein, und ist zu einer Trainingsdatenquelle für physische Systeme geworden.
Vidu, der Video-Generator von ShengShu, ist nicht das Endziel des Unternehmens. Es ist der Mechanismus zur Ansammlung visueller Daten, der das Weltmodell speist. Jedes generierte Video, jede Interaktion des Nutzers, jede Variationsszene ist in der Logik von ShengShu ein Datenpunkt darüber, wie die Welt visuell funktioniert. Dieses Repository, das auf Dutzende Millionen Interaktionen skaliert, wird zur Trainingsbasis für ein System, das letztlich physikalische Kausalität verstehen muss, nicht nur statistische Korrelationen.
Diese Logik hat ein direkt historisches Pendant: Google hat Street View nicht gebaut, um Straßenfotografien zu verkaufen. Es wurde entwickelt, um visuelle Erkennungssysteme zu trainieren, die heute alles von Maps bis zu den Sensoren seiner autonomen Fahrprojekte speisen. ShengShu tut etwas strukturell Ähnliches: Es verwendet ein Massenkonsumprodukt als Mechanismus zur Ansammlung von Daten für eine industrielle Anwendung von viel höherem Wert.
Für das Führungsteam jedes Unternehmens, das in Fertigung, Logistik, Gesundheit oder Mobilität tätig ist, ist die Botschaft klar: Unternehmen, die heute Qualitätsrepositories für multimodale Daten kontrollieren – Video, Sensoren und Audio in realen physischen Kontexten – haben einen Vorteil, der sich nicht leicht auf dem Datenmarkt erwerben lässt. Die Ansammlung ist jetzt wichtig, bevor die Weltmodelle reifen.
Die Verschiebung hat bereits begonnen, und Text ist nur die erste Stufe
Alibaba, ShengShu, ByteDance und eine wachsende Zahl von chinesischen und globalen Akteuren wetteifern in einem Wettlauf, dessen Preis nicht der beste Chatbot ist. Der Preis besteht darin, die Intelligenzschicht zu kontrollieren, die die digitale Welt mit der physischen Welt verbindet: industrielle Robotik, autonome Fahrzeuge, adaptive Fertigungssysteme.
Die Sprachmodelle haben den Zugang zu symbolischem Denken demokratisiert. Das war die erste Stufe. Die Weltmodelle, wenn sie die technische Reife erreichen, die diese Investition als möglich annimmt, werden den Zugang zum physischen Denken demokratisieren: die Fähigkeit autonomer Systeme, eigenständig in variablen Umgebungen zu handeln, ohne ständige menschliche Intervention. Dieser Übergang definiert, welche Unternehmen und Branchen die Kontrolle über ihre eigenen Produktionsprozesse behalten und welche diese Kontrolle an jene abgeben, die die Intelligenzinfrastruktur besitzen.
Die Investition von Alibaba in ShengShu markiert den sichtbaren Beginn der disruptiven Phase in der Robotik und der physischen Industrie. Sie geschieht nicht durch ein fertiges Produkt, sondern durch die am stärksten nachgefragten Daten im Sektor: die Fähigkeit, die Welt mit ausreichender Genauigkeit zu simulieren, um Systeme zu trainieren, die anschließend in ihr operieren. Diese Fähigkeit, wenn sie einmal gefestigt ist, entmonetisiert nicht nur einen Sektor; sie definiert neu, wer das Recht hat, für die Intelligenz zu verlangen, die Dinge bewegt.









