Nachdem er sich eine Finanzierung in Milliardenhöhe gesichert hat, möchte Mei Tao über die Gründungsmethoden dieser Generation von KI-Unternehmern sprechen.
"Dark Waves" hat exklusiv erfahren, dass das KI-Videogenerierungs-Startup ZhiXiang Future nach einer von Dunhong Capital geführten Pre-A-Finanzierungsrunde nun eine neue A-Runde-Finanzierung erhalten hat, angeführt von einem staatlichen Fonds unter der Führung von Hefei Chanyi Investment. Der Gesamtumfang der Finanzierung beläuft sich auf mehrere hundert Millionen Renminbi. Zu den weiteren Investoren gehören der Artificial Intelligence Mother Fund der Provinz Anhui und die Yangtze Film Group Co., Ltd. aus der Provinz Hubei. Zuvor hatten Alpha Commune und Iflytek die Investitionen angeführt.
ZhiXiang Future ist das weltweit erste AI-Unternehmen, das Text-to-Video veröffentlicht hat. Von Anfang an hat der Gründer und CEO, Mei Tao, eine präzise Rechnung gemacht: Im Vergleich zu großen Sprachmodellen sind multimodale Modelle eher eine Dimensionsreduzierung in Bezug auf Rechenleistung und Ressourcenabhängigkeit; Sie bieten auch frühere und schnellere Kommerzialisierungsmöglichkeiten. Dies mag rational und pragmatisch romantisch erscheinen, aber die Realität ist offensichtlich ernüchternder als gedacht.
Von Sora zu Beginn des Jahres, über Korling in der Mitte des Jahres, bis hin zu Google Veo 2 im Jahr 2024 war die Videogenerierung bereits ein umkämpftes Feld, und die Begeisterung war nicht weniger als bei großen Sprachmodellen.
Trotzdem ist das Unternehmertum für die Generation von Mei Tao eine kaum widerstehliche Verlockung - KI war noch nie so nah an Geschäft und Realität.
Als Absolvent der Universität für Wissenschaft und Technologie in China kletterte Mei Tao während seiner zwölf Jahre bei Microsoft auf akademische Höhen: Er veröffentlichte über 300 Papiere im Bereich Multimediaanalyse und Computer Vision und wurde 15 Mal mit dem International Best Paper Award ausgezeichnet. Er ist nicht nur IEEE Fellow und ausländisches Mitglied der Kanadischen Akademie der Ingenieurwissenschaften, sondern auch der führende Wissenschaftler des bedeutenden KI-Technologie-Innovationsprojekts 2030 des Ministeriums für Wissenschaft und Technologie.
Diese Erfahrung ließ ihn die Kluft zwischen Technik und Produkt erkennen, und er entschied sich schließlich, diese Kette zu durchbrechen. Die fünf Jahre nach 2018 bei JD.com waren Meis Einstieg in die Industrie. Als Vizepräsident von JD und stellvertretender Leiter des JD Explorationsforschungsinstituts begann er den Weg von der Technik zur Kommerzialisierung zu beschreiten. Daraufhin gründete er ZhiXiang Future, um all dies enger zu verbinden.
Meis unternehmerische Erfahrung ist vergleichbar mit einem Schnittbild der KI-Unternehmer dieser Zeit: Bei der Umarmung von Produkten können Modelle nicht aufgegeben werden, sonst droht Verschlingen. Bei der Erkundung des heimischen Marktes darf die internationale Expansion nicht aufgegeben werden, da der heimische Verbrauchermarkt viele Pattsituationen aufweist, die von Startups nicht durchbrochen werden können. Finanziell bedeutet dies oft, dass Unternehmer ihr Vertrauen den Investoren zurückgeben müssen, gerade in Zeiten der Abkühlung des Kapitals.
All dies ließ Mei erkennen, was tatsächlich den Unterschied zwischen einer Führungskraft in einem großen Unternehmen und einem selbstständigen Unternehmer ausmacht - im ersten Fall stehen immer andere hinter dir; nun jedoch "bist du allein", "alle Probleme landen schließlich bei dir, und du musst sie lösen".
Nach mehr als einem Jahr Unternehmertum hat Mei einige Erkenntnisse über Finanzierung und Kommerzialisierung gesammelt:
Die Strecke zur Videogenerierung ist der Kommerzialisierung tatsächlich näher
1. Kürzlich wurde Sora offiziell veröffentlicht, aber die Gesamtfunktionalität entspricht weitgehend unseren Erwartungen. Objektiv betrachtet hat OpenAI im aktuellen Bereich der Videogenerierung keinen großen Vorteil mehr. Obwohl es anfangs nur ein Demo war, hat es die gesamte Methodik verändert; bis heute jedoch sind Produkte sowohl im Ausland als auch im Inland nicht mehr weit voneinander entfernt.
2. Seit Anfang des Jahres ist der gesamte Videogenerierungsbereich überfüllt geworden. Im Juni ging Korling online, Luma AI ebenfalls, und im Juli kündigten wir auf der World Artificial Intelligence Conference in Shanghai die Einführung eines neuen Modells an. Der August erlebte MiniMax Helm, zuletzt World Labs und Google Veo 2, die sogar von Bildbearbeitung auf 3D übersprungen sind. Der heiße Wettbewerb resultiert aus dem kürzeren Kommerzialisierungspfad diese Strecke im Vergleich zu großen Sprachmodellen und der schnelleren Produktumsetzung.
3. Im vergangenen Jahr beliefen sich die weltweit tatsächlichen Einnahmen von AIGC auf etwa 20 Milliarden US-Dollar, wovon 50 bis 60 % aus Video- und Bildgenerierung oder bild- und videobezogenen Werkzeugen stammten; 30 % waren Einnamen aus großen Sprachmodellen, wie z.B. Einnahmen aus Chatbot-Kategorien. Daher verschiebt sich die Aufmerksamkeit vieler Unternehmen auf diese Strecke, die sich zu einem Muss für große Modellunternehmen entwickelt haben.
4. Für Startups bedeutet dies, dass wir nicht direkt mit großen Unternehmen wie OpenAI oder ByteDance konkurrieren, sondern Innovationen auf dem Algorithmusweg erreichen und die letzten Meilenprobleme in Nischenbranchen lösen müssen, um den Nutzern mit Produkten und Schlusskreisen einen Mehrwert zu bieten. Große Unternehmen haben Rechenressourcen und insbesondere Vorteile bei Verbraucherströmen, aber sie müssen sich für die Finanzberichte verantwortlich zeigen, daher fokussieren sie sich auf das Mainstream-Geschäft und müssen ihre bestehenden ökologischen Schöpfer gut bedienen.
5. Wir werden keine wiederholten Tätigkeiten auf den Wegen der großen Unternehmen ausführen, sondern uns auf unsere eigenen professionellen, spezialisierten Bereiche konzentrieren. Bisher haben wir das 1+3+N-Modell betrieben, was ein großes Modell, drei Kernprodukte und viele Szenarien bedeutet. Bald werden wir ein neues multimodales Verstehensmodell veröffentlichen, das mit GPT-4o vergleichbar ist, und diesen "1" breiter und dicker gestalten.
6. Was die Modelle betrifft, haben wir das weltweit erste kommerzielle Videoherstellungs-Großmodell mit Milliarden von Parametern entwickelt, das mit OpenAI Sora vergleichbar ist. Wir besitzen das umfassendste multimodale Copyright-Material des Landes, Zehntausende von Stunden Copyright-Video-Material sowie Tausende von autorisierten IPs. Es deckt nicht nur 70 % der nationalen Filmdaten ab, sondern hat bereits Milliarden von AIGC-zweitkreativem Material hervorgebracht. Bis Ende November haben wir mehr als zehn Millionen Benutzer und über 40.000 Unternehmen in über 100 Ländern und Regionen bedient.
7. Wir sind dabei, ein neues Modell mit MoE-Struktur zu veröffentlichen, das Mischspezialisten vereint. Bei der Schulung nutzt es nicht nur die DiT (Diffusion Transformer) Architektur, sondern auch AR (Auto-Regressive) Architektur und kombiniert die Vorteile beider. Wir haben diese bereits bei der Bilddarstellung überprüft.
Wenn wir das gesamte Modell betrachten, haben wir zunächst die Generierung umgesetzt, gefolgt von der Verstehenskomponente. In Zukunft planen wir eine einheitliche Architektur, die beide Komponenten integrieren wird und derzeit in der Versuchsumgebung getestet wird. Darüber hinaus möchten wir unsere umfassendsten Copyright-Video-Materialien des Landes zu einem AI-Video-Suchdienst umwandeln.
8. Neben den großen Unternehmen haben auch Basismodellunternehmen, die sich auf diese Strecke bewegen, ihre eigenen Vorteile, wie etwa ihre Erfahrung mit Ten Thousand Card Clustern. Jedoch verstehen diese multimodalen ursprünglichen Startups die technischen Routen und Daten besser.
Der Markt im Bereich der Videogenerierung ist groß. Einige Unternehmen sind gut in Animation, andere in realistischer Darstellung, und wieder andere in Filmqualität und 3D. Keine einzige Firma kann alles machen, sondern verschiedene Firmen und Benutzergruppen überlappen nicht vollständig. Daher wird die Konkurrenz uns nicht daran hindern, unseren eigenen Rhythmus zu übernehmen.
2. Die während der Kommerzialisierung gezahlten Lehrgelder
9. Es wird oft gesagt, dass diese Generation von KI-Entrepreneuren vom ersten Tag an sowohl die Sterne als auch das Meer erreichen sowie auf dem Boden bleiben müssen. Vom ersten Tag unseres Startups an hatten wir ein ausgeprägtes Krisenbewusstsein und überlegten schon früh, wie wir PMF (Product Market Fit) erreichen könnten. Wir haben in der Kommerzialisierung früh und schnell gehandelt. Obwohl wir nicht das meiste Kapital gesammelt haben, wissen wir genau, wo wir es investieren.
10. Das ist auch auf meine frühere Ausbildung bei JD.com zurückzuführen. JD ist ein Einzelhandelsunternehmen mit niedriger Gewinnmarge, daher legt die Unternehmenskultur Wert auf präzise Betriebsführung. Häufig verwenden die Chefs eine Extremitätenansatz: Das Geschäft mit minimalen Ressourcen erfolgreich machen. Zudem werden Kosten, Effizienz und Erfahrung, die drei wesentlichen Elemente eines Produkts, ständig betont. Dies gilt für jede Firma und jedes Produkt. Wir haben zahlreiche Versuche zur Kommerzialisierung unternommen und dabei einige Lehrgelder bezahlt, aber wir nähern uns langsam der Sache an.
11. Bei der Entwicklung von Verbraucherprodukten müssen wir die doppelte Herausforderung der Hundert-Problem-Lösungen in Betracht ziehen. Bei den aktuellen AIGC-Produkten gibt es zwei Hauptprobleme: Einerseits kann der Benutzer nicht 100 % des Produkts effektiv einsetzen, und andererseits kann das Modell nicht 100 % der vom Benutzer erwarteten Ergebnisse generieren. AIGC-Produkte stehen derzeit vor zwei Lücken: Vom Technikanwender zum professionellen Benutzer und vom professionellen zum gewöhnlichen Benutzer zu führen. Unsere Verbraucherprodukte verzeichnen ein starkes Wachstum und wurden kürzlich auf der 2024 China AI Product Export Potential Awards Liste erwähnt.
12. Im Hinblick auf Unternehmens-Services habe ich während meiner Arbeit bei JD zur Lieferkettenanalyse festgestellt, dass obwohl es viele Unternehmen in China gibt, es tatsächlich wenige großskalige Unternehmen gibt. Unter diesen Umständen ist es nach wie vor schwierig, Unternehmen dazu zu bewegen, "Dinge zu kaufen". China's SaaS versucht seit langem zu durchbrechen, aber AIGC-Technologien könnten diese Situation ändern.
13. Bei Unternehmensdiensten besteht unsere Hauptkundengruppe aus großen Staatsunternehmen und führenden Internetunternehmen. Letztes Jahr haben wir Markeninhabern ein Produkt zur Verkaufsförderung namens PixMaker angeboten. Dieses Jahr haben wir nach einer strategischen Neuausrichtung damit begonnen, Werbematerial zu produzieren, insbesondere Werkzeuge für das Marketing mit Kurzinhalten bereitzustellen. Wir glauben, dass AIGC inhaltsbezogene Produktionsindustrien die größten sind, und der größte Teil dieser Produktion dient dem Marketing. Derzeit arbeiten wir mit über 40.000 kleinen und mittleren Unternehmen und mehr als 100 großen Unternehmen zusammen. Unser AI-Video-Ringelton in Zusammenarbeit mit Anbietern könnte AIGC-Produkte zu einem nationalen Produkt machen.
14. Zudem legen wir großen Wert auf die Instrumentalisierung und SaaS-Dienstleistungen. Der Vorteil in China ist, dass Produkte für große Kunden entwickelt werden können, bevor sie international als SMB-Dienst angeboten werden. Der Produktlogik von SMBs und sowohl großen C- als auch professionellen Benutzern ist grundlegend gleich und erfordert keinen punktuellen Service. Wir haben bereits mehrere erfolgreiche Produkte. Im Kern haben wir zwei Dinge zur Kommerzialisierung gemacht: Erstens bieten wir kreativen Plattformen und Content-Ökosystemen für Schöpfer; Zweitens stellen wir Markenunternehmen hochwertige Werbeinhalte zur Verfügung. Zukünftig werden wir auch die Phase von der Produktion bis zur Auslieferung testen.
3. Finanzierungslösungen für diese Generation von Unternehmern
15. Kürzlich haben wir zwei Finanzierungsrunden abgeschlossen. Eine stammt von einem Marktfond, die andere von einem staatlich unterstützten Fonds. Unsere Pre-A-Runde und A-Runde wurden kombiniert. Der ersterer Fonds konzentriert sich auf den Technologiebereich und wird von Dunhong Capital geführt, während der letzere ein staatlich geförderter Fonds unter der Leitung von Hefei Chanyi Investment ist. Dazu kommen der Anwuh Province Artificial Intelligence Mother Fund, Hubei Province Yangtze Film Group Co. Ltd., etc. Gegenwärtig ist es für AI-Startups schwer, Geld von amerikanischen Fonds zu beziehen. Deshalb verfolgen wir einen zweigleisigen Ansatz: Staatliche und marktförmige Kapitalquellen.
16. Bei der Beschaffung von Kapital aus staatlichen Mitteln ist es wichtig, zu berücksichtigen, dass die vom Staat geförderten Branchenentwicklungen und die Ziele des Unternehmens übereinstimmen sowie die Möglichkeit besteht, das Unternehmen zur Führung zu entwickeln. Zu den Merkmalen staatlicher Mittel wie Hefeis Investmentgesellschaft zählen professionelle Perspektiven und Due-Diligence-Prüfungen sowie marktorientierte Bewertungen. Staatliche Mittel spiegeln zusätzlich die regionalen Entwicklungsziele wider, die von Startups genutzt werden könnten.
17. Unsere erste Finanzierungsrunde letztes Jahr stammte von einer Alumni-Gruppe der University of Science and Technology of China namens "Zhong He Da". Die Gruppe besteht aus etwa 100 Personen, darunter Unternehmer und Wissenschaftler der Universität, die regelmäßig Alumni-Veranstaltungen und unternehmerische Austausche organisieren. Daraus formierte sich ein LLP-Partnerunternehmen mit 15 Alumni, die unsere erste Finanzierung trugen.
Traditionell legt die University of Science and Technology ihren Schwerpunkt auf die Ausbildung von Wissenschaftlern in Mathematik, Physik und Chemie, weniger jedoch in Ingenieurwesen und Wirtschaft. Daher war der Wunsch, einen im Unternehmen erfolgreich zu unterstützen, vorhanden, und ich erkannte die Gelegenheit zur Gründung. Diese Mittel wurden als "Zhong He Da Seed No. 1" bezeichnet, wahrscheinlich bald gefolgt von Seed No. 2 und Seed No. 3.
18. Zu Beginn unserer Finanzierungsleitlinien kamen einige amerikanische Fonds hinzu, die große Visionen liebten; je größer desto besser. Doch nach den neuen US-Gesetzen zogen sie sich zurück, und wir wechselten zu einem RMB-Modell. Ob Dollar oder RMB hängt davon ab, wo unser Geschäft und unsere Kunden sind. Sollten wir global tätig werden, könnten wir durchaus auch US-Fonds verwenden und die Struktur anpassen.
19. Vor drei Jahren war es leicht, 100 Einheiten zu beschaffen; aber jetzt sind 70 % der US-Fonds ausgeschlossen, und die verbleibenden 30 % RMB-Fonds sind verstreut. Nur ein kleiner Anteil könnte in Industrie kapazitäten stecken, und sie sind vorsichtiger geworden. Heutzutage gibt es nicht viele multimodale Startups, die noch am Markt Geld einwerben können. Wenn dies vor zehn Jahren gewesen wäre, hätten uns zumindest zehn oder mehr Startups unterstützt. Trotz allem, ohne kommerzielle Daten wäre die Frage, wer in den nächsten Jahren für Verluste aufkommt? Meine Erfahrungen aus der Industrie lehren mich, dass jedes Unternehmen echten kommerziellen Wert und Aktionärswerte schaffen muss, sonst ist das Unternehmen bedeutungslos.
20. Ich sage meinen Investoren immer, wann sie ihren Ausstieg planen können. Ich bin mir nicht sicher, wie hoch unser oberes Limit ist, da es in vielen Fällen von Umständen und Zufällen abhängt, aber ich sage ihnen, wie hoch unser unteres Limit ist. Ich werde dafür sorgen, dass unser Unternehmen gesund und stabil funktioniert.
4. Wenn die Welle kommt, spring mit
21. Unternehmertum hat mein Leben bisher am meisten erfüllt. In einer großen Firma als Führungskraft muss man nur die Technik oder das Team leiten, darüber hinaus gibt es einen Chef. Als Unternehmer jedoch steht man allein, alle Problemstellungen landen direkt bei einem selbst, und man muss sie endgültig lösen.
22. Jeder, der sich einer Unternehmung anschließt, muss vorher mit sich selbst im Reinen sein. Denn jede kleine Schwierigkeit kann zum Zweifel führen, warum man sich dieses antun sollte. Ich habe die Phase vom Technik- zum Produktentwickler erlebt und auch eine kurze Geschäftsausführung, aber wirklich selbstständig wurde ich erst mit dem Unternehmertum.
23. Um 2015 herum, als die vier Drachen aufkamen, war ich noch bei Microsoft. Viele Leute wollten, dass ich ein Unternehmen gründe, aber ich kam nicht raus. Ich wollte damals meine akademische Karriere fortsetzen und sah die Geschäftsmodelle dieser Welle noch als zu schwach an. Ich entschied mich 2018 für den Austritt, da ich akademische Erfolge erzielt hatte und bereit war, in ein Produkt zu investieren.
24. Im Microsoft Research Institute pflegten wir zu sagen, dass es von der Technik zu einem Produkt etwa hundert Ingenieure braucht; um ein Produkt erfolgreich zu vermarkten, sind weitere Hundert Experten erforderlich. Diese Lücke wurde mir bewusst, als ich einen Ort suchte, um die Kette zu durchbrechen. Bei JD habe ich alle meine Technologien in Produkte umgesetzt. Dieser Prozess kann als Übergang verstanden werden: von Technik zu Produkten, zu einer Geschäftslinie, dann zu einem Unternehmen.
25. Die Wahl der Videostrecke war ebenfalls eine überlegte Entscheidung. Letztes Jahr haben wir erkannt, dass der Wettbewerb bei großen Sprachmodellen zu intensiv war. Die Lücke bei der Videogenerierung im In- und Ausland ist jedoch nicht groß. Zusätzlich, im Hinblick auf Geschäftsmodelle, wird das Sprachmodell hauptsächlich für Mensch-Maschine-Interaktionen verwendet und erfordert Präzision. Fehler können problematisch sein, während Videogenerierung eine Form digitaler Kreativwirtschaft ist, bei der Benutzer weniger an Fehlern interessiert sind. Unsere Firma wurde im März gegründet, die erste Finanzierung kam im Mai und im August veröffentlichten wir die erste Version des ZhiXiang-Modells auf der HiDream.ai-Webseite. Wir waren weltweit das erste KI-Unternehmen, das Text-to-Video veröffentlichte.
26. Wir entwickeln sowohl Modelle als auch Anwendungen. Wenn Modelle nicht selbst entwickelt werden, sind Anwendungen zu dünn und könnten durch andere verdrängt werden. Wir entwickeln keine allgemeinen Modelle, sondern vertikale Modelle. Solange wir in diesem Bereich weltweit führende Fähigkeiten aufrechterhalten und das letzte Meilenproblem der Benutzererfahrung lösen, wird unser Unternehmen Bestand haben.
27. Man erkennt, dass das Unternehmertum größere Herausforderungen stellt als die Wissenschaft. Wissenschaftler können sich auf Innovationen von 0 bis 1 konzentrieren, ohne sich mit konkreten Produktproblemen auseinandersetzen zu müssen. Für Unternehmer hingegen geht es darum, von 0 auf 1 und dann weiter auf 100 oder 10.000 zu gehen. In diesem Prozess muss man sein Ego ablegen und von seiner fachlichen Spitze herunterkommen, um von vorne zu beginnen und weitere Höhen zu erklimmen. Während meiner Unternehmertätigkeit habe ich absichtlich meine Komfortzone verlassen und nach Veränderungen gesucht.
28. In der aktuellen Umgebung müssen Unternehmer wirklich vielseitig sein. Ich lerne, Unwägbarkeiten zu schätzen. In den letzten sechzig Jahren gab es drei Wellen der KI-Entwicklung, und wir befinden uns derzeit mitten in der dritten. Wir sollten dem Lauf der Dinge folgen. Wenn die Welle kommt, sollte man nicht gegen den Strom schwimmen, sondern mit ihr springen und sich aufschwingen.
29. Ich bin bereit, meine nächsten zehn Jahre dem Unternehmen zu widmen und den kompletten Zyklus des Geschäftslebens zu erfahren. Wenn möglich, möchte ich diese Erfahrungen an junge Menschen weitergeben. In der heutigen Umgebung warten viele Herausforderungen darauf, bewältigt zu werden, und das ist gut so. Viele finanziell unabhängige Menschen möchten den Mount Everest besteigen, da sie immer ein neues Ziel suchen, anstatt untätig zu altern.