Meituan LongCat-Video-videogeneratiemodel uitgebracht, geschikt voor het uitvoeren van video's van 5 minuten

Op 27 oktober kondigde Meituan officieel aan dat het Meituan LongCat-team officieel het LongCat-Video-videogeneratiemodel heeft uitgebracht. Dit model is gebaseerd op de Diffusion Transformer-architectuur en kan drie kerntaken van Wensheng-video, Tusheng-video en video-voortzetting ondersteunen, en beweert het geavanceerde niveau van open source-modellen te hebben bereikt.

Volgens rapporten kan LongCat-Video high-definition video genereren met een resolutie van 720p en een framesnelheid van 30. Het opvallende kenmerk is dat het native coherente video-inhoud van maximaal 5 minuten kan genereren. Door middel van pre-training voor videovoortzetting, het blokkeren van schaarse aandacht en andere mechanismen, streeft het model ernaar veelvoorkomende problemen op te lossen, zoals beeldonderbrekingen en kwaliteitsverlies bij het genereren van lange video's, en de timingconsistentie en bewegingsrationaliteit te behouden.

In termen van efficiëntie maakt het model gebruik van technologieën zoals tweetrapsopwekking, blok schaarse aandacht en modeldistillatie. Volgens functionarissen wordt de inferentiesnelheid ruim tien keer verhoogd. Het aantal modelparameters bedraagt 13,6 miljard en heeft een sterke tekstuitlijning en bewegingscoherentie laten zien in openbare tests zoals VBench.

Als een technische poging om een ‘wereldmodel’ te bouwen, kan LongCat-Video worden toegepast op scenario’s die in de toekomst langetermijnmodellering vereisen, zoals autonome rijsimulatie en belichaamde intelligentie. De release van dit model markeert een belangrijke stap voor Meituan op het gebied van videogeneratie en fysieke wereldsimulatie.