Vandaag heeft Alibaba officieel Qwen-Image-2.0 uitgebracht, een nieuwe generatie model voor het genereren en bewerken van afbeeldingen.Als modelbasis voor het genereren van afbeeldingen van het grote model van Qianwen, integreert Qwen-Image-2.0 het genereren en bewerken van afbeeldingen. Het scoorde 1029 punten in de AI Arena-beeldgeneratie-evaluatie, waarmee het modellen als Seedream4.5 en Flux2-Max overtreft, en de tweede na Google Nano Banana Pro en GPT Image1.5.
Qwen-Image-2.0 ondersteunt 1K token ultralange tekstinvoer en 2K hoge resolutie. Het kan complexe instructies nauwkeurig weergeven en eenvoudig professionele PPT's en infographics genereren. De kwaliteit is vergelijkbaar met die van professionele fotografen. Tegelijkertijd heeft Qwen-Image-2.0 extreem sterke mogelijkheden voor het weergeven van Chinese karakters, en kan de volledige tekst van honderden oude teksten bijna volledig in beeld worden weergegeven.

Qwen-Image-2.0 is een nieuwe upgrade gebaseerd op de twee belangrijkste modellen Qwen-Image en Qwen-Image-Edit. Voor het eerst zijn het genereren en bewerken van afbeeldingen verenigd in één model. Met een lichtere modelarchitectuur zijn de prestaties bij het genereren en aanpassen van afbeeldingen aanzienlijk verbeterd.
De textuur van de door Qwen-Image-2.0 gegenereerde beelden is bijzonder delicaat, variërend van de rimpels van een oude man tot de uitgestrektheid van het universum. Veelgebruikte afbeeldingen van mensen, natuur, gebouwen etc. gegenereerd door het model zijn uiterst levensecht.
In de gezaghebbende evaluatie AI Arena scoorde Qianwen's nieuwe model 1029 in beeldgeneratie, waarmee hij op de derde plaats eindigde; het scoorde 1034 in beeldbewerking, de tweede na Nano Banana Pro.

Wat de weergave van Chinese karakters betreft, presteert Qwen-Image-2.0 buitengewoon goed. Het kan niet alleen Chinese karakters nauwkeurig weergeven in verschillende lettertypen, het kan er ook veel en nauwkeurig schrijven, en het effect is beter dan Nano Banana Pro.
Het nieuwe model van Qianwen breidt de invoerpromptwoorden uit naar 1K-tokens, die taken in detail kunnen beschrijven, een professionelere tekstweergave kunnen realiseren en eenvoudig complexe afbeeldingen kunnen verwerken, zoals professionele PPT's, geavanceerde posters en strips met meerdere frames. De honderden woorden van de volledige tekstillustraties van "The Preface to the Lanting Collection" worden bijvoorbeeld bijna volledig weergegeven in kleine, reguliere scriptlettertypen, en complexe PPT's met illustraties in essayformaat worden gegenereerd in natuurlijke taal.

Gebaseerd op het Qwen-Image-2.0-model kunnen gebruikers samenwerken met AI om rijkere en meer praktische afbeeldingen te creëren, zoals een stroomschema voor het genereren van Kung Pao Chicken in één zin, een tweedaagse reisgids naar Hangzhou, een 4x6 multi-frame komische groepsfoto, een prentenboekfoto voor kinderen, een filmposter in realistische stijl, een uiterst realistische groene jungle, enz.;
Tegelijkertijd kunnen gebruikers ook meerdere foto's uploaden om te bewerken om selfies met meerdere gebaren, emoticons met echte mensen, realistische AI-foto's van twee mensen, gedichten met afbeeldingen, enz. te genereren.
