Vandaag is de nieuwste lijst van Code Arena vrijgegeven! Qwen3.7-Max brak door in de top vier van de wereld met 1541 punten en overtrof daarmee in één klap GPT-5.5, Gemini 3.5 Flash en andere topmodellen. De enige die ervoor staan ​​zijn Claude Opus 4.7 en Opus 4.6.



Met andere woorden: op het gebied van mondiale programmeermodellen is Alibaba de enige Chinese fabrikant die aan de tafel komt, met een tweede plaats na Anthropic.

Qwen3.7-Max breekt door in de top vijf van de wereld

Het enige niet-Claude-model

Voordat Code Arena de lijst uitbracht, was Qwen3.7-Max zelfs al beroemd geworden in de overzeese ontwikkelaarskring.

Atomic Chat voerde een onderlinge vergelijking uit, waardoor Opus 4.7, GPT-5.5 en Qwen3.7-Max op hetzelfde podium konden concurreren. De opdracht was om een ​​Tetris AI te schrijven die zichzelf kan trainen.

Als gevolg hiervan overtrof Qwen3.7-Max niet alleen zowel Opus 4.7 als GPT-5.5 met een symbolische kostprijs van slechts $ 1,32, maar verbeterde het ook de prestaties met 56%.


Een andere buitenlandse ontwikkelaar koos Qwen3.7-Max om een ​​3D-model van het universum te bouwen, en het effect kan als schokkend worden omschreven.


Bij de generatietaak van het "3D pixel wind miniatuurpagodemodel" wonnen ook de uitvoersnelheid en kwaliteit van Qwen3.7-Max ruimschoots.






over

Ontwikkelaar Paul Couvert prees zelfs dat nadat Qwen3.7-Max is verbonden met Hermes Agent en OpenCode, het in principe GPT-5.5 en Opus 4.7 kan vervangen.


Programmeren is zo geweldig

Hoe hoog de running score ook is, het is echter beter om te oefenen met echte zwaarden en geweren.

We hebben een hardcore racegame-uitdaging geregeld voor Qwen3.7-Max.

Voer een gedetailleerde prompt in en na een tijdje zal Qwen3.7-Max direct een afspeelbaar HTML-bestand uitvoeren.


Er zat een kleine bug in de eerste versie, de A/D-stuurtoetsen waren links en rechts omgedraaid.

Maar na de tweede ronde van eenvoudige dialoogverfijning werd een 3D-racespel met een complete ervaring gelanceerd.


Toen ik het opende, was ik eerlijk gezegd een beetje geschokt.

Er staan ​​4 auto's op hetzelfde podium en racen op een ringbaan van 3 ronden. Er liggen meer dan 100 gouden munten verspreid op de baan. Als u obstakels tegenkomt, gaat u langzamer rijden en verliest u de controle.

Het resultatenpaneel na de race bevat de ranglijst, tijd, aantal gouden munten en snelste ronde.

Maar wat echt verrassend is, zijn twee details die alleen Qwen3.7-Max kan bereiken.

Eén daarvan is de startinterface. Nadat de vier modellen horizontaal waren getest, werd er alleen een serieuze startpagina voor het spel gemaakt en klikte je op "Start" om aan de competitie deel te nemen. De andere drie zijn allemaal open en draaien, zonder zelfs maar een titelscherm.

Een andere is geluidseffecten. Aan het einde van de prompt was er een verzoek, plus de geluidseffecten van brullende motoren en gouden munten die werden opgegeten. Van de vier modellen is dit de enige die deze bonus bevat, met motorgeluiden en gouden muntjingels allemaal gearrangeerd.


Laten we eens kijken naar de prestaties van andere spelers.

Het beeld van Gemini 3.5 Flash is duidelijk een stuk dunner en mist dat levendige driedimensionale gevoel.

Er zijn ook problemen met de lay-out van de gebruikersinterface. De dashboardinformatie is verspreid in de vier hoeken van het scherm en de visuele focus is verspreid.

De verwerkingsmethode van Qwen3.7-Max daarentegen is om de belangrijkste indicatoren in het midden van het scherm te concentreren, wat meer in lijn ligt met het natuurlijke landingspunt van de zichtlijn van de speler.



Het effect van Claude Opus 4.6 is een beetje moeilijk te beschrijven.

Niet alleen liggen er heel weinig gouden munten op de baan, maar de drie AI-auto's rijden vrijwel tegelijkertijd, zonder enige willekeur, alsof ze zijn gekopieerd en geplakt.

Tenslotte is er GPT-5.5.

Het is te zien dat de beeldkwaliteit inderdaad veel beter is dan de vorige twee, en dat de bediening soepeler verloopt.

Maar ik weet niet waarom, van de gouden munten werden gele ‘donuts’ gemaakt…

Styling is een triviale zaak. De sleutel is dat Gemini, Claude en ChatGPT allemaal een aantal bugs moesten oplossen voordat ze alle functies konden uitvoeren.

Alleen de prestaties van de eerste ronde van Qwen3.7-Max zijn in principe speelbaar.

De lopende scores liggen dicht bij elkaar, de daadwerkelijke test is nauwkeurig en de prijs is slechts een fractie van de prijs. De overige conclusies worden aan de ontwikkelaars overgelaten om met hun voeten te stemmen.

Het ‘voetstuk’-model in het Agent-tijdperk

Het antwoord op de vraag waarom Qwen3.7-Max op zo'n hoog niveau kan presteren in de meest veeleisende programmeerarena ligt in de productpositionering.

Toen Alibaba een paar dagen geleden Qwen3.7-Max uitbracht, kreeg het een heel speciaal label:Basismodel voor agenten.

Het is geboren voorVoer taken zelfstandig uit voor langere tijdOntwerpmodel.

Uit interne testgegevens blijkt dat Qwen3.7-Max bij een onafhankelijke programmeertaak 35 uur continu draaide en 1158 tooloproepen uitvoerde.

De uiteindelijk gegenereerde code bereikt een verbazingwekkende 10x geometrische gemiddelde versnelling vergeleken met de Triton-referentie-implementatie.


Wat zelfs nog schokkender is, is het vermogen tot ‘langdurige oorlog’.

Na het 30e uur van de aftrek bleef het model scherp en bleef het nieuwe optimalisatieruimte verkennen.

Geen contextdegradatie, geen instructiedrift en geen oneindige lussen gedurende het hele proces!

Ik moet zeggen dat de moeilijkheid in deze kwestie niet de 1000-tool zelf is. Nadat het MCP-protocol is vrijgegeven, is het niet ongebruikelijk om tools 1000 keer aan te passen.

De moeilijkheid ligt in 35 uur coherent redeneren.

De meeste modellen zullen instorten bij het uitvoeren van lange taken: óf de context stapelt zich op en wordt verwarrend, en de doelen die in de eerste helft zijn gesteld, worden later volledig vergeten; of ze komen in een oneindige lus terecht en proberen herhaaldelijk dezelfde mislukte oplossing.

Qwen3.7-Max heeft het doel bereikt om "voortdurend het goede te doen".

Kerntechnologie onthuld

Door de programmeersprong van Qwen3.7-Max begrijpen we dat de kern mogelijk verband houdt met de upgrade van twee trainingsmethoden.

eersteJa,Uitbreiding van het milieu.

Wanneer Qwen3.7-Max programmeertraining volgt, wordt elke taak opgesplitst in drie onafhankelijke dimensies: de taak zelf, het uitvoeringsframework en de verificatiemethode, en deze drie kunnen vrijelijk worden gecombineerd.

Dezelfde vraag wordt soms gesteld in het Claude Code-framework, soms in OpenClaw, en soms wordt het gedaan met behulp van een andere verificatiemethode.

Het effect is alsof een stagiair naar alle projectteams wordt gerouleerd. Wat het moet leren is een algemene strategie voor het oplossen van problemen, en niet 'hoe je voordeel kunt halen uit een specifiek raamwerk'.

Dit verklaart een contra-intuïtief fenomeen. De prestaties van Qwen3.7-Max in de raamwerken van Claude Code, OpenClaw en Qwen Code zijn zeer stabiel, en er is geen situatie waarin "het erg sterk is in zijn eigen raamwerk, maar het zal lastig zijn als je het verandert".


De tweede upgrade is,Autonome uitvoering op lange afstand.

Tijdens de training introduceerde het team het raamwerk van het ‘dynamische cumulatieve overlevingsspel’.

Dat wil zeggen: laat het model meer dan duizend stappen van continue beslissingen nemen in een voortdurend veranderende simulatieomgeving, zijn eigen aannames vaststellen, strategieën aanpassen op basis van feedback, en geen ‘contextcorruptie’ veroorzaken omdat het te lang duurt.

Hier zijn intuïtieve gegevens. YC-Bench simuleert een jaar lang de werking van een startend bedrijf. Qwen3.7-Max behaalde een omzet van 2,08 miljoen dollar, wat het dubbele was van de vorige generatie (1,05 miljoen).

Belangrijker nog is dat het de evolutie van zijn strategie laat zien. Het kan zijn koers zelfstandig aanpassen wanneer het op de middellange termijn met een crisis wordt geconfronteerd, kwaadwillige klanten identificeren en blokkeren, en uiteindelijk convergeren naar een stabiele uitvoeringscyclus.


Dit is de onderliggende ondersteuning voor de kerneloptimalisatie van 35 uur, en waarom Qwen3.7-Max op Kernel Bench L3 in 96% van de scenario's versnellingseffecten kan bereiken.

En programmeren is slechts het eerste slagveld. De basis van deze reeks langetermijnredeneringen en instrumentoproepen wijst op een grotere ambitie: een universele agentenbasis.

Er is nog een spoiler in de programmeerfinale

Sinds de lancering van Code Arena is de test altijd hard werken geweest. Redeneren in meerdere stappen, toolorkestratie en volledige projectlevering zijn allemaal echte vaardigheden op agentniveau.

Vandaag klom Qwen3.7-Max naar de vierde positie met een score van 1541 punten, stekend tussen Opus 4.6 Denken en Opus 4.6.

Op dit circuit waar Claude ruim een ​​half jaar domineert, heeft het zijn eigen antwoord gegeven. Chinese modellen zijn niet alleen jagers, ze kunnen ook definieeraars zijn.

De mondiale concurrentie op het gebied van programmeermodellen is niet langer een eenmanszaak in Silicon Valley.