Tegenwoordig is de 1.5Pro-versie van Doubao Big Model officieel voor iedereen beschikbaar. Het nieuwe model heeft de alomvattende mogelijkheden, lage training-/inferentiekosten, een efficiënte modelstructuur, volledig verbeterde multimodale mogelijkheden en inferentiemogelijkheden aanzienlijk verbeterd, en is toonaangevend in meerdere openbare evaluatiebenchmarks. Tijdens het modeltrainingsproces zijn er geen gegevens gebruikt die door een ander model zijn gegenereerd en zijn er geen "snelkoppelingen" gemaakt.
De volledige versie van de blog kan worden bekeken op de officiële website van het Doubao Model Team (u kunt direct op "Lees de originele tekst" klikken aan het einde van het artikel):
https://team.doubao.com/doubao_1_5_pro
Momenteel is Doubao-1.5-pro gelanceerd op Doubao App Grayscale en presteert uitstekend bij het accepteren van enorme verzoeken. Tegelijkertijd kunnen ontwikkelaars de API ook rechtstreeks in de vulkaanengine aanroepen.
Toonaangevend in uitgebreide mogelijkheden
Doubao Model 1.5Pro is toonaangevend in veel publieke evaluatiebenchmarks, zoals kennis (MMLU_PRO, GPQA), code (McEval, FullStackBench), redeneren (DROP) en Chinees (CMMLU, C-Eval). Zie de tabel aan het einde van het artikel voor meer informatie.
Efficiënte modelstructuur, ultralage kosten
Doubao Big Model 1.5Pro gebruikt kleinere activeringsparameters voor pre-training. De trainingskosten zijn extreem laag, maar de prestaties worden niet aangetast. Het maakt gebruik van een grootschalige schaarse MoE-architectuur, die equivalent is aan een Dense-modelprestatie van 7 keer de activeringsparameters, wat de conventionele efficiëntie van ongeveer 3 keer de hefboomwerking van de MoE-architectuur in de industrie ver overtreft.
Met de zelf ontwikkelde serverclusteroplossing en flexibele ondersteuning voor goedkope chips zijn de hardwarekosten aanzienlijk lager dan die van industriële oplossingen.
De zelfontwikkelde netwerkkaart en het netwerkprotocol optimaliseren de efficiëntie van small packet-communicatie aanzienlijk. De efficiënte overlap van berekening en communicatie van de operatorlaag zorgt voor de stabiliteit en efficiëntie van gedistribueerd redeneren over meerdere machines. Door oplossingen zoals fijne kwantisering en PD-scheiding zorgt het flexibele gebruik van rekenkracht en hybride planning voor meerdere taken voor een efficiënter gebruik van de rekenkracht.
Uitgebreide verbetering van multimodale mogelijkheden
De nieuwe versie van Doubao visueel begripsmodel Doubao-1.5-vision-pro heeft toonaangevende mogelijkheden voor visueel begrip. Zie de tabel aan het einde van het artikel voor meer informatie.
Het nieuwe Doubao real-time stemmodel Doubao-1.5-realtime-voice-pro maakt gebruik van het Speech2Speech end-to-end raamwerk om een kwalitatieve sprong in expressiviteit te realiseren, waardoor het mogelijk wordt om echt te huilen, lachen, dialecten te spreken en te zingen. Dit model is volledig gelanceerd op de Doubao-app, welkom om het te ervaren.
Een sterker vermogen om diep na te denken
Gebaseerd op het BeanBao 1.5-basismodel, door doorbraken in RL-algoritmen en technische optimalisatie, werd het BeanBao deep thinking-model ontwikkeld zonder gebruik te maken van andere modelgegevens. Gefaseerde vooruitgang Doubao-1.5-Pro-AS1-Preview heeft toonaangevende resultaten behaald op het gebied van AIME. Zie de tabel aan het einde van het artikel voor meer informatie.
Gebruik geen ‘snelkoppelingen’
Tijdens alle modeltrainingsprocessen zijn er geen gegevens gebruikt die door een ander model zijn gegenereerd.
Doubao Big Model bouwt een onafhankelijk dataproductiesysteem, waarbij het annotatieteam wordt gecombineerd met model selfplay-technologie om de datakwaliteit efficiënt te optimaliseren, de diversiteit en moeilijkheidsgraad van data-annotatie te verbeteren en de onafhankelijkheid en betrouwbaarheid van databronnen te garanderen.
Op weg naar het eindeloze onbekende
Het Byte Doubao Big Model Team moedigt de verkenning van onzekere onderzoeksonderwerpen op de langere termijn aan, en moedigt ook onderlinge samenwerking aan bij het uitdagen van cross-modale en cross-directionele moeilijke onderwerpen. Aspirant-onderzoekers zijn welkom om zich aan te sluiten en meer te leren.
Bijgevoegd: