OpenAI heeft een nieuwe functie waarmee ChatGPT rechtstreeks kan worden uitgevoerdVertrek met snelheid!Deze functie heet"voorspellingsuitvoer"(PredictedOutputs), met zijn zegen kan GPT-4o sneller zijn dan het origineeltot 5 keer. Neem programmeren als voorbeeld om dit gevoel te voelen:
Waarom zo snel? Om het in één zin samen te vatten:
Sla over wat u al weet en hoef het niet helemaal opnieuw op te bouwen.
Daarom is "voorspellende output" bijzonder geschikt voor de volgende taken:
Update blogpost in documentatie
Herhaal eerdere reacties
Herschrijf code in bestaande bestanden
En FactoryAI, dat samenwerkte met OpenAI om deze functie te ontwikkelen, toonde ook hun gegevens over programmeertaken:
Afgaande op de experimentele resultaten is de responstijd van GPT-4o met de zegen van "voorspelde output" 2-4 keer sneller dan voorheen, terwijl de hoge nauwkeurigheid behouden blijft.
En de ambtenaar verklaarde ook:
Een programmeertaak die oorspronkelijk 70 seconden in beslag nam, duurt nu nog maar 20 seconden.
Het is vermeldenswaard dat de functie "voorspellingsuitvoer" momenteel slechts twee modellen ondersteunt, GPT-4o en GPT-4omini, en de vorm heeft van een API.
Voor ontwikkelaars kan dit goed nieuws zijn.
Netizens hebben online getest
Zodra het nieuws naar buiten kwam, konden veel internetgebruikers niet stilzitten en begonnen het te testen.
BijvoorbeeldOprichter van FirecrawlEric Ciarla gebruikte 'voorspellende output' om te ervaren hoe hij blogposts omzet in SEO-inhoud (zoekmachineoptimalisatie), en zei vervolgens:
Het is echt supersnel.
Het is zo eenvoudig als het toevoegen van een voorspellingsparameter aan uw API-aanroep.
Een andere netizen gaf een prompt bovenop de bestaande code:
veranderdedetailsinwillekeurigestukjestekst.
Wijzig de details in een willekeurig tekstfragment.
Laten we de snelheid voelen:
Sommige netizens plaatsten ook hun daadwerkelijke gemeten gegevens:
Kortom, snel, heel snel.
Hoe?
OpenAI introduceert ook de technische details van "voorspellingsoutput" in zijn officiële documentatie.
OpenAI is van mening dat in sommige gevallen het grootste deel van de output van de LLM vooraf bekend is.
Als u het model vraagt om slechts kleine wijzigingen in bepaalde tekst of code aan te brengen, kunt u 'uitvoer voorspellen' gebruiken om bestaande inhoud als voorspellingsinvoer te nemen en een aanzienlijk lagere latentie te verkrijgen.
Stel bijvoorbeeld dat je dat wiltRefactoreer een stukje C#-code, wijzig het kenmerk Gebruikersnaam in E-mail:
Je kunt redelijkerwijs aannemen dat het grootste deel van de inhoud van het bestand niet zal worden gewijzigd (zoals de docstring van de klasse, sommige bestaande eigenschappen, enz.).
Door een bestaand klassenbestand als voorspellende tekst door te geven, kunt u het hele bestand sneller opnieuw genereren.
Het gebruik van "voorspelde uitvoer" om tokens te genereren zal de latentie van dit soort verzoeken aanzienlijk verminderen.
OpenAI-functionarissen gaven echter ook verschillende opmerkingen over het gebruik van "voorspelde output".
De eerste is dat we zojuist hebben vermeld dat alleen modellen uit de GPT-4o- en GPT-4o-mini-serie worden ondersteund.
Ten tweede worden de volgende API-parameters niet ondersteund bij het gebruik van voorspellingsuitvoer:
nwaarden groter dan 1
logproblemen
aanwezigheid_strafgroter dan0
frequentie_strafgroter dan0
audioopties
andere modaliteiten dan tekst
max_completion_tokens
tools-functieoproepenwordtnietondersteund
Daarnaast vat OpenAI in dit document ook verschillende methoden voor vertragingsoptimalisatie samen, naast "voorspellingsuitvoer".
Inclusief "versnel de tokenverwerking", "genereer minder tokens", "gebruik minder invoertokens", "verminder verzoeken", "paralleliseer" enzovoort.
De documentlink staat aan het einde van het artikel, geïnteresseerde vrienden kunnen het bekijken~
EénMeerDing
Hoewel de uitvoersnelheid sneller is geworden, is er nog een opmerking over OpenAI die aanleiding heeft gegeven tot discussie onder internetgebruikers:
Bij het geven van een voorspelling worden alle verstrekte tokens die geen deel uitmaken van de definitieve voltooiing in rekening gebracht tegen voltooiingstokentarieven.
Bij het verstrekken van een prognose worden alle verstrekte niet-definitieve voltooiingstokens in rekening gebracht tegen het voltooiingstokentarief.
Sommige netizens plaatsten ook zijn testresultaten:
"Voorspelde output" niet gebruikt: 5,2 seconden, 0,1555 cent
Gebruikte "Voorspelde output": 3,3 seconden, 0,2675 cent
Nou ja, het is sneller en duurder.
Officiële OpenAI-documentatie:
https://platform.openai.com/docs/guides/latency-optimization#use-predicted-outputs
Referentielinks:
[1]https://x.com/OpenAIDevs/status/1853564730872607229
[2]https://x.com/romainhuet/status/1853586848641433834
[3]https://x.com/GregKamradt/status/1853620167655481411