Google heeft de lancering aangekondigd van een nieuw tekst-naar-spraak-model Gemini-TTS in zijn Gemini 3.1-serie, dat officieel wordt omschreven als "de meest expressieve tekst-naar-spraak-oplossing tot nu toe". Het nieuwe model kan natuurlijk klinkende, hifi-spraak genereren, terwijl ontwikkelaars de emotie, het ritme en de stijl van de spraak kunnen beheersen via aanwijzingen, zoals het nauwkeurig aanpassen van de toon, pauzes en emotionele veranderingen in het verhaal of de dialoog.

Wat de meertalige ondersteuning betreft, bestrijkt Gemini-TTS ongeveer 70 talen, waaronder Chinees (Mandarijn), Engels, Spaans, Duits, Japans en andere reguliere talen. Het model kan automatisch de taal van de invoertekst detecteren en de bijbehorende spraak genereren zonder het taaltype handmatig te markeren. Dankzij deze mogelijkheid kunnen ontwikkelaars en ondernemingen een uniforme set API's gebruiken om meertalige steminhoud aan wereldwijde gebruikers te bieden in scenario's zoals audioboeken, podcasts, stemassistenten, klantenservicerobots en educatieve toepassingen.
Google benadrukte ook dat Gemini-TTS samenwerkt met andere audiomodellen in de Gemini 3.1-serie (zoals Gemini 3.1 Flash Live) om de mogelijkheden van "real-time stemervaring" verder te verbeteren. Bij realtime dialoog, stemvertaling en multimodale interactie kan het systeem een lage latentie handhaven en tegelijkertijd de stemuitvoer nauwkeurig regelen via tekstprompts en audiomarkeringen, waardoor AI-agenten dichter bij de natuurlijke menselijke steminteractie kunnen komen in scenario's zoals telefoongesprekken, vergaderingen en navigatie.