Google heeft de uitbreiding aangekondigd van de bestandszoekfunctie in de Gemini API om completere multimodale RAG-mogelijkheden te bieden aan developers

Google heeft onlangs de uitbreiding aangekondigd van de bestandszoekfunctie in de Google Gemini API, waardoor ontwikkelaars completere multimodale retrieval Enhanced Generation (RAG)-mogelijkheden krijgen. De kern van deze update omvat: ondersteuning voor het gemengd ophalen van afbeeldingen en tekst, ondersteuning voor het filteren van aangepaste metagegevens, nieuwe referentieondersteuning op paginaniveau en verbeterde toegankelijkheid en nauwkeurigheid van AI-systemen in scenario's zoals bedrijfskennisbanken, documentvragen en antwoorden en agenten.

Volgens de officiële blog van Google is de nieuwe versie van de bestandszoekfunctie niet langer beperkt tot het traditionele zoeken naar tekstvectoren, maar is deze gebaseerd op de uniforme multimodale inbeddingsmogelijkheid gebouwd op Gemini Embedding 2, die tegelijkertijd de visuele inhoud en tekstinhoud in afbeeldingen, pdf's en documenten kan begrijpen. Ontwikkelaars hoeven geen complexe vectordatabases te bouwen, pijplijnen in te sluiten of documentsegmentatiesystemen te gebruiken, en kunnen de volledige RAG-workflow rechtstreeks in de Gemini API voltooien.

In traditionele RAG-systemen is visuele inhoud zoals afbeeldingen, grafieken, schermafbeeldingen en ontwerptekeningen vaak moeilijk effectief te indexeren, wat resulteert in een gebrek aan contextueel begrip in AI-antwoorden. De nieuwe multimodale bestandszoekfunctie van de Gemini API kan de inhoud van afbeeldingen native identificeren en samen met tekst een zoekindex opbouwen. Bedrijven kunnen bijvoorbeeld PDF-bestanden uploaden met productafbeeldingen, datagrafieken of technische architectuurdiagrammen, en AI kan tegelijkertijd de visuele informatie en tekstbeschrijvingen begrijpen bij het beantwoorden.

Google zegt dat deze mogelijkheid bijzonder geschikt is voor het bouwen van kennisassistenten op ondernemingsniveau, klantenservicerobots, documentanalysesystemen en AI-agenten. Ontwikkelaars kunnen modellen conclusies laten trekken op basis van interne documenten, zonder dat er extra onderhoud nodig is aan onafhankelijke systemen voor het ophalen van afbeeldingen. Voor bedrijven met een grote hoeveelheid gemengde beeld- en tekstgegevens betekent dit een lagere implementatiecomplexiteit en een hogere ophaalnauwkeurigheid.

Een andere nieuwe functie is het filteren van aangepaste metadata. Ontwikkelaars kunnen metadata zoals tags, categorieën, tijd en afdelingen toevoegen aan geüploade bestanden, zodat ze tijdens het daaropvolgende ophalen kunnen worden gefilterd op basis van metadata om de nauwkeurigheid en efficiëntie te verbeteren. Dit is ook geschikter voor grootschalig kennisbankbeheer en zorgt ervoor dat irrelevante inhoud niet in het contextvenster terechtkomt.

Een ander belangrijk kenmerk is citatie op paginaniveau. Bij het genereren van antwoorden kan Gemini AI duidelijk markeren van welke pagina van het document de informatie afkomstig is, in plaats van alleen maar vaag naar het hele bestand te verwijzen. Hierdoor kunnen gebruikers klikken om de specifieke documentpagina te bekijken nadat ze het antwoord hebben gekregen, om de juistheid van de inhoud te beoordelen en het volledige document te lezen om meer informatie te verkrijgen.

Momenteel staat de nieuwe versie van de Google Gemini API-bestandszoekfunctie open voor alle ontwikkelaars. Geïnteresseerde ontwikkelaars kunnen de Gemini API openen via platforms zoals Google AI Studio en Google Cloud om deze te ervaren.

Handleiding voor ontwikkelaars: https://dev.to/googleai/multimodal-rag-with-the-gemini-api-file-search-tool-a-developer-guide-5878