"Project Gutenberg" maakt gebruik van neurale tekst-naar-spraaktechnologie om 5.000 gratis audioboeken uit te brengen

Audioboeken zijn de afgelopen jaren enorm in populariteit gestegen vanwege hun leesbaarheid, maar het opnemen van audioboeken is moeilijk en duur. Onlangs hebben onderzoekers een geautomatiseerde methode gedemonstreerd die gebruikmaakt van gesynthetiseerde tekst-naar-spraak, waarmee veel van de problemen van de technologie worden opgelost en waarmee gewone gebruikers audioboeken kunnen produceren. Nu kunnen lezers gratis luisteren naar duizenden klassieke literaire audioboeken en ander materiaal uit het publieke domein via Project Gutenberg. Onderzoekers van Microsoft en MIT hebben de collectie gemaakt door de boeken te scannen met behulp van tekst-naar-spraaksoftware.

Deze teksten omvatten werken van Shakespeare, Agatha Christie, Jane Austen, Leonardo da Vinci en anderen. Gebruikers kunnen luisteren op InternetArchive, Spotify, ApplePodcasts en GooglePodcasts:

https://marhamilresearch4.blob.core.Windows.net/gutenberg-public/Website/index.html

De code die wordt gebruikt om de audioboekencollectie samen te stellen, is beschikbaar op GitHub:

https://github.com/microsoft/SynapseML

Apple begon in januari van dit jaar met de verkoop van audioboeken met behulp van automatische tekst-naar-spraaktechnologie. De poging wordt echter met scepsis onthaald door het literaire establishment, dat kritiek heeft op de zakelijke doelstellingen van Apple, en door stemacteurs die training geven voor de kunstmatige intelligentie van het bedrijf. De aanpak van Gutenberg kan gemengde reacties oproepen, omdat het open source is en geen winstoogmerk heeft.

Project Gutenberg heeft tientallen jaren besteed aan het opbouwen van een opslagplaats van gratis literatuur in tekstformaat die overal gratis beschikbaar is, maar audioboeken kunnen dit materiaal toegankelijker maken. Audioboeken zijn nuttig voor lezers die autorijden, multitasken, visueel gehandicapt zijn, leren lezen of een nieuwe taal leren.

Bij het produceren van audioboeken op traditionele wijze gaat het erom dat je tijd en geld besteedt aan het door iemand laten lezen van het hele boek. Het is niet rendabel om handmatig een audioversie op te nemen van elk boek dat de moeite waard is om te lezen. Tekst-naar-spraaktechnologie paste beter bij Project Gutenberg. Onderzoekers worden echter geconfronteerd met meerdere obstakels bij het gebruik van hun machine learning-tools.

De eerste en belangrijkste kwestie is bepalen welke digitale boeken de software kan parseren. Project Gutenberg verzamelt materiaal in verschillende formaten, en veel van de bestanden bevatten fouten of onvolmaakte scans. Daarom concentreerden de onderzoekers zich op boeken die waren opgeslagen in het HTML-bestandsformaat en bouwden ze een tool (hierboven afgebeeld) om te ontdekken welke items een vergelijkbaar formaat vertoonden.

Een ander probleem dat de onderzoekers aanpakten, was ervoor te zorgen dat het systeem wist welke tekst het moest lezen of negeren. Het gaat om componenten zoals de inhoudsopgave, paginanummers, voetnoten, tabellen en ander vreemd materiaal.

Bovendien moet het resultaat voldoende dicht bij de natuurlijke menselijke spraak klinken. De onderzoekers concentreerden zich op de stemuitdrukkingen die het beste werken voor non-fictie en vertelling, maar gebruikers kunnen de software ook aanpassen om te experimenteren met dramatische lezingen.

De onderzoekers zijn van plan een demonstratie te houden waarmee gebruikers audioboeken met hun eigen stem kunnen genereren. Na het opnemen van een paar zinnen om het algoritme te trainen, kon elke deelnemer naar een voorbeeld luisteren voordat de software het hele boek las. Ze ontvangen ook een exemplaar van het audioboek via e-mail. Gebruikers kunnen kiezen uit gesynthetiseerde stemmen om elk audioboek aan te passen.

toegang:

Alibaba Cloud - Universele vouchers tot 1888 yuan onmiddellijk beschikbaar