Google heeft een AI-systeem ontworpen dat muziek met een helderheid van 24kHz kan genereren op basis van louter een tekstuele beschrijving. Het machinelearningmodel kreeg een dataset van meer dan 280.000 uur aan muziek, waarmee het vrijwel elk instrument en genre kent. Google heeft een aantal voorbeelden van door de AI gegenereerde deuntjes gepubliceerd, maar laat het publiek niet zelf spelen met de mogelijkheden uit angst dat daarmee auteursrechten geschonden kunnen worden. De AI leert immers van auteursrechtelijk beschermde nummers.
MusicLM, zoals Google zijn model noemt, is niet de eerste AI die iets dergelijks kan; OpenAI (bekend van onder meer ChatGPT) heeft eerder al Jukebox getoond. Google beweert in diens onderzoekspaper (PDF) echter dat dit het eerste tekst-naar-muziekmodel is dat 'coherente liedjes kan genereren op basis van beschrijvingen van significante complexiteit'. Genoemde voorbeelden van dergelijke prompts zijn 'betoverend jazznummer met een memorabele saxofoonsolo en een solozanger' en 'Berlijnse '90s-techno met een lage, maar stevige bas'.
Daarnaast is het model ook in staat om langere beschrijvingen van meerdere zinnen om te zetten in muziek. Ook voor beschrijvingen die niet direct met muziek te maken hebben ('tijd om wakker te worden') kan MusicLM een bijbehorend deuntje tevoorschijn toveren. Het is tevens mogelijk om een sequentie van dergelijke beschrijvingen achter elkaar te plakken ('tijd om te hardlopen', 'tijd om er 100 procent voor te gaan', et cetera), zodat de muziek als het ware een verhaal vertelt.
Dat wil niet zeggen dat dit model geen limitaties kent. Er kan bijvoorbeeld nog geen coherente, menselijke zang geproduceerd worden. Zang klinkt dus nog erg synthetisch en is veelal onverstaanbaar. Ook werkt niet elk instrument even lekker: op de macaras moet MusicLM bijvoorbeeld nog even oefenen, aan het voorbeeld te horen.
Bronnen: Onderzoekspaper Google AI (PDF), Google Research