IBM CodeNet-dataset leert AI meer dan 55 computertalen spreken en vertalen

3 reacties

IBM publiceert een gespecialiseerde dataset, codenaam Project CodeNet, waarmee kunstmatige intelligentie kan leren om computercode automatisch te vertalen naar andere talen computercode, zo kondigt het bedrijf aan. Door middel van de omvangrijke dataset leert AI talen als Java en Python begrijpen en vertalen en kan zo potentieel geautomatiseerd problemen opsporen en verbeteren.

Project CodeNet bevat 14 miljoen segmenten, 500 miljoen individuele regels code verdeeld over meer dan 55 codeertalen, zowel talen in gebruik als 'legacy'-talen. Enkele van de hedendaagse talen die IBM noemt zijn Java, C++ en Python, maar ook oudere talen, waaronder COBOL, FORTRAN en Pascal. Naar eigen zeggen is de dataset "uniek in zijn grootte en schaal, maar ook  wat betreft de hoeveelheid hoge kwaliteit metadata." 


Foto via Unsplash 

In tegenstelling tot alternatieve AI-vertalers, maakt CodeNet het volgens IBM mogelijk om bijzonder onafhankelijk te opereren van de talen die ingevoerd worden. Voor het grootste gedeelte van de voorgeschotelde problemen, leert een kunstmatige intelligentie meer dan honderd verschillende oplossingen te verzinnen. Dat is mogelijk door meerdere grote ontwikkelingen van de afgelopen paar jaar, zo citeert Engadget tijdens de presentatie van de AI.

[Ontwikkelingen in kunstmatige intelligentie] wordt mogelijk gemaakt door deep neural networks. Dat is weer een product van drie grote factoren, namelijk de beschikbaarheid van grote datasets, innovaties binnen de wereld van algoritmes en de gigantische ontwikkelingen van steeds sneller wordende computer-hardware, aangedreven door gpu's.

Uiteindelijk is CodeNet volgens IBM een tool waarmee onderzoekers regression-onderzoeken (statistieke analyse van de relatie tussen variabelen) kunnen doen. Ook is het te gebruiker voor de ontwikkeling van AI die geautomatiseerd computercode leert schrijven, al ligt de focus voornamelijk op het automatisch opsporen en eventueel verbeteren van fouten in code. 

Uiteindelijk is CodeNet publiekelijk toegankelijk voor iedereen, zodat onderzoekers er wereldwijd mee aan de slag kunnen. Alles is beschikbaar via GitHub

Update 11-05-2021 (13:27): Het artikel suggereerde dat legacy-talen niet meer gebruikt worden. Dat terwijl veel (al dan niet verouderde systemen) eventueel nog wel op talen als COBOL draaien. Het bericht is daarop aangescherpt.

Bronnen: IBM, Engadget

« Vorig bericht Volgend bericht »
0
*