Whisper postal odprtokoden


Prepoznavanje govora je eden večjih izzivov na področju umetne inteligence in strojnega učenja. Da bi reševanje steklo hitreje, je podjetje OpenAI odprlo izvorno kodo svojega sistema za samodejno prepoznavanje govora Whisper, ki po trditvah podjetja omogoča »robustno« transkripcijo v več jezikih in prevajanje iz teh jezikov v angleščino.

Na trgu je cela vrsta zelo zmogljivih sistemov za prepoznavanje govora, ki so jedro programske opreme in storitev tehnoloških velikanov, kot so Google, Amazon in Meta, sistem Whisper pa naj bi se od njih razlikoval po tem, da je bil usposobljen na 680.000 urah večjezičnih in »večopravilnih« podatkov, zbranih s spleta, kar naj bi omogočilo boljše prepoznavanje edinstvenih naglasov, šumov v ozadju in tehničnega žargona. Ker je bil sistem usposobljen na veliki količini »hrupnih« podatkov, OpenAI opozarja, da lahko Whisper v svoje prepise vključi besede, ki dejansko niso bile izrečene – morda zato, ker poskuša napovedati naslednjo besedo v zvoku in hkrati prepisati sam zvok.

»Čeprav modelov Whisper ni mogoče uporabiti za prepisovanje v realnem času, njegova hitrost in velikost nakazujeta, da bodo lahko drugi na njem gradili aplikacije, ki bodo omogočale prepoznavanje govora in prevajanje v skoraj realnem času,« pravi podjetje na GitHubu. »Dejanska vrednost koristnih aplikacij, zgrajenih na podlagi modelov Whisper nakazuje, da ima lahko različna zmogljivost teh modelov dejanske gospodarske posledice… Upamo, da bo tehnologija uporabljena predvsem v koristne namene, saj bi lahko večja dostopnost tehnologije za samodejno prepoznavanje govora omogočila več akterjem, da zgradijo sposobne nadzorne tehnologije ali povečajo obstoječa nadzorna prizadevanja, saj hitrost in natančnost omogočata cenovno dostopno samodejno prepisovanje in prevajanje velikih količin zvočne komunikacije.«

Več…

Comments are closed.