Klara
Klara

Vad är det för kvalitet på automatisk tal till text-teknik?

Utvecklingen av AI och tal till text-teknik har gått i raketfart de senaste åren. Men starten var trög. Den som använde Siri i början av 2000-talet känner sig troligtvis skeptisk till om tekniken verkligen fungerar.

För att mäta teknikens prestanda mäts precision och hastighet. Det vanligaste sättet att mäta detta kallas WER (Word Error Rate).

Siffran visar hur många procent av orden som blir fel. Idag räknar man med att WER för engelskt tal ligger på ca 5%.

 

voice.001

Utmaningen: känna igen naturligt tal

De första röstassistenterna programmerades till att kunna utläsa svaret på enkla frågor. Du har säkert stött på dessa när du stått i telefonkö till en kundtjänst. Problemet med dessa är att de inte kan utläsa naturligt tal.

Rösten i telefonen kanske frågar: “Vad gäller ditt ärende?”

Om du svarar “Fakturor” så funkar det fint.

Men så ser inte alltid verkligheten ut. Du kanske snarare svarar något i stil med:

“Öee, jag fick något brev från er förra månaden… och eh... jag minns inte... men jag vet inte ens om jag är kund hos er jag har för mig att jag har fortum… ja och nu hittar jag inte brevet och blev lite nojig om det var något jag skulle betala...”

Detta blir ju helt klart svårare att programmera.

 

Lösningen: maskininlärning och AI

Maskininlärning går ut på att utveckla maskinens förmåga att självständigt förstå och hantera stora mängder data.

Genom algoritmer lär sig programvaran att tolka och lära sig utifrån data. Sedan kan datorn förutse mönster.

Flummigt? Ja! Men du behöver faktiskt inte fatta så mycket av vad maskininlärning och AI egentligen är. Det enda du behöver förstå är: 

maskininlärning + mer data = smartare datorer

wer-2.001

Talmediebevakningens precision genom tiderna. Siffrorna är hämtade från officiella rapporter. 

 

När maskininlärning fick inverkan på tal till text-teknik förbättrades tekniken markant. Och sedan dess har det gått snabbt.

 

Hur precis är tekniken i Sverige?

Som du kanske förstått blir tekniken för röstigenkänning smartare för varje dag. Även på svenska. Idag finns inga konkreta siffror på detta.

Vi har däremot gjort ett antal icke-vetenskapliga tester på vår egen teknik. 

Våra slutsatser:

  • Dialekter är inget problem.
  • Det kan vara svårt att få träffar på ovanliga namn eller företag som sällan omnämns.
  • Bäst resultat från nyhetssändningar eftersom nyhetsuppläsare inte tenderar att tala i mun på varandra.
  • Svårt att utläsa musik från tal.
  • Tekniken har förbättrats markant sedan början av 2018

 

Hur står sig mediebevakning med automatisk taligenkänning, mot den gamla manuella talmediebevakningen?

Det är lätt att vilseledas och tänka att manuell bevakning automatiskt har 100% träffsäkerhet, eftersom den görs av människor. Människor kan väl inte göra fel – Eller? Nix negapol! Även människor missar ord här och där, visar det sig.

 

old.003

Dåtidens manuella mediebevakning av ljud.

I ett jämförande test mot etablerad talmediebevakning körde vi samma sökord i båda konkurrerande systemen.

 

Resultatet av testet:

  • Signal Signal plockade upp samtliga träffar som människorna hittade.
  • Vi hittade dessutom mer än tio gånger fler träffar därtill (vår källista är ju mycket större än våra manuella konkurrenters).