Tekstgjenkjenningsteknologi

Talegjenkjenning, enheters mulighet til å svare på talte kommandoer. Talegjenkjenning muliggjør håndfri kontroll av forskjellige enheter og utstyr (en spesiell velsignelse for mange funksjonshemmede), gir innspill til automatisk oversettelse og skaper utskriftsklar diktering. Blant de tidligste applikasjonene for talegjenkjenning var automatiserte telefonsystemer og medisinsk diktatprogramvare. Det brukes ofte til diktasjon, for spørring av databaser og for å gi kommandoer til databaserte systemer, spesielt i yrker som er avhengige av spesialiserte vokabularer. Det muliggjør også personlige assistenter i biler og smarttelefoner, for eksempel Apples Siri.

Før noen maskin kan tolke tale, må en mikrofon oversette vibrasjonene til en persons stemme til et bølgelignende elektrisk signal. Dette signalet konverteres igjen av systemets maskinvare - for eksempel datamaskinens lydkort - til et digitalt signal. Det er det digitale signalet som et talegjenkjenningsprogram analyserer for å gjenkjenne separate fonemer, de grunnleggende byggesteinene i tale. Fonetene blir deretter rekombinert til ord. Imidlertid lyder mange ord likt, og for å velge riktig ord, må programmet stole på konteksten. Mange programmer etablerer kontekst gjennom trigramanalyse, en metode som er basert på en database med hyppige tre-ords klynger der sannsynligheten er tilordnet at eventuelle to ord vil bli fulgt av et gitt tredje ord. For eksempel, hvis en høyttaler sier "hvem er jeg", blir neste ord gjenkjent som pronomenet "jeg" i stedet for det lignende, men mindre sannsynlige "øyet." Likevel er menneskelige inngrep noen ganger nødvendig for å rette opp feil.

Programmer for å gjenkjenne noen få isolerte ord, for eksempel telefonsamtaler, fungerer for nesten alle brukere. På den annen side må kontinuerlige taleprogrammer, for eksempel diktasjonsprogrammer, trenes for å gjenkjenne et individs talemønstre; trening innebærer at brukeren leser høyt utvalg av tekst. I dag, med den økende kraften til personlige datamaskiner og mobile enheter, har nøyaktigheten til talegjenkjenning blitt betydelig forbedret. Feilprosentene er redusert til omtrent 5 prosent i vokabularer som inneholder titusenvis av ord. Enda større nøyaktighet oppnås i begrensede vokabularer for spesialiserte applikasjoner som diktering av radiologiske diagnoser.