Video er en fantastisk måte å nå ut til brukere på. For at videoen skal fungere for flest mulig, må den være universelt utformet. Det kan handle om mange forskjellige ting, men en av de viktigste er teksting. Bruk og produksjon av video har eksplodert de siste tiårene og derfor er teksting veldig viktig og nyttig for studentene til å søke og finne innhold i videomaterialet. Teksting er nødvendig for personer som ikke hører og dessuten velger flere og flere å se video uten lyd.

Store deler av UH-sektoren, inklusive UiT, har tatt i bruk verktøyet Panopto for opptak av video, strømming og annen kreering og lagring av video. Dette verktøyet har funksjonalitet for automatisk talegjenkjenning med tekstgenerering for norsk, engelsk og flere andre språk bokmål. Det arbeides nå for å utvikle tilsvarende kvalitet på talegjenkjenning med tekstgenerering for nordnorsk dialekt. Men hva med nordsamisk?

Result er tildelt prosjektmidler fra HK-dir (Direktoratet for høyere utdanning og kompetanse) til prosjektet: Fremskynde/videreføre arbeid med generering av tekst fra nordsamisk tale i video. Prosjektet skal gjennomføres i samarbeid med Institutt for språk og kultur og Senter for samiske studier. Direktoratet skriver i sitt vedtak: Selve prosjektet er samfunnsnyttig og er veldefinert; en ønsker å innhente arkivmateriale for å kunne transkribere og kvalitetssikre automatisk teksting av nordsamisk tale. Arbeidet vil være et solid tilskudd for å etablere nordsamisk talegjenkjenning og vil kunne stå selvstendig etter endt prosjektperiode.

Ved hjelp av maskinlæring kan systemet som Panopto «lære» automatisk talegjenkjenning og tekstgenerering gjennom å «mates» med store mengder video med tale som er korrekt transkribert. I Divvun-gruppa og Giellatekno ved Institutt for språk og kultur er det i gang et arbeid med å utvikle systemer for talegjenkjenning og generering av tekst fra nordsamisk tale. Det finnes allerede en prototype for dette formålet. En utfordring for å videreutvikle denne prototypen er at det kreves store mengder innlest og transkribert tale, og at (tale og) transkripsjon må være av høy kvalitet.

Prosjektmidlene skal brukes til å transkribere en betydelig mengde tale (eventuelt med video), fortrinnsvis basert på arkivmateriale fra NRK Sápmi. Det ferdigtranskriberte materialet vil gjøres tilgjengelig både for samarbeidet som er knyttet opp mot videreutvikling av Panopto, for Divvun-gruppa og Giellatekno ved Institutt for språk og kultur som arbeider med utvikling av talegjenkjenning og tekstgenerering fra nordsamisk tale, og for andre forskere og utviklere, uavhengig av samarbeidet med Panopto. Prosjektet skal være avsluttet innen utgangen av september 2023.