Konferanse Språk og AI i Norden

Conference

Språkteknologi og KI i Norden | Language technologies and AI in the Nordic Countries

5.-6. November 2024

Dokkhuset, Trondheim


Linker til program

Foredragene foregikk hovedsakelig på skandinaviske språk, og noe på engelsk. | The talks were primarily held in Scandinavian languages, and few in English. 

I programmet finner en lenker til de ulike presentasjonene. | Links to the presentations can be found in the program.

Til programmet på skandinaviske språk

To the program in English


Arrangører

Arrangører

Konferansen arrangeres i samarbeid mellom ASTIN (Arbetsgruppen för språkteknologi i Norden) med medlemmene UiT, Språkrådet vid Institutet för språk och folkminnen, Dansk Sprognævn og Språkrådet, Norge.

 

 

 

 

 


Kontakt

Kontakt

ASTIN

NorwAI


Om konferansen

Om konferansen

Samfunnet rundt oss blir stadig mer digitalisert, og vi må sørge for at de nye løsningene som språkteknologi og kunstig intelligens kan tilby er tilgjengelig for alle språk i Norden.

ASTIN, i samarbeid med SFI NorwAI, arrangerer denne konferansen om språkteknologi for språkene i Norden med et mål om å fostre samarbeid på tvers av landegrenser og språk i Norden. Både sentrale, språkpolitisk viktige aktører og et interessert publikum inviteres til å delta (politikere, de nordiske språkbankene, språkråd og språkteknologibedrifter).

Språkteknologi er helt avgjørende for allmenn tilgjengelighet til informasjon og tjenester, samt inkludering i det digitale samfunnet. Det er et stort behov for å samle og styrke arbeidet med språkteknologi for de nordiske språkene nå som utviklingen på feltet virkelig har skutt fart. For majoritetsspråk innebærer det eksempelvis å forene krefter for å lage store språkmodeller for de nordiske språkene. For minoritetsspråk som ikke har nok data til å trene opp slike modeller, handler det om å utvikle språkteknologi ved bruk av alternative metoder, vanligvis helt uten kommersielle insentiver. I samarbeid med Småspråk i Norden-prosjektet har ASTIN tatt et nordisk initiativ for språkteknologi med målsetning om å styrke digitale inkludering av mindre språk i Norden.

Lansering av Borealium - ny språkteknologiportal for små språk i Norden.

På konferansen lanserer vi også den nye språkteknologiplattformen for små språk: Den samler språkteknologiske produkter, løsninger og ressurser for små språk i Norden i et publikumsvennlig format. Oppskrifter på hvordan man kan ta produktene i bruk skal være på et språk folk uten høy teknisk kompetanse kan  forstå, og på svært mange av de nordiske minoritetsspråkene.

Postere

Konferansen inviterer interesserte i å sende inn bidrag til poster-sesjonen 5. november, opp til ti vil bli aksepterte. Tema for postere bør være i samsvar med temaet for konferansen, men er ellers uten tematiske begrensninger. Aksepterte postere vil få en to minutters lynpresentasjon, og mulighet for publisering av en medfølgende artikkel i etterkant av konferansen. 

Frist for å sende inn postersammendrag er 15. oktober.

For mer informasjon, mal og lenk til innsendelse

Konferansen er del av et prosjekt finansiert av Nordisk Ministerråd.

 


About the conference

About the conference

Society is becoming increasingly digitized, and we must ensure that the new solutions that language technology and artificial intelligence can offer are available for all languages in the Nordics.

ASTIN, in collaboration with SFI NorwAI, organizes this conference on language technology for the languages of the Nordic region to foster cooperation across national borders and languages. Key actors in language policy and the interested public (e.g., politicians, the Nordic language banks, language boards, and language technology companies) are invited to participate.

Language technology is essential to access information and services and inclusion in the digital society. There is a substantial need to join and strengthen work on language technology for the Nordic languages now that development in the field has taken off. For majority languages, this means, among other things, mobilizing to create large language models for the Nordic languages. For minority languages that do not have enough data to train such models, it is about developing language technology using alternative methods, often without commercial incentives. In collaboration with the "Small Languages in the Nordics" project, ASTIN has developed a Nordic initiative for language technology that aims to strengthen digital inclusion of small languages.

Launch of Borealium - new language technology portal for small languages ​​in the Nordics

At the conference, we are also launching the new language technology platform for small languages: It brings together language technology products, solutions and resources for small languages ​​in the Nordics in an audience-friendly format. Recipes on how to use the products must be in a language that people without high technical competence can understand, and in many of the Nordic minority languages.

Posters

The conference invites interested parties to submit contributions to the poster session on 5 November, up to ten will be accepted. Themes for posters should be in accordance with the theme of the conference, but are otherwise without thematic restrictions. Accepted posters will receive a two-minute lightning presentation, and the possibility of publishing an accompanying article after the conference.

Deadline to submit poster abstracts is 15 October. 

For instructions, template and link to submission 

The conference is part of a project financed by the Nordic Council of Ministers.


Program (Nordisk)

Program (Nordisk)

 

5 November 2024 Program
08:30-09:00 Registrering
09:00-10:00

1. Språkteknologi og KI i samfunnet: Alle skal med - Nasjonalt ansvar?

Leder av sesjon: Kristine Eide (Språkrådet)

Lärande och generativa språkmodeller har under de senaste två åren utvecklats från ingenjörsexperiment till komponenter i konsumentprodukter. Denna utveckling kommer att fortsätta de kommande åren. Många tidigare språkteknologiska landvinningar har lämnats vid dikesrenen eftersom lärande statistiska språkmodeller enkelt hanterar mycket av det som varit svårt att representera i klassiska regel- och kunskapsbaserade modeller. Den optimism de språkteknologer som arbetade med statistiska modeller visat sedan femtiotalet visade sig vara mer än befogad. Genomslaget har varit större och plötsligare än väntat. Vad finns det då för frågor där språkvetenskapen kan bidra till för kommande generationer språkmodeller? Jag kommer gå igenom några sådana frågor i denna översikt.

10:00-10:20 Kaffepause
10:20-12:00

2. Språkteknologi på små språk - joda, den finnes! Smakebiter på språkteknolgi og hva som skal til for at den kan tas i bruk.

Leder av sesjon: Kristine Eide (Språkrådet) 

I fjor, i forbindelse med Islands formannskap i Nordisk Ministerråd, ble det dannet en gruppe for å utarbeide en rapport om statusen til nordiske minoritetsspråk, og språkene til øynasjoner i Norden, samt forsøke å identifisere mulige muligheter. for samarbeid. Rapporten, som ble publisert tidligere i år, følger opp ELE-rapportene publisert i 2022, med fokus på endringer i LT-landskapet siden de ble skrevet.

 

  • Sørsamisk talesynteseKatri Hiovain-Asikainen, Fonetiker (Divvun, UiT), Maja Lisa Kappfjell, ingeniør (Divvun, UiT)
  • Open Language - barrierar for å ta i bruk språkteknologi — Sjur Nørstebø Moshagen, Sjefsingeniør (Divvun, UiT)
  • Maskinomsetjing nordsamisk til norsk - regelbasert, hybrid eller rein LLM? - Trond Trosterud, Professor (Giellatekno, UiT)
  • Nylig fremgang i ASR og talemodeller for nordiske språk ved å bruke selvstyrt opplæring - Mikko Kurimo, Professor, Aalto-universitetet

In my talk I will describe the recent evaluation results of our new self-supervised models on conversational Finnish and Northern Sami ASR. We have pre-trained our models with raw untranscribed speech data in Finnish radio and television archives and fine-tuned them with transcribed data from public sources.

12:00-13:00 Lunch
13:00-14:30

3. Fortsettelse av «Språkteknologi for små språk» + panelsamtale

Leder av sesjon: Lars Bungum (NTNU)

Moa Frygell från SVT Minoritet diskuterar hur public service-företagen kan bidra till utvecklingen av språkteknologi för minoritetsspråk i Norden. Hon ger en inblick i SVT:s pågående arbete med dialekter, minoritetsspråk och teckenspråk, och utforskar hur dessa projekt kan stärka språklig mångfald och inkludering i regionen.

 

  • Innleiing: Sanning og forsoning: kva no? — Pia Lane, Professor (UiO)
  • Politisk panelsamtale med fokus på nordisk samarbeid. Panelansvarlig: Kristine Eide. Deltakere: Pia Lane,  (UiO), Beatrine Heilmann (Oqaasileriffik, Grønland), Mika Saijets (Giellagáldu, Finland/Noreg/Sverige), Elina Kangas (Isof)
14:30-14:45 Kaffepause
14:45-15:45

4. Posterpresentasjoner

Leder av sesjon: Lars Bungum (NTNU)

15:45-16:00 Oppsummering av dagen - Lars Bungum
19:00 ca

Konferansemiddag

Hævvi: Live-pod om samisk språkteknologi, ungdom og samisk språk


 

6 November 2024  
08:30-09:45

5. Språkteknologi og språkmodeller: Nordisk overføringsverdi

Leder av sesjon: Sjur Moshagen (UiT)

Stora språkmodeller är just nu på toppen av hypekurvan inom AI, med ständigt nya och allt kraftfullare modeller som produceras i en aldrig tidigare skådad takt. Denna utveckling drivs främst av privata företag med tillgång till betydande resurser, med modeller som oftast endast är tillgängliga via kommersiella API:er. Förra året såg vi en överraskande förändring av denna trend, med ett ökande antal modellutvecklare som släppte sina modeller öppet. Sådana öppna modeller blir alltmer kompetenta, vilket har lett till spekulationer huruvida öppna modeller snart kan komma att nå samma prestanda som de stängda kommersiella varianterna. Men hur står sig Norden och Europa i denna utveckling? Det här föredraget ger en kort översikt över den nuvarande utvecklingen av öppna LLM:er med särskilt fokus på de nordiska och europeiska modellerna. Kommer vi ikapp eller halkar vi efter?

09:45-10:00 Kaffepause
10:00-11:00

6. Flere smakebiter på språkteknologi og hvordan den bidrar til inkludering og deltaking 

Leder av sesjon: Sjur Moshagen

I Grønland er der et nyt politisk fokus på sprogteknologi og læsevanskeligheder i Grønland. Vi deler viden om det nye nationale tiltag om Ordblindhed og andre læsevanskeligheder. Hvad er sat i gang? Og hvilke sprogressourcer har vi i Grønland til rådighed for sådan et initiativ?

 

Mange ordblinde har svært ved at lære sammenhængen mellem bogstaver og sproglyde. Problemet kan afhjælpes med direkte og systematisk undervisning hvor eleverne træner med langsom progression, mulighed for gentagelse og individuel tilpasning. Undervisningen kræver tæt kontakt med en lærer, hvilket er en udfordring i den danske folkeskole som i forvejen mangler lærerkræfter. Læremidlet AiRO anvender sprogteknologi (bl.a. talesyntese) og er udviklet som et supplement til lærerundervisningen. AiRO er designet ud fra forskningsviden om den positive effekt af tidlig, intensiv og personlig staveundervisning.

 

11:00-12:00

7. Data, data, data: Språkressurser til språkteknologi og AI og nordisk overføringsverdi 

Leder av sesjon: Sjur Moshagen

Færøsk sprogteknologi er i rivende udvikling. Nye muligheder skaber samtidig udfordringer, og vi ser nærmere på færøsk navigation i sprogteknologisk farvand.

12:00-13:00 Lunsj
13:00-14:20

8. Infrastruktur

Leder av sesjon: Peter Juel Henrichsen (Dansk Sprognævn

  • Nye norske modellar 6 månader seinare: evaluering og erfaring -  Jon Atle Gulla, Professor og Direktør Norsk Forskningssenter for AI Innovasjon (NorwAI) (NTNU)
  • Borealium.org — portal for språkteknologiske verktøy og hjelpemidler for små, nordiske språk - Kristine Eide (Språkrådet) og Sjur Moshagen (Divvun, UiT)
  • En insiders syn: tillbakablick på det isländska språkteknologiprogrammet, Vésteinn Snæbjarnarson, PhD-stipendiat, Københavns universitet

För fem år sedan lanserades språkteknologiprogrammet för isländska, efter år av förberedelser. Detta initiativ har allmänt ansetts vara framgångsrikt. I det här föredraget kommer jag att ge en översikt över programmet och dela personliga insikter som en central bidragsgivare från Miðeind, en av de främsta deltagande organisationerna. Även om programmet har producerat många och olika artefakter, hävdar jag att dess viktigaste fördelar sträcker sig bortom dessa direkta resultat. Ett nyckelresultat har varit utbildningen av dussintals specialister i Natural Language Processing (NLP), med särskilt fokus på det isländska språket. Detta har katalyserat sekundära fördelar, såsom utveckling av nya produkter riktade till den allmänna befolkningen och flera samarbeten med offentliga institutioner och privata enheter. Bland dessa har Miðeinds partnerskap med OpenAI för att förbättra den isländska kapaciteten hos dess modeller väckt särskild uppmärksamhet. Genom denna presentation syftar jag till att visa hur investeringar i språkspecifik NLP-expertis kan ge långtgående effekter.

 

European Language Equality-rapportene fremhever ulik støtte for de fleste språk i Europa. Dette foredraget presenterer innsatser for å fremme og øke språkteknologistøtten for irsk, et minoritetsspråk og det offisielle språket i Irland. Vi fokuserer spesielt på eSTÓR-prosjektet, en plattform for å samle og kuratere språkressurser for opplæring av engelske<>irske MT-motorer.

14:20-14:45 Kaffepause
14:45-16:00

9. Panel

Leder av sesjon: Peter Juel Henrichsen (Dansk Sprognævn)

  • Panelsamtale om hvordan vi kan lære av hverandre (erfaringer, utfordringer) når man jobber med språkteknologi for små språk.
  • Avslutning på dagen - Peter Juel Henrichsen


 


Program (EN)

 Program (EN)

Please note that the majority of the talks will be held in Scandiavian languages. 

5 November 2024  
08:30-09:00 Registration
09:00-10:00

1. Language technology and AI in society: Everyone included - A national responsibility?

Session chair: Kristine Eide (Språkrådet)

Learning and generative language models have, in the past two years, evolved from engineering experiments to components in consumer products. This development will continue in the coming years. Many previous language technology achievements have been left by the wayside because learning statistical language models easily handle much of what has been difficult to represent in classical rule- and knowledge-based models. The optimism shown by language technologists working with statistical models since the fifties proved to be more than justified. The impact has been greater and more sudden than expected. What are the questions that linguistics can contribute to for future generations of language models? I will go through some such questions in this overview.

10:00-10:20 Coffee break
10:20-12:00

2. Language technology in small languages ​​- yes, it exists! Glimpses of language technology and what is needed for it to be put into use

Session chair: Kristine Eide (Språkrådet)

Last year, in relation to Iceland's presidency of the Nordic Council of Ministers, a group was formed to compile a report on the status of Nordic minority languages, and the languages of island nations in the Nordic region, as well as trying to identify possible opportunities for collaboration. The report, which was published earlier this year, follows up on the ELE reports published in 2022, focusing on changes in the LT landscape since they were written.

 

In my talk I will describe the recent evaluation results of our new self-supervised models on conversational Finnish and Northern Sami ASR. We have pre-trained our models with raw untranscribed speech data in Finnish radio and television archives and fine-tuned them with transcribed data from public sources.

12:00-13:00 Lunch
13:00-14:30

3. Continuation of "Language technology for small languages" + panel discussion

Session chair: Lars Bungum (NTNU)

Moa Frygell from SVT Minority discusses how public service companies can contribute to the develop

ment of language technology for minority languages ​​in the Nordics. She gives an insight into SVT's ongoing work with dialects, minority languages ​​and sign languages, and explores how these projects can strengthen linguistic diversity and inclusion in the region.

  • Introduction: Truth and Reconciliation: What now? — Pia Lane, Professor (UiO)
  • Political panel discussion with a focus on Nordic cooperation. Panel lead: Kristine Eide. Participants: Pia Lane,  (UiO), Beatrine Heilmann (The Greenland Language Council), Mika Saijets (Giellagáldu, Finland/Noreg/Sverige), Elina Kangas (Isof)
14:30-14:45 Coffee break
14:45-15:45

4. Poster presentations

Session chair: Lars Bungum (NTNU)

15:45-16:00 Summary of the day - Lars Bungum
19:00 ca

Conference dinner

Hævvi: Live-pod about Sami language technology, youth and sami language


 

6 November 2024  
08:30-09:45

5. Language technology and language models: Nordic transfer value

Session chair: Sjur Moshagen (UiT)

Large Language Models (LLMs) are currently at the top of the AI hype curve with new and increasingly powerful models being produced at an unprecedented pace. This development is mainly driven by private companies with access to substantial economic and computational resources, and models have as a result largely been kept proprietary and only made accessible via commercial APIs. Last year saw a surprising shift in this trend, with an increasing number of model developers releasing their models as open weight. Such open models are becoming increasingly competent, prompting some commentators to argue that the performance gap between proprietary and open models may be slowly closing. But how are the Nordics and Europe doing in this development? This talk presents a brief overview over the current developments of open LLMs with a special focus on the Nordic and European regions. Are we catching up, or are we lagging behind?

09:45-10:00 Coffee break
10:00-11:00

6. More samples of language technology and how it contributes to inclusion and participation 

Session chair: Sjur Moshagen (UiT)

In Greenland, there is a new political focus on language technology and reading difficulties in Greenland. We share knowledge about the new national initiative on Dyslexia and other reading difficulties. What is set in motion? And what language resources do we have available in Greenland for such an initiative?

 

Many dyslexics have difficulty learning the connection between letters and language sounds. The problem can be remedied with direct and systematic teaching where students train with slow progression, the possibility of repetition and individual adaptation. Teaching requires close contact with a teacher, which is a challenge in the Danish primary school, which already lacks teaching staff. The teaching aid AiRO uses language technology (including speech synthesis) and has been developed as a supplement to teacher training. AiRO is designed based on research knowledge about the positive effect of early, intensive and personal spelling instruction.

 

11:00-12:00

7. Data, data, data: Language resources for language technology and AI and Nordic transfer value 

Session chair: Sjur Moshagen (UiT)

Faroese language technology is developing rapidly. New opportunities create challenges at the same time, and we take a closer look at Faroese navigation in language technology waters.

 

 

12:00-13:00 Lunch
13:00-14:20

8. Infrastructure

Session chair: Peter Juel Henrichsen (Dansk Sprognævn) 

  • New Norwegian models 6 months on: evaluation and experiences - Jon Atle Gulla, Professor (NTNU) and Director, Norwegian Research Center for AI Innovation (NorwAI)
  • Borealium.org a portal for language technology tools and aids for small, Nordic languages - Kristine Eide (Språkrådet) og Sjur Moshagen (Divvun, UiT)
  • An Insider's View: Looking Back at the Icelandic Language Technology Programme - Vésteinn Snæbjarnarson, PhD Fellow (University of Copenhagen)

Five years ago, the language technology program for Icelandic was launched, following years of preparation. This initiative has been widely regarded as successful. In this talk, I will provide an overview of the program and share personal insights as a core contributor from Miðeind, one of the main participating organizations. While the program has produced numerous and diverse artifacts, I argue that its most significant benefits extend beyond these direct outputs. A key outcome has been the training of dozens of specialists in Natural Language Processing (NLP), with a specific focus on the Icelandic language. This has catalyzed secondary benefits, such as the development of new products aimed at the general population and multiple collaborations with public institutions and private entities. Among these, Miðeind's partnership with OpenAI to enhance the Icelandic capabilities of its models has garnered particular attention. Through this presentation, I aim to demonstrate how investing in language-specific NLP expertise can yield far-reaching impacts.

The European Language Equality reports highlight unequal support for most languages in Europe. This talk presents efforts to promote and increase language technology support for Irish, a minority language and the official language of Ireland. We focus particularly on the eSTÓR project, a platform for collecting and curating language resources for training English<>Irish MT engines.

14:20-14:45 Coffee break
14:45-16:00

9. Panel

Session chair: Peter Juel Henrichsen (Dansk Sprognævn) 

  • Panel discussion on how we can learn from each other (experiences, challenges) when working with language technology for small languages.
  • End of day - Peter Juel Henrichsen