Språk og AI i Norden
Conference
Språkteknologi og KI i Norden | Language technologies and AI in the Nordic Countries
5.-6. November 2024
Dokkhuset, Trondheim
Foredragene foregikk hovedsakelig på skandinaviske språk, og noe på engelsk. | The talks were primarily held in Scandinavian languages, and few in English.
I programmet finner en lenker til de ulike presentasjonene. | Links to the presentations can be found in the program.
Til programmet på skandinaviske språk
To the program in English
Arrangører
Konferansen arrangeres i samarbeid mellom ASTIN (Arbetsgruppen för språkteknologi i Norden) med medlemmene UiT, Språkrådet vid Institutet för språk och folkminnen, Dansk Sprognævn og Språkrådet, Norge.
Kontakt
ASTIN
- Rickard Domeij, Språkrådet i Sverige
- Kristine Eide, Språkrådet i Norge
- Peter Juel Henrichsen, Dansk Sprognævn
- Sjur Nørstebø Moshagen, UiT Norges Arktiske Universitet
- Mikko Størdal, UiT Norges Arktiske Universitet
NorwAI
- Lars Bungum, NTNU
- Karolina Storesund, NTNU
Om konferansen
Samfunnet rundt oss blir stadig mer digitalisert, og vi må sørge for at de nye løsningene som språkteknologi og kunstig intelligens kan tilby er tilgjengelig for alle språk i Norden.
ASTIN, i samarbeid med SFI NorwAI, arrangerer denne konferansen om språkteknologi for språkene i Norden med et mål om å fostre samarbeid på tvers av landegrenser og språk i Norden. Både sentrale, språkpolitisk viktige aktører og et interessert publikum inviteres til å delta (politikere, de nordiske språkbankene, språkråd og språkteknologibedrifter).
Språkteknologi er helt avgjørende for allmenn tilgjengelighet til informasjon og tjenester, samt inkludering i det digitale samfunnet. Det er et stort behov for å samle og styrke arbeidet med språkteknologi for de nordiske språkene nå som utviklingen på feltet virkelig har skutt fart. For majoritetsspråk innebærer det eksempelvis å forene krefter for å lage store språkmodeller for de nordiske språkene. For minoritetsspråk som ikke har nok data til å trene opp slike modeller, handler det om å utvikle språkteknologi ved bruk av alternative metoder, vanligvis helt uten kommersielle insentiver. I samarbeid med Småspråk i Norden-prosjektet har ASTIN tatt et nordisk initiativ for språkteknologi med målsetning om å styrke digitale inkludering av mindre språk i Norden.
Lansering av Borealium - ny språkteknologiportal for små språk i Norden.
På konferansen lanserer vi også den nye språkteknologiplattformen for små språk: Den samler språkteknologiske produkter, løsninger og ressurser for små språk i Norden i et publikumsvennlig format. Oppskrifter på hvordan man kan ta produktene i bruk skal være på et språk folk uten høy teknisk kompetanse kan forstå, og på svært mange av de nordiske minoritetsspråkene.
Postere
Konferansen inviterer interesserte i å sende inn bidrag til poster-sesjonen 5. november, opp til ti vil bli aksepterte. Tema for postere bør være i samsvar med temaet for konferansen, men er ellers uten tematiske begrensninger. Aksepterte postere vil få en to minutters lynpresentasjon, og mulighet for publisering av en medfølgende artikkel i etterkant av konferansen.
Frist for å sende inn postersammendrag er 15. oktober.
For mer informasjon, mal og lenk til innsendelse
Konferansen er del av et prosjekt finansiert av Nordisk Ministerråd.
About the conference
Society is becoming increasingly digitized, and we must ensure that the new solutions that language technology and artificial intelligence can offer are available for all languages in the Nordics.
ASTIN, in collaboration with SFI NorwAI, organizes this conference on language technology for the languages of the Nordic region to foster cooperation across national borders and languages. Key actors in language policy and the interested public (e.g., politicians, the Nordic language banks, language boards, and language technology companies) are invited to participate.
Language technology is essential to access information and services and inclusion in the digital society. There is a substantial need to join and strengthen work on language technology for the Nordic languages now that development in the field has taken off. For majority languages, this means, among other things, mobilizing to create large language models for the Nordic languages. For minority languages that do not have enough data to train such models, it is about developing language technology using alternative methods, often without commercial incentives. In collaboration with the "Small Languages in the Nordics" project, ASTIN has developed a Nordic initiative for language technology that aims to strengthen digital inclusion of small languages.
Launch of Borealium - new language technology portal for small languages in the Nordics
At the conference, we are also launching the new language technology platform for small languages: It brings together language technology products, solutions and resources for small languages in the Nordics in an audience-friendly format. Recipes on how to use the products must be in a language that people without high technical competence can understand, and in many of the Nordic minority languages.
Posters
The conference invites interested parties to submit contributions to the poster session on 5 November, up to ten will be accepted. Themes for posters should be in accordance with the theme of the conference, but are otherwise without thematic restrictions. Accepted posters will receive a two-minute lightning presentation, and the possibility of publishing an accompanying article after the conference.
Deadline to submit poster abstracts is 15 October.
For instructions, template and link to submission
The conference is part of a project financed by the Nordic Council of Ministers.
Program (Nordisk)
5 November 2024 | Program |
---|---|
08:30-09:00 | Registrering |
09:00-10:00 |
1. Språkteknologi og KI i samfunnet: Alle skal med - Nasjonalt ansvar? Leder av sesjon: Kristine Eide (Språkrådet)
Lärande och generativa språkmodeller har under de senaste två åren utvecklats från ingenjörsexperiment till komponenter i konsumentprodukter. Denna utveckling kommer att fortsätta de kommande åren. Många tidigare språkteknologiska landvinningar har lämnats vid dikesrenen eftersom lärande statistiska språkmodeller enkelt hanterar mycket av det som varit svårt att representera i klassiska regel- och kunskapsbaserade modeller. Den optimism de språkteknologer som arbetade med statistiska modeller visat sedan femtiotalet visade sig vara mer än befogad. Genomslaget har varit större och plötsligare än väntat. Vad finns det då för frågor där språkvetenskapen kan bidra till för kommande generationer språkmodeller? Jag kommer gå igenom några sådana frågor i denna översikt. |
10:00-10:20 | Kaffepause |
10:20-12:00 |
2. Språkteknologi på små språk - joda, den finnes! Smakebiter på språkteknolgi og hva som skal til for at den kan tas i bruk. Leder av sesjon: Kristine Eide (Språkrådet)
I fjor, i forbindelse med Islands formannskap i Nordisk Ministerråd, ble det dannet en gruppe for å utarbeide en rapport om statusen til nordiske minoritetsspråk, og språkene til øynasjoner i Norden, samt forsøke å identifisere mulige muligheter. for samarbeid. Rapporten, som ble publisert tidligere i år, følger opp ELE-rapportene publisert i 2022, med fokus på endringer i LT-landskapet siden de ble skrevet.
In my talk I will describe the recent evaluation results of our new self-supervised models on conversational Finnish and Northern Sami ASR. We have pre-trained our models with raw untranscribed speech data in Finnish radio and television archives and fine-tuned them with transcribed data from public sources. |
12:00-13:00 | Lunch |
13:00-14:30 |
3. Fortsettelse av «Språkteknologi for små språk» + panelsamtale Leder av sesjon: Lars Bungum (NTNU)
Moa Frygell från SVT Minoritet diskuterar hur public service-företagen kan bidra till utvecklingen av språkteknologi för minoritetsspråk i Norden. Hon ger en inblick i SVT:s pågående arbete med dialekter, minoritetsspråk och teckenspråk, och utforskar hur dessa projekt kan stärka språklig mångfald och inkludering i regionen.
|
14:30-14:45 | Kaffepause |
14:45-15:45 |
4. Posterpresentasjoner Leder av sesjon: Lars Bungum (NTNU) |
15:45-16:00 | Oppsummering av dagen - Lars Bungum |
19:00 ca |
Konferansemiddag Hævvi: Live-pod om samisk språkteknologi, ungdom og samisk språk |
6 November 2024 | |
---|---|
08:30-09:45 |
5. Språkteknologi og språkmodeller: Nordisk overføringsverdi Leder av sesjon: Sjur Moshagen (UiT)
Stora språkmodeller är just nu på toppen av hypekurvan inom AI, med ständigt nya och allt kraftfullare modeller som produceras i en aldrig tidigare skådad takt. Denna utveckling drivs främst av privata företag med tillgång till betydande resurser, med modeller som oftast endast är tillgängliga via kommersiella API:er. Förra året såg vi en överraskande förändring av denna trend, med ett ökande antal modellutvecklare som släppte sina modeller öppet. Sådana öppna modeller blir alltmer kompetenta, vilket har lett till spekulationer huruvida öppna modeller snart kan komma att nå samma prestanda som de stängda kommersiella varianterna. Men hur står sig Norden och Europa i denna utveckling? Det här föredraget ger en kort översikt över den nuvarande utvecklingen av öppna LLM:er med särskilt fokus på de nordiska och europeiska modellerna. Kommer vi ikapp eller halkar vi efter? |
09:45-10:00 | Kaffepause |
10:00-11:00 |
6. Flere smakebiter på språkteknologi og hvordan den bidrar til inkludering og deltaking Leder av sesjon: Sjur Moshagen
I Grønland er der et nyt politisk fokus på sprogteknologi og læsevanskeligheder i Grønland. Vi deler viden om det nye nationale tiltag om Ordblindhed og andre læsevanskeligheder. Hvad er sat i gang? Og hvilke sprogressourcer har vi i Grønland til rådighed for sådan et initiativ?
Mange ordblinde har svært ved at lære sammenhængen mellem bogstaver og sproglyde. Problemet kan afhjælpes med direkte og systematisk undervisning hvor eleverne træner med langsom progression, mulighed for gentagelse og individuel tilpasning. Undervisningen kræver tæt kontakt med en lærer, hvilket er en udfordring i den danske folkeskole som i forvejen mangler lærerkræfter. Læremidlet AiRO anvender sprogteknologi (bl.a. talesyntese) og er udviklet som et supplement til lærerundervisningen. AiRO er designet ud fra forskningsviden om den positive effekt af tidlig, intensiv og personlig staveundervisning.
|
11:00-12:00 |
7. Data, data, data: Språkressurser til språkteknologi og AI og nordisk overføringsverdi Leder av sesjon: Sjur Moshagen
Færøsk sprogteknologi er i rivende udvikling. Nye muligheder skaber samtidig udfordringer, og vi ser nærmere på færøsk navigation i sprogteknologisk farvand.
|
12:00-13:00 | Lunsj |
13:00-14:20 |
8. Infrastruktur Leder av sesjon: Peter Juel Henrichsen (Dansk Sprognævn
För fem år sedan lanserades språkteknologiprogrammet för isländska, efter år av förberedelser. Detta initiativ har allmänt ansetts vara framgångsrikt. I det här föredraget kommer jag att ge en översikt över programmet och dela personliga insikter som en central bidragsgivare från Miðeind, en av de främsta deltagande organisationerna. Även om programmet har producerat många och olika artefakter, hävdar jag att dess viktigaste fördelar sträcker sig bortom dessa direkta resultat. Ett nyckelresultat har varit utbildningen av dussintals specialister i Natural Language Processing (NLP), med särskilt fokus på det isländska språket. Detta har katalyserat sekundära fördelar, såsom utveckling av nya produkter riktade till den allmänna befolkningen och flera samarbeten med offentliga institutioner och privata enheter. Bland dessa har Miðeinds partnerskap med OpenAI för att förbättra den isländska kapaciteten hos dess modeller väckt särskild uppmärksamhet. Genom denna presentation syftar jag till att visa hur investeringar i språkspecifik NLP-expertis kan ge långtgående effekter.
European Language Equality-rapportene fremhever ulik støtte for de fleste språk i Europa. Dette foredraget presenterer innsatser for å fremme og øke språkteknologistøtten for irsk, et minoritetsspråk og det offisielle språket i Irland. Vi fokuserer spesielt på eSTÓR-prosjektet, en plattform for å samle og kuratere språkressurser for opplæring av engelske<>irske MT-motorer. |
14:20-14:45 | Kaffepause |
14:45-16:00 |
9. Panel Leder av sesjon: Peter Juel Henrichsen (Dansk Sprognævn)
|
Program (EN)
Please note that the majority of the talks will be held in Scandiavian languages.
5 November 2024 | |
---|---|
08:30-09:00 | Registration |
09:00-10:00 |
1. Language technology and AI in society: Everyone included - A national responsibility? Session chair: Kristine Eide (Språkrådet)
Learning and generative language models have, in the past two years, evolved from engineering experiments to components in consumer products. This development will continue in the coming years. Many previous language technology achievements have been left by the wayside because learning statistical language models easily handle much of what has been difficult to represent in classical rule- and knowledge-based models. The optimism shown by language technologists working with statistical models since the fifties proved to be more than justified. The impact has been greater and more sudden than expected. What are the questions that linguistics can contribute to for future generations of language models? I will go through some such questions in this overview. |
10:00-10:20 | Coffee break |
10:20-12:00 |
2. Language technology in small languages - yes, it exists! Glimpses of language technology and what is needed for it to be put into use Session chair: Kristine Eide (Språkrådet)
Last year, in relation to Iceland's presidency of the Nordic Council of Ministers, a group was formed to compile a report on the status of Nordic minority languages, and the languages of island nations in the Nordic region, as well as trying to identify possible opportunities for collaboration. The report, which was published earlier this year, follows up on the ELE reports published in 2022, focusing on changes in the LT landscape since they were written.
In my talk I will describe the recent evaluation results of our new self-supervised models on conversational Finnish and Northern Sami ASR. We have pre-trained our models with raw untranscribed speech data in Finnish radio and television archives and fine-tuned them with transcribed data from public sources. |
12:00-13:00 | Lunch |
13:00-14:30 |
3. Continuation of "Language technology for small languages" + panel discussion Session chair: Lars Bungum (NTNU)
Moa Frygell from SVT Minority discusses how public service companies can contribute to the develop ment of language technology for minority languages in the Nordics. She gives an insight into SVT's ongoing work with dialects, minority languages and sign languages, and explores how these projects can strengthen linguistic diversity and inclusion in the region.
|
14:30-14:45 | Coffee break |
14:45-15:45 |
4. Poster presentations Session chair: Lars Bungum (NTNU) |
15:45-16:00 | Summary of the day - Lars Bungum |
19:00 ca |
Conference dinner Hævvi: Live-pod about Sami language technology, youth and sami language |
6 November 2024 | |
---|---|
08:30-09:45 |
5. Language technology and language models: Nordic transfer value Session chair: Sjur Moshagen (UiT)
Large Language Models (LLMs) are currently at the top of the AI hype curve with new and increasingly powerful models being produced at an unprecedented pace. This development is mainly driven by private companies with access to substantial economic and computational resources, and models have as a result largely been kept proprietary and only made accessible via commercial APIs. Last year saw a surprising shift in this trend, with an increasing number of model developers releasing their models as open weight. Such open models are becoming increasingly competent, prompting some commentators to argue that the performance gap between proprietary and open models may be slowly closing. But how are the Nordics and Europe doing in this development? This talk presents a brief overview over the current developments of open LLMs with a special focus on the Nordic and European regions. Are we catching up, or are we lagging behind? |
09:45-10:00 | Coffee break |
10:00-11:00 |
6. More samples of language technology and how it contributes to inclusion and participation Session chair: Sjur Moshagen (UiT)
In Greenland, there is a new political focus on language technology and reading difficulties in Greenland. We share knowledge about the new national initiative on Dyslexia and other reading difficulties. What is set in motion? And what language resources do we have available in Greenland for such an initiative?
Many dyslexics have difficulty learning the connection between letters and language sounds. The problem can be remedied with direct and systematic teaching where students train with slow progression, the possibility of repetition and individual adaptation. Teaching requires close contact with a teacher, which is a challenge in the Danish primary school, which already lacks teaching staff. The teaching aid AiRO uses language technology (including speech synthesis) and has been developed as a supplement to teacher training. AiRO is designed based on research knowledge about the positive effect of early, intensive and personal spelling instruction.
|
11:00-12:00 |
7. Data, data, data: Language resources for language technology and AI and Nordic transfer value Session chair: Sjur Moshagen (UiT)
Faroese language technology is developing rapidly. New opportunities create challenges at the same time, and we take a closer look at Faroese navigation in language technology waters.
|
12:00-13:00 | Lunch |
13:00-14:20 |
8. Infrastructure Session chair: Peter Juel Henrichsen (Dansk Sprognævn)
Five years ago, the language technology program for Icelandic was launched, following years of preparation. This initiative has been widely regarded as successful. In this talk, I will provide an overview of the program and share personal insights as a core contributor from Miðeind, one of the main participating organizations. While the program has produced numerous and diverse artifacts, I argue that its most significant benefits extend beyond these direct outputs. A key outcome has been the training of dozens of specialists in Natural Language Processing (NLP), with a specific focus on the Icelandic language. This has catalyzed secondary benefits, such as the development of new products aimed at the general population and multiple collaborations with public institutions and private entities. Among these, Miðeind's partnership with OpenAI to enhance the Icelandic capabilities of its models has garnered particular attention. Through this presentation, I aim to demonstrate how investing in language-specific NLP expertise can yield far-reaching impacts.
The European Language Equality reports highlight unequal support for most languages in Europe. This talk presents efforts to promote and increase language technology support for Irish, a minority language and the official language of Ireland. We focus particularly on the eSTÓR project, a platform for collecting and curating language resources for training English<>Irish MT engines. |
14:20-14:45 | Coffee break |
14:45-16:00 |
9. Panel Session chair: Peter Juel Henrichsen (Dansk Sprognævn)
|