Torbjørn Karl Svendsen

About

For a complete CV, please use the link above ("CV")

Torbjørn Svendsen (1955) is a Professor at the Department of Electronic Systems. Professor Svendsen holds a MScEE, and a PhD both from the NTNU. He is an ISCA Fellow and IEEE Life Senior Member.

Fields of interest and present research activities

My research interests have from the outset in 1979 been speech signal processing. The first period was focused on source coding, i.e. speech compression, which was also the subject of my doctoral thesis. From the mid 80’s the research interests have been mainly on automatic speech recognition, but also areas like spoken dialogue systems and speech synthesis have been included in my research. Speech analysis methods and lexical modelling, e.g. pronunciation modelling have been two central areas. Realizing that current approaches to speech recognition seem to be nearing a saturation point in terms of performance, a major recent activity has been to investigate new paradigms for speech recognition, aiming to integrate phonetic and linguistic knowledge in a statistical framework based on detection of (language universal) phonetic features. Lately, the challenges of reliable recognition of children's speech and transcription of conversational, accented and dialectal speech have been central in my research.

Work experience

NTNU (1979-1981 Research assistant, 1983-1984 doctoral fellowship, 1988-1995 Associate professor, 1995-present Professor), Director NTNU Digital (2015-2021)
SINTEF (1981-1987, Research scientist)
Research visits at AT&T Bell Labs, Murray Hill, NJ (1986-1987, 1990); Griffith University, Brisbane, Australia (1996-97); AT&T Labs, Florham Park, NJ (2000); Queensland University of Technology, Brisbane, Australia (2002-03); Computer Science and Artificial Intelligence Lab, Massachusetts Institute of Technology, Cambridge, MA (2013); Delft University of Technology (2022); Kore University of Enna, Italy (2023)

Professional merits

Peer review and professional evaluation work:

Reviewer for international journals like IEEE Transactions (Communications; Signal Processing; Audio, Speech and Language Processing; Multimedia); EURASIP Journal on Applied Signal Processing, Signal, Image and Video Processing; and Speech Communication, and various conferences and workshops on speech and signal processing.
Member of Speech Communication journal Editorial Board
Reviewer for EU's Language Engineering program and the Information Society Research Programme of the Academy of Finland. Project reviews for the Norwegian, Australian, Swiss, Dutch, Belgian and South African Research Councils
Opponent/member of examination boards for 26 doctoral theses

Membership in academic and professional committees

Various appointments at the national level, e.g. in the Research Council of Norway, incl. grant committee member for the IKTPLUSS program, program board chair for the VERDIKT program, and in the Norwegian Language Council.
Member of advisory board, Norwegian Language Bank (“Språkbanken”)
Member of Technical committees, Eurospeech2001 and Interspeech2012, and organizing committee of Eurospeech2001.
Life Senior Member, IEEE
Member, Signal Processing Society Speech Technical Committee (1998-2001)
Elected member, Norwegian Academy of Technological Sciences
ISCA Fellow
Board of International Speech Communication Association (ISCA) (Member 2015-2017, Vice President 2017-2021, Board Secretary 2021-2023)

Other professional merits

Project manager, "Atomic Units for Language Universal Speech" (current), "Spoken dialog systems for telephony"; "Speech interfaces and reasoning systems"; "Norwegian corpus for language technology"; “Voice centric user interfaces for location based services”; “Tools for realistic speech synthesis in”; “Spoken Information Retrieval by Knowledge Utilization in Statistical Speech Processing”; “Rundkast – A transcribed broadcast news for applications in language technology”(past projects).
Vice chair, COST action 278; WG chair COST actions 232 and 249; Advisory Scientific Board member, EU project ACORNS; Board member, Nordic Graduate School of Language Technology (former actions and activities)
Previous NTNU appointments: Department Head, Department of Telecommunications; Vice Dean, Faculty of Electrical Engineering and Telecommunications; member of several NTNU committees
19 PhD students graduated (3 as co-supervisor). Currently supervising 5 PhD students.
~100 Master degree students graduated
>100 papers in international journals and conferences

Research

Publications

2024

Olstad, Anne Marte Haug; Smolander, Anna; Strömbergsson, Sofia; Ylinen, Sari; Lehtonen, Minna; Kurimo, Mikko. (2024) Collecting Linguistic Resources for Assessing Children’s Pronunciation of Nordic Languages. Proceedings of LREC
Academic article
Cao, Xinwei; Fan, Zijian; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2024) A Framework for Phoneme-Level Pronunciation Assessment Using CTC. Interspeech
Academic article
Fan, Zijian; Cao, Xinwei; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2024) Towards Better Recognition of Spontaneous Children's Speech: Speaker-Clustering Fine-Tuning of Whisper. Machine Learning for Signal Processing
Academic article
La Quatra, Moreno; Turco, Maria Francesca; Svendsen, Torbjørn Karl; Salvi, Giampiero; Orozco-Arroyave, Juan Rafael; Siniscalchi, Sabato Marco. (2024) Exploiting Foundation Models and Speech Enhancement for Parkinson’s Disease Detection from Speech in Real-World Operative Conditions. Interspeech
Academic article
Kynych, Frantisek; Cerva, Petr; Zdansky, Jindrich; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2024) A lightweight approach to real-time speaker diarization: from audio toward audio-visual data streams. EURASIP Journal on Audio, Speech, and Music Processing
Academic article

2023

Rugayan, Janine Lizbeth Cabrera; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2023) Perceptual and Task-Oriented Assessment of a Semantic Metric for ASR Evaluation. Interspeech (USB)
Academic article
Cao, Xinwei; Fan, Zijian; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2023) An Analysis of Goodness of Pronunciation for Child Speech. Interspeech
Academic article
Gelderblom, Femke Berre; Myrvoll, Tor Andre; Svendsen, Torbjørn Karl. (2023) Evaluating Performance Metrics for Deep Neural Network-based Speech Enhancement Systems. Doctoral theses at NTNU (53)
Doctoral dissertation
Solberg, Per Erik; Ortiz Cabello, Pablo; Parsons, Phoebe; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2023) Improving Generalization of Norwegian ASR with Limited Linguistic Resources. University of Tartu
Academic chapter/article/Conference paper
Gelderblom, Femke Berre; Tronstad, Tron Vedul; Svendsen, Torbjørn Karl; Myrvoll, Tor Andre. (2023) On the Predictive Power of Objective Intelligibility Metrics for the Subjective Performance of Deep Complex Convolutional Recurrent Speech Enhancement Networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP)
Academic article
Fan, Zijian; Cao, Xinwei; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2023) Using Modified Adult Speech as Data Augmentation for Child Speech Recognition. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Parsons, Phoebe; Kvale, Knut; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2023) A character-based analysis of impacts of dialects on end-to-end Norwegian ASR. University of Tartu
Academic chapter/article/Conference paper
Getman, Yaroslav; Phan, Nhan; Al-Ghezi, Ragheb; Voskoboinik, Ekaterina; Singh, Mittul; Grosz, Tamas. (2023) Developing an AI-Assisted Low-Resource Spoken Language Learning App for Children. IEEE Access
Academic article

2022

Kvale, Knut; Gulla, Jon Atle; Adde, Line; Solberg, Per Erik; Svendsen, Torbjørn Karl; Moshagen, Sjur Nørstebø. (2022) Taleteknologi og kunstig intelligens. Teknologirådet
Report
Rugayan, Janine Lizbeth Cabrera; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2022) Semantically Meaningful Metrics for Norwegian ASR Systems. Interspeech (USB)
Academic article
Getman, Yaroslav; Al-Ghezi, Ragheb; Voskoboinik, Ekaterina; Grósz, Tamás; Kurimo, Mikko; Salvi, Giampiero. (2022) wav2vec2-based Speech Rating System for Children with Speech Sound Disorder. Interspeech (USB)
Academic article

2021

Sabzi Shahrebabaki, Abdolreza; Siniscalchi, Sabato Marco; Svendsen, Torbjørn Karl. (2021) Raw Speech-to-Articulatory Inversion by Temporal Filtering and Decimation. Interspeech
Academic article
Sabzi Shahrebabaki, Abdolreza; Salvi, Giampiero; Svendsen, Torbjørn Karl; Siniscalchi, Sabato Marco. (2021) Acoustic-to-Articulatory Mapping With Joint Optimization of Deep Speech Enhancement and Articulatory Inversion Models. IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP)
Academic article
Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Imran, Ali Shariq; Johnsen, Magne Hallstein; Siniscalchi, Sabato Marco; Svendsen, Torbjørn Karl. (2021) A Two-Stage Deep Modeling Approach to Articulatory Inversion. IEEE (Institute of Electrical and Electronics Engineers)
Academic chapter/article/Conference paper
Sabzi Shahrebabaki, Abdolreza; Siniscalchi, Sabato Marco; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2021) A DNN Based Speech Enhancement Approach to Noise Robust Acoustic-to-Articulatory Inversion. IEEE (Institute of Electrical and Electronics Engineers)
Academic chapter/article/Conference paper

2020

Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Siniscalchi, Sabato Marco; Salvi, Giampiero; Svendsen, Torbjørn. (2020) Transfer learning of articulatory information through phone information. Interspeech (USB)
Academic article
Sabzi Shahrebabaki, Abdolreza; Siniscalchi, Marco; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2020) Sequence-to-sequence articulatory inversion through time convolution of sub-band frequency signals. Interspeech (USB)
Academic article

2019

Imran, Ali Shariq; Haflan, Vetle; Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Svendsen, Torbjørn Karl. (2019) Evaluating Acoustic Feature Maps in 2D-CNN for Speaker Identification. Association for Computing Machinery (ACM)
Academic chapter/article/Conference paper
Imran, Ali Shariq; Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Svendsen, Torbjørn Karl. (2019) A Study on the Performance Evaluation of Machine Learning Models for Phoneme Classification. Association for Computing Machinery (ACM)
Academic chapter/article/Conference paper
Sabzi Shahrebabaki, Abdolreza; Imran, Ali Shariq; Olfati, Negar; Svendsen, Torbjørn Karl. (2019) A Comparative Study of Deep Learning Techniques on Frame-Level Speech Data Classification. Circuits, systems, and signal processing
Academic article
Imran, Ali Shariq; Kastrati, Zenun; Svendsen, Torbjørn Karl; Kurti, Arianit. (2019) Text-Independent Speaker ID for Automatic Video Lecture Classification Using Deep Learning. Association for Computing Machinery (ACM)
Academic chapter/article/Conference paper
Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Imran, Ali Shariq; Sabato Marco, Siniscalchi; Svendsen, Torbjørn Karl. (2019) A Phonetic-Level Analysis of Different Input Features for Articulatory Inversion. Interspeech (USB)
Academic article

2018

Sabzi Shahrebabaki, Abdolreza; Imran, Ali Shariq; Olfati, Negar; Svendsen, Torbjørn Karl. (2018) Acoustic Feature Comparison for Different Speaking Rates. Springer
Academic chapter/article/Conference paper

2015

Svendsen, Torbjørn Karl; Hamar, Jarle Bauck. (2015) Combining NdHMM and Phonetic Feature Detection for Speech Recognition.
Academic chapter/article/Conference paper
Næss, Arild Brandrud; Svendsen, Torbjørn Karl; Livescu, Karen. (2015) Nearest Neighbor Frame Classification for Articulatory Speech Recognition. Norges teknisk-naturvitenskapelige universitet Doktoravhandlinger ved NTNU (24)
Doctoral dissertation

2014

Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2014) An artificial neural network approach to automatic speech processing. Neurocomputing
Academic article
Soufifar, Mehdi; Svendsen, Torbjørn; Burget, Lukas. (2014) Subspace Modeling of Discrete features for Language Recognition. NTNU-trykk
Doctoral dissertation

2013

Hamar, Jarle Bauck; Doddipatla, Rama Sanand; Svendsen, Torbjørn; Sreenivas, Thippur. (2013) Non-Negative Durational HMM. IEEE Signal Processing Society
Academic chapter/article/Conference paper
Doddipatla, Rama Sanand; Svendsen, Torbjørn. (2013) Synthetic Speaker Models Using VTLN to Improve the Performance of Children in Mismatched Speaker Conditions for ASR. Interspeech (USB)
Academic article

2012

Svendsen, Torbjørn. (2012) Data med barnestemme. Forskning.no
Interview Journal
Siniscalchi, Sabato Marco; Reed, Jeremy; Svendsen, Torbjørn; Lee, Chin-Hui. (2012) Universal attribute characterization of spoken languages for automatic spoken language recognition. Computer Speech and Language
Academic article
Siniscalchi, Sabato Marco; Lyu, DC; Svendsen, Torbjørn; Lee, CH. (2012) Experiments on Cross-Language Attribute Detection and Phone Recognition With Minimal Target-Specific Training Data. IEEE Transactions on Audio, Speech, and Language Processing
Academic article

2011

Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2011) A Bottom-Up Stepwise Knowledge-Integration Approach to Large Vocabulary Continuous Speech Recognition Using Weighted Finite State Machines. Interspeech
Academic article
Skogstad, Trond; Svendsen, Torbjørn. (2011) Frequency-Warped and Stabilized Time-Varying Cepstral Coefficients. Interspeech
Academic article
Adde, Line; Svendsen, Torbjørn. (2011) Pronunciation Variation Modeling of Non-Natie Proper Names by Discriminative Tree Search. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Soufifar, Mehdi; Kockmann, Marcel; Burget, Lukas; Plchot, Oldrich; Glembek, Ondrej; Svendsen, Torbjørn. (2011) iVector Approach to Phonotactic Language Recognition. Interspeech
Academic article
Kvale, Knut; Nordgård, Torbjørn; Svendsen, Torbjørn; Lyse, Gunn Inger; Gjesdal, Anje Müller. (2011) Datamaskinen må skjønne norsk. Bergens Tidende
Feature article

2010

Adde, Line; Svendsen, Torbjørn. (2010) A Comparative Analysis of Discriminative and Non-Discriminative Pronunciation Priors in Pronunciation Variation Modeling. IEEE Signal Processing Society
Other
Saeidi, Rahim; Soufifar, Mehdi; Kinnunen, Tomi; Svendsen, Torbjørn; Fränti, Pasi. (2010) UEF-NTNU System Description for Albayzin 2010 Language Recognition Evaluation.
Other
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2010) A Survey on Recent Progress in the ASAT/SIRKUS Paradigm. IEEE conference proceedings
Other
Adde, Line; Svendsen, Torbjørn. (2010) NameDat: A Database of English Proper Names Spoken by Native Norwegians. European Language Resources Association
Academic chapter/article/Conference paper
Sikveland, Rein Ove; Öttl, Anton; Amdal, Ingunn; Ernestus, Mirjam; Svendsen, Torbjørn; Edlund, Jens. (2010) Spontal-N: A Corpus of Interactional Spoken Norwegian. European Language Resources Association
Other
Adde, Line; Reveil, Bert; Martens, Jean-Pierre; Svendsen, Torbjørn. (2010) A Minimum Classification Error Approach to Pronunciation Variation Modeling of Non-Native Proper Names. Interspeech
Academic article
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Sorbello, Filippo; Lee, Chin-Hui. (2010) Experimental Studies on Continuous Speech Recognition Using Neural Architectures with ‘Adaptive’ Hidden Activation Functions. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Siniscalchi, Sabato Marco; Reed, Jeremy; Svendsen, Torbjørn; Lee, Chin-Hui. (2010) Exploiting Context-Dependency and Acoustic Resolution of Universal Speech Attribute Models in Spoken Language Recognition. Interspeech
Academic article
Skogstad, Trond; Svendsen, Torbjørn. (2010) Intra-Frame Variability As a Predictor of Frame Classifiability. Interspeech
Academic article

2009

Siniscalchi, Sabato Marco; Reed, Jeremy; Svendsen, Torbjørn; Lee, Chin-Hui. (2009) Exploring Universal Attribute Characterization of Spoken Languages for Spoken Language Recognition. Interspeech
Academic article
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2009) A Phonetic Feature Based Lattice Rescoring Approach to LVCSR. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Mertens, Timo Pascal; Schneider, Daniel; Næss, Arild Brandrud; Svendsen, Torbjørn. (2009) Lexicon Adaptation for Subword Speech Recognition. IEEE Signal Processing Society
Academic chapter/article/Conference paper

2008

Siniscalchi, Sabato Marco; Svendsen, Torbjørn; lee, chin-hui. (2008) A Penalized Logistic Regression Approach to Detection Based Phone Classification. Interspeech
Academic article
Amdal, Ingunn; Strand, Ole Morten; Almberg, Jørn; Svendsen, Torbjørn. (2008) RUNDKAST: An Annotated Norwegian Broadcast News Speech Corpus. European Language Resources Association
Academic chapter/article/Conference paper
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; lee, chin-hui. (2008) Toward a Detector-Based Universal Phone Recognizer.
Other
Skogstad, Trond; Svendsen, Torbjørn. (2008) Time-Varying Cepstral Coefficients.
Other
Siniscalchi, Sabato Marco; Birkenes, Øystein; Johnsen, Magne Hallstein; Svendsen, Torbjørn. (2008) Joint Optimization of Event Detectors and Evidence Merger for Continuous Speech Recognition.
Other

2007

Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2007) Towards Bottom-Up Continuous Phone Recognition. IEEE Signal Processing Society
Academic chapter/article/Conference paper

2006

Amdal, Ingunn; Svendsen, Torbjørn. (2006) FonDat1: A Speech Synthesis Corpus for Norwegian. European Language Resources Association
Academic chapter/article/Conference paper
Amdal, Ingunn; Johnsen, Magne Hallstein; Svendsen, Torbjørn. (2006) Log Likelihood Ratio Based Annotation Verification of a Norwegian Speech Synthesis Database. IEEE conference proceedings
Academic chapter/article/Conference paper

2005

Amdal, Ingunn; Svendsen, Torbjørn. (2005) Unit Selection Synthesis Database Development Using Utterance Verification. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article
Svendsen, Torbjørn; Amdal, Ingunn; Bjørkan, Ingmund; Meen, Dyre; Heggtveit, Per Olav; Natvig, Jon Emil. (2005) FONEMA - Tools for realistic speech synthesis in Norwegian. Tapir Akademisk Forlag
Academic chapter/article/Conference paper
Meen, Dyre; Svendsen, Torbjørn; Natvig, Jon-Emil. (2005) Improving Phone Label Alignment Accuracy by Utilizing Voicing Information.
Academic chapter/article/Conference paper
Svendsen, Torbjørn; Egeberg, Andreas; Holter, Trym; Skogstad, Trond. (2005) VOCALS - Voice centric user interfaces for location based services. Tapir Akademisk Forlag
Academic chapter/article/Conference paper
Bjørkan, Ingmund; Svendsen, Torbjørn; Farner, Snorre. (2005) Comparing Spectral Distance Measures for Join Cost Optimization in Concatenative Speech Synthesis. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article
Bjørkan, Ingmund; Svendsen, Torbjørn. (2005) Comparing Spectral Distance Measures for Join Cost Optmization. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article
Skogstad, Trond; Svendsen, Torbjørn. (2005) Distributed ASR Using Speech Coder Data for Efficient Feature Vector Representation. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article

2004

Nordgård, Torbjørn; Svendsen, Torbjørn; Harborg, Erik; Kvale, Knut. (2004) Language Technology Towards 2020.
Academic chapter/article/Conference paper

2003

Svendsen, Torbjørn. (2003) Speech Technology: Past, Present and Future. Telektronikk
Academic article

2002

Nordgård, Torbjørn; Svendsen, Torbjørn; Natvig, Jon Emil. (2002) Talsmann talesyntese som hjelpemiddel for dyslektikere. Telenor Communication AS
Report
Nordgård, Torbjørn; Svendsen, Torbjørn; Breivik, Torbjørg. (2002) Samling og tilgjengeleggjering av norske språkteknologiressursar. Norsk språkråd
Report
Svendsen, Torbjørn. (2002) Roles for Speech And Language Technology in The Information Society. Tampere University Press
Academic chapter/article/Conference paper

2001

Svendsen, Torbjørn. (2001) Nordisk forskningssamarbeid innen språkteknologi. Språknytt
Popular scientific article

2000

Foldvik, Arne Kjell; Nordgård, Torbjørn; Svendsen, Torbjørn; Thygesen, Ragnar. (2000) Dysleksi og språkteknologi. Adresseavisen
Feature article
Amdal, Ingunn; Holter, Trym; Svendsen, Torbjørn. (2000) Modellering av uttalevariasjon for automatisk talegjenkjenning. Nordlyd
Academic article

1999

Holter, Trym; Svendsen, Torbjørn. (1999) Maximum likelihood modelling of pronunciation variation. Speech Communication
Academic article
Svendsen, Torbjørn. (1999) Taleteknologi. Språk i Norden
Academic article
Svendsen, Torbjørn; Johnsen, Magne Hallstein; Nordgård, Torbjørn; Hofland, Knut; Hofland, Knut; Ore, Christian Emil. (1999) Nasjonalt korpus for språkteknologi - forprosjekt. Norges forskningsråd Norges forskningsråd
Report

1998

Svendsen, Torbjørn. (1998) Blir norsk gresk for språkteknologien?. Språknytt
Academic article

1995

Harborg, Erik; Johnsen, Magne Hallstein; Svendsen, Torbjørn. (1995) Talegjenkjenning for teksting av direktesendte programmer - en studie. SINTEF DELAB
Report
Harborg, Erik; Johnsen, Magne Hallstein; Svendsen, Torbjørn. (1995) Talegjenkjenning II. SINTEF DELAB
Report

1994

Svendsen, Torbjørn. (1994) Talebaserte brukergrensesnitt. NORSIGnalet : organ for NORSIG, Norsk forening for signalbehandling
Popular scientific article

Journal publications

Olstad, Anne Marte Haug; Smolander, Anna; Strömbergsson, Sofia; Ylinen, Sari; Lehtonen, Minna; Kurimo, Mikko. (2024) Collecting Linguistic Resources for Assessing Children’s Pronunciation of Nordic Languages. Proceedings of LREC
Academic article
Cao, Xinwei; Fan, Zijian; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2024) A Framework for Phoneme-Level Pronunciation Assessment Using CTC. Interspeech
Academic article
Fan, Zijian; Cao, Xinwei; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2024) Towards Better Recognition of Spontaneous Children's Speech: Speaker-Clustering Fine-Tuning of Whisper. Machine Learning for Signal Processing
Academic article
La Quatra, Moreno; Turco, Maria Francesca; Svendsen, Torbjørn Karl; Salvi, Giampiero; Orozco-Arroyave, Juan Rafael; Siniscalchi, Sabato Marco. (2024) Exploiting Foundation Models and Speech Enhancement for Parkinson’s Disease Detection from Speech in Real-World Operative Conditions. Interspeech
Academic article
Kynych, Frantisek; Cerva, Petr; Zdansky, Jindrich; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2024) A lightweight approach to real-time speaker diarization: from audio toward audio-visual data streams. EURASIP Journal on Audio, Speech, and Music Processing
Academic article
Rugayan, Janine Lizbeth Cabrera; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2023) Perceptual and Task-Oriented Assessment of a Semantic Metric for ASR Evaluation. Interspeech (USB)
Academic article
Cao, Xinwei; Fan, Zijian; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2023) An Analysis of Goodness of Pronunciation for Child Speech. Interspeech
Academic article
Gelderblom, Femke Berre; Tronstad, Tron Vedul; Svendsen, Torbjørn Karl; Myrvoll, Tor Andre. (2023) On the Predictive Power of Objective Intelligibility Metrics for the Subjective Performance of Deep Complex Convolutional Recurrent Speech Enhancement Networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP)
Academic article
Fan, Zijian; Cao, Xinwei; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2023) Using Modified Adult Speech as Data Augmentation for Child Speech Recognition. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Getman, Yaroslav; Phan, Nhan; Al-Ghezi, Ragheb; Voskoboinik, Ekaterina; Singh, Mittul; Grosz, Tamas. (2023) Developing an AI-Assisted Low-Resource Spoken Language Learning App for Children. IEEE Access
Academic article
Rugayan, Janine Lizbeth Cabrera; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2022) Semantically Meaningful Metrics for Norwegian ASR Systems. Interspeech (USB)
Academic article
Getman, Yaroslav; Al-Ghezi, Ragheb; Voskoboinik, Ekaterina; Grósz, Tamás; Kurimo, Mikko; Salvi, Giampiero. (2022) wav2vec2-based Speech Rating System for Children with Speech Sound Disorder. Interspeech (USB)
Academic article
Sabzi Shahrebabaki, Abdolreza; Siniscalchi, Sabato Marco; Svendsen, Torbjørn Karl. (2021) Raw Speech-to-Articulatory Inversion by Temporal Filtering and Decimation. Interspeech
Academic article
Sabzi Shahrebabaki, Abdolreza; Salvi, Giampiero; Svendsen, Torbjørn Karl; Siniscalchi, Sabato Marco. (2021) Acoustic-to-Articulatory Mapping With Joint Optimization of Deep Speech Enhancement and Articulatory Inversion Models. IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP)
Academic article
Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Siniscalchi, Sabato Marco; Salvi, Giampiero; Svendsen, Torbjørn. (2020) Transfer learning of articulatory information through phone information. Interspeech (USB)
Academic article
Sabzi Shahrebabaki, Abdolreza; Siniscalchi, Marco; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2020) Sequence-to-sequence articulatory inversion through time convolution of sub-band frequency signals. Interspeech (USB)
Academic article
Sabzi Shahrebabaki, Abdolreza; Imran, Ali Shariq; Olfati, Negar; Svendsen, Torbjørn Karl. (2019) A Comparative Study of Deep Learning Techniques on Frame-Level Speech Data Classification. Circuits, systems, and signal processing
Academic article
Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Imran, Ali Shariq; Sabato Marco, Siniscalchi; Svendsen, Torbjørn Karl. (2019) A Phonetic-Level Analysis of Different Input Features for Articulatory Inversion. Interspeech (USB)
Academic article
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2014) An artificial neural network approach to automatic speech processing. Neurocomputing
Academic article
Doddipatla, Rama Sanand; Svendsen, Torbjørn. (2013) Synthetic Speaker Models Using VTLN to Improve the Performance of Children in Mismatched Speaker Conditions for ASR. Interspeech (USB)
Academic article
Svendsen, Torbjørn. (2012) Data med barnestemme. Forskning.no
Interview Journal
Siniscalchi, Sabato Marco; Reed, Jeremy; Svendsen, Torbjørn; Lee, Chin-Hui. (2012) Universal attribute characterization of spoken languages for automatic spoken language recognition. Computer Speech and Language
Academic article
Siniscalchi, Sabato Marco; Lyu, DC; Svendsen, Torbjørn; Lee, CH. (2012) Experiments on Cross-Language Attribute Detection and Phone Recognition With Minimal Target-Specific Training Data. IEEE Transactions on Audio, Speech, and Language Processing
Academic article
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2011) A Bottom-Up Stepwise Knowledge-Integration Approach to Large Vocabulary Continuous Speech Recognition Using Weighted Finite State Machines. Interspeech
Academic article
Skogstad, Trond; Svendsen, Torbjørn. (2011) Frequency-Warped and Stabilized Time-Varying Cepstral Coefficients. Interspeech
Academic article
Adde, Line; Svendsen, Torbjørn. (2011) Pronunciation Variation Modeling of Non-Natie Proper Names by Discriminative Tree Search. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Soufifar, Mehdi; Kockmann, Marcel; Burget, Lukas; Plchot, Oldrich; Glembek, Ondrej; Svendsen, Torbjørn. (2011) iVector Approach to Phonotactic Language Recognition. Interspeech
Academic article
Kvale, Knut; Nordgård, Torbjørn; Svendsen, Torbjørn; Lyse, Gunn Inger; Gjesdal, Anje Müller. (2011) Datamaskinen må skjønne norsk. Bergens Tidende
Feature article
Adde, Line; Reveil, Bert; Martens, Jean-Pierre; Svendsen, Torbjørn. (2010) A Minimum Classification Error Approach to Pronunciation Variation Modeling of Non-Native Proper Names. Interspeech
Academic article
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Sorbello, Filippo; Lee, Chin-Hui. (2010) Experimental Studies on Continuous Speech Recognition Using Neural Architectures with ‘Adaptive’ Hidden Activation Functions. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Siniscalchi, Sabato Marco; Reed, Jeremy; Svendsen, Torbjørn; Lee, Chin-Hui. (2010) Exploiting Context-Dependency and Acoustic Resolution of Universal Speech Attribute Models in Spoken Language Recognition. Interspeech
Academic article
Skogstad, Trond; Svendsen, Torbjørn. (2010) Intra-Frame Variability As a Predictor of Frame Classifiability. Interspeech
Academic article
Siniscalchi, Sabato Marco; Reed, Jeremy; Svendsen, Torbjørn; Lee, Chin-Hui. (2009) Exploring Universal Attribute Characterization of Spoken Languages for Spoken Language Recognition. Interspeech
Academic article
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2009) A Phonetic Feature Based Lattice Rescoring Approach to LVCSR. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing
Academic article
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; lee, chin-hui. (2008) A Penalized Logistic Regression Approach to Detection Based Phone Classification. Interspeech
Academic article
Amdal, Ingunn; Svendsen, Torbjørn. (2005) Unit Selection Synthesis Database Development Using Utterance Verification. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article
Bjørkan, Ingmund; Svendsen, Torbjørn; Farner, Snorre. (2005) Comparing Spectral Distance Measures for Join Cost Optimization in Concatenative Speech Synthesis. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article
Bjørkan, Ingmund; Svendsen, Torbjørn. (2005) Comparing Spectral Distance Measures for Join Cost Optmization. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article
Skogstad, Trond; Svendsen, Torbjørn. (2005) Distributed ASR Using Speech Coder Data for Efficient Feature Vector Representation. Eurospeech : Proceedings of the European Conference on Speech Communication and Technology
Academic article
Svendsen, Torbjørn. (2003) Speech Technology: Past, Present and Future. Telektronikk
Academic article
Svendsen, Torbjørn. (2001) Nordisk forskningssamarbeid innen språkteknologi. Språknytt
Popular scientific article
Foldvik, Arne Kjell; Nordgård, Torbjørn; Svendsen, Torbjørn; Thygesen, Ragnar. (2000) Dysleksi og språkteknologi. Adresseavisen
Feature article
Amdal, Ingunn; Holter, Trym; Svendsen, Torbjørn. (2000) Modellering av uttalevariasjon for automatisk talegjenkjenning. Nordlyd
Academic article
Holter, Trym; Svendsen, Torbjørn. (1999) Maximum likelihood modelling of pronunciation variation. Speech Communication
Academic article
Svendsen, Torbjørn. (1999) Taleteknologi. Språk i Norden
Academic article
Svendsen, Torbjørn. (1998) Blir norsk gresk for språkteknologien?. Språknytt
Academic article
Svendsen, Torbjørn. (1994) Talebaserte brukergrensesnitt. NORSIGnalet : organ for NORSIG, Norsk forening for signalbehandling
Popular scientific article

Part of book/report

Solberg, Per Erik; Ortiz Cabello, Pablo; Parsons, Phoebe; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2023) Improving Generalization of Norwegian ASR with Limited Linguistic Resources. University of Tartu
Academic chapter/article/Conference paper
Parsons, Phoebe; Kvale, Knut; Svendsen, Torbjørn Karl; Salvi, Giampiero. (2023) A character-based analysis of impacts of dialects on end-to-end Norwegian ASR. University of Tartu
Academic chapter/article/Conference paper
Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Imran, Ali Shariq; Johnsen, Magne Hallstein; Siniscalchi, Sabato Marco; Svendsen, Torbjørn Karl. (2021) A Two-Stage Deep Modeling Approach to Articulatory Inversion. IEEE (Institute of Electrical and Electronics Engineers)
Academic chapter/article/Conference paper
Sabzi Shahrebabaki, Abdolreza; Siniscalchi, Sabato Marco; Salvi, Giampiero; Svendsen, Torbjørn Karl. (2021) A DNN Based Speech Enhancement Approach to Noise Robust Acoustic-to-Articulatory Inversion. IEEE (Institute of Electrical and Electronics Engineers)
Academic chapter/article/Conference paper
Imran, Ali Shariq; Haflan, Vetle; Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Svendsen, Torbjørn Karl. (2019) Evaluating Acoustic Feature Maps in 2D-CNN for Speaker Identification. Association for Computing Machinery (ACM)
Academic chapter/article/Conference paper
Imran, Ali Shariq; Sabzi Shahrebabaki, Abdolreza; Olfati, Negar; Svendsen, Torbjørn Karl. (2019) A Study on the Performance Evaluation of Machine Learning Models for Phoneme Classification. Association for Computing Machinery (ACM)
Academic chapter/article/Conference paper
Imran, Ali Shariq; Kastrati, Zenun; Svendsen, Torbjørn Karl; Kurti, Arianit. (2019) Text-Independent Speaker ID for Automatic Video Lecture Classification Using Deep Learning. Association for Computing Machinery (ACM)
Academic chapter/article/Conference paper
Sabzi Shahrebabaki, Abdolreza; Imran, Ali Shariq; Olfati, Negar; Svendsen, Torbjørn Karl. (2018) Acoustic Feature Comparison for Different Speaking Rates. Springer
Academic chapter/article/Conference paper
Svendsen, Torbjørn Karl; Hamar, Jarle Bauck. (2015) Combining NdHMM and Phonetic Feature Detection for Speech Recognition.
Academic chapter/article/Conference paper
Hamar, Jarle Bauck; Doddipatla, Rama Sanand; Svendsen, Torbjørn; Sreenivas, Thippur. (2013) Non-Negative Durational HMM. IEEE Signal Processing Society
Academic chapter/article/Conference paper
Adde, Line; Svendsen, Torbjørn. (2010) A Comparative Analysis of Discriminative and Non-Discriminative Pronunciation Priors in Pronunciation Variation Modeling. IEEE Signal Processing Society
Other
Saeidi, Rahim; Soufifar, Mehdi; Kinnunen, Tomi; Svendsen, Torbjørn; Fränti, Pasi. (2010) UEF-NTNU System Description for Albayzin 2010 Language Recognition Evaluation.
Other
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2010) A Survey on Recent Progress in the ASAT/SIRKUS Paradigm. IEEE conference proceedings
Other
Adde, Line; Svendsen, Torbjørn. (2010) NameDat: A Database of English Proper Names Spoken by Native Norwegians. European Language Resources Association
Academic chapter/article/Conference paper
Sikveland, Rein Ove; Öttl, Anton; Amdal, Ingunn; Ernestus, Mirjam; Svendsen, Torbjørn; Edlund, Jens. (2010) Spontal-N: A Corpus of Interactional Spoken Norwegian. European Language Resources Association
Other
Mertens, Timo Pascal; Schneider, Daniel; Næss, Arild Brandrud; Svendsen, Torbjørn. (2009) Lexicon Adaptation for Subword Speech Recognition. IEEE Signal Processing Society
Academic chapter/article/Conference paper
Amdal, Ingunn; Strand, Ole Morten; Almberg, Jørn; Svendsen, Torbjørn. (2008) RUNDKAST: An Annotated Norwegian Broadcast News Speech Corpus. European Language Resources Association
Academic chapter/article/Conference paper
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; lee, chin-hui. (2008) Toward a Detector-Based Universal Phone Recognizer.
Other
Skogstad, Trond; Svendsen, Torbjørn. (2008) Time-Varying Cepstral Coefficients.
Other
Siniscalchi, Sabato Marco; Birkenes, Øystein; Johnsen, Magne Hallstein; Svendsen, Torbjørn. (2008) Joint Optimization of Event Detectors and Evidence Merger for Continuous Speech Recognition.
Other
Siniscalchi, Sabato Marco; Svendsen, Torbjørn; Lee, Chin-Hui. (2007) Towards Bottom-Up Continuous Phone Recognition. IEEE Signal Processing Society
Academic chapter/article/Conference paper
Amdal, Ingunn; Svendsen, Torbjørn. (2006) FonDat1: A Speech Synthesis Corpus for Norwegian. European Language Resources Association
Academic chapter/article/Conference paper
Amdal, Ingunn; Johnsen, Magne Hallstein; Svendsen, Torbjørn. (2006) Log Likelihood Ratio Based Annotation Verification of a Norwegian Speech Synthesis Database. IEEE conference proceedings
Academic chapter/article/Conference paper
Svendsen, Torbjørn; Amdal, Ingunn; Bjørkan, Ingmund; Meen, Dyre; Heggtveit, Per Olav; Natvig, Jon Emil. (2005) FONEMA - Tools for realistic speech synthesis in Norwegian. Tapir Akademisk Forlag
Academic chapter/article/Conference paper
Meen, Dyre; Svendsen, Torbjørn; Natvig, Jon-Emil. (2005) Improving Phone Label Alignment Accuracy by Utilizing Voicing Information.
Academic chapter/article/Conference paper
Svendsen, Torbjørn; Egeberg, Andreas; Holter, Trym; Skogstad, Trond. (2005) VOCALS - Voice centric user interfaces for location based services. Tapir Akademisk Forlag
Academic chapter/article/Conference paper
Nordgård, Torbjørn; Svendsen, Torbjørn; Harborg, Erik; Kvale, Knut. (2004) Language Technology Towards 2020.
Academic chapter/article/Conference paper
Svendsen, Torbjørn. (2002) Roles for Speech And Language Technology in The Information Society. Tampere University Press
Academic chapter/article/Conference paper

Report

Gelderblom, Femke Berre; Myrvoll, Tor Andre; Svendsen, Torbjørn Karl. (2023) Evaluating Performance Metrics for Deep Neural Network-based Speech Enhancement Systems. Doctoral theses at NTNU (53)
Doctoral dissertation
Kvale, Knut; Gulla, Jon Atle; Adde, Line; Solberg, Per Erik; Svendsen, Torbjørn Karl; Moshagen, Sjur Nørstebø. (2022) Taleteknologi og kunstig intelligens. Teknologirådet
Report
Næss, Arild Brandrud; Svendsen, Torbjørn Karl; Livescu, Karen. (2015) Nearest Neighbor Frame Classification for Articulatory Speech Recognition. Norges teknisk-naturvitenskapelige universitet Doktoravhandlinger ved NTNU (24)
Doctoral dissertation
Soufifar, Mehdi; Svendsen, Torbjørn; Burget, Lukas. (2014) Subspace Modeling of Discrete features for Language Recognition. NTNU-trykk
Doctoral dissertation
Nordgård, Torbjørn; Svendsen, Torbjørn; Natvig, Jon Emil. (2002) Talsmann talesyntese som hjelpemiddel for dyslektikere. Telenor Communication AS
Report
Nordgård, Torbjørn; Svendsen, Torbjørn; Breivik, Torbjørg. (2002) Samling og tilgjengeleggjering av norske språkteknologiressursar. Norsk språkråd
Report
Svendsen, Torbjørn; Johnsen, Magne Hallstein; Nordgård, Torbjørn; Hofland, Knut; Hofland, Knut; Ore, Christian Emil. (1999) Nasjonalt korpus for språkteknologi - forprosjekt. Norges forskningsråd Norges forskningsråd
Report
Harborg, Erik; Johnsen, Magne Hallstein; Svendsen, Torbjørn. (1995) Talegjenkjenning for teksting av direktesendte programmer - en studie. SINTEF DELAB
Report
Harborg, Erik; Johnsen, Magne Hallstein; Svendsen, Torbjørn. (1995) Talegjenkjenning II. SINTEF DELAB
Report

Teaching

Courses

TT8108 - PhD Seminar in Signal Processing

Outreach