ORL.news

HOME \ AGGIORNAMENTI \ AUDIOPROTESI \

Un innovativo sistema di soppressione selettiva del rumore di fondo si è dimostrato in grado di ripristinare l’intelligibilità del parlato negli utilizzatori di apparecchi acustici al livello dei soggetti con udito normale.

Nonostante l’ampia diffusione dell’ipoacusia, anche debilitante, e le importanti conseguenze di questa condizione, circa 8 persone su 10 non utilizzano apparecchi acustici anche se potrebbero trarne beneficio. La principale motivazione riferita è la difficoltà di distinguere le parole in situazioni di rumore circostante.

Le tecniche di riduzione del rumore applicate negli apparecchi acustici si basano sul beamforming, che migliora l’intelligibilità del parlato in caso di sorgenti frontali in un contesto di rumore di fondo prevalentemente non frontale. Mentre gli algoritmi di riduzione del rumore non spaziale, a singolo microfono, hanno dimostrato una bassa efficacia nel migliorare l’intelligibilità del parlato nel rumore, le tecniche di denoising basate sul deep-learning hanno fornito risultati incoraggianti in alcuni studi recenti condotti negli utilizzatori di apparecchi acustici e impianti cocleari con ipoacusia severa.

Un gruppo di ricerca tedesco ha sviluppato un algoritmo basato sul deep-learning che consente di sopprimere selettivamente il rumore di fondo mantenendo i segnali vocali, e ripristinando l’intelligibilità del parlato.

Un nuovo algoritmo di denoising

Il sistema di riduzione del rumore di fondo si basa su una rete di denoising con architettura U-Net, addestrata su decine di migliaia di ore di parlato nel rumore con l’obiettivo di migliorare il segnale vocale e mascherare il rumore di fondo indesiderato.

Per riprodurre meglio la percezione acustica umana, le prestazioni della rete sono state valutate utilizzando una nuova metrica basata sul deep-learning, ed è stata ottimizzata tramite un algoritmo per la ricerca di un’architettura in grado di migliorare il più possibile la qualità del parlato nel rumore, guidata dalla metrica definita.

Per guidare l’algoritmo di ricerca delle architetture sono stati utilizzati i punteggi medi di opinione (MOS), che approssimano con buona affidabilità la percezione umana della qualità di quanto prodotto da un algoritmo. I ricercatori hanno raccolto circa 100.000 MOS, e hanno addestrato una rete neurale per prevedere il MOS in base a un campione di segnale rumoroso, sottoposto a denoising e pulito; il MOS previsto è stato utilizzato per guidare l’algoritmo di ricerca evolutiva. La ricerca dell’architettura neurale è proseguita fino a quando il miglioramento delle prestazioni si è stabilizzato; a questo punto i ricercatori hanno addestrato la rete con le migliori prestazioni con l’equivalente di oltre 2 anni di audio, in un processo di addestramento di oltre 2.000 passi. Al termine della procedura, le prestazioni dell’architettura individuata dalla ricerca sono risultate superiori del 30% rispetto a quelle delle migliori architetture di partenza.

Migliorare l’intelligibilità vocale

L’algoritmo di denoising sviluppato è stato confrontato con i modelli più avanzati basati sul deep-learning (Sound of Silence, Demucs e MHANet), utilizzando tre dataset di prova esistenti e altri due creati appositamente a partire da un dataset pubblico di parlato (VOXCeleb) e di rumore (WHAM!), con l’obiettivo di avere a disposizione una maggiore varietà di speaker, di tipi di rumore e di valori di rapporto segnale-rumore (SNR).

Sono state raccolti i MOS per gli stessi campioni sonori in caso di parlato nel rumore, parlato migliorato dall’algoritmo di denoising e parlato migliorato dai modelli di confronto. Il sistema di denoising sviluppato ha ottenuto punteggi MOS migliori rispetto ai modelli di confronto su tutti i dataset, per un’ampia gamma di valori di SNR; i miglioramenti sono risultati particolarmente significativi per l’intervallo SNR compreso tra -5 e 0 dB, a fronte di risultati limitati per gli altri modelli.

Per valutare l’effetto del sistema di denoising sull’intelligibilità vocale, i ricercatori hanno usato il test Oldenburger Satz (OLSA), che misura la soglia individuale di discriminazione del parlato (SRT) in termini di valore SNR al quale una persona identifica correttamente il 50% delle parole. Sono state sottoposte a test 12 condizioni, con diverse tipologie di rumore, con e senza sistema di denoising e in ascoltatori normoudenti o ipoacusici con apparecchi acustici.

In assenza di soppressione del rumore di fondo, i soggetti ipoacusici presentavano un valore mediano di SRT per il rumore OLSA di -3,3 dB, rispetto a -5,8 dB per i soggetti normoudenti. Con il sistema di denoising, il valore mediano presentava variazioni comprese tra -3,5 e -2,8 dB in base al tipo di rumore considerato.

In particolare, per il rumore OLSA, l’introduzione del sistema di denoising porta il valore mediano di SRT dei soggetti ipoacusici a -6 dB SNR, cioè a livelli paragonabili a quelli degli ascoltatori normoacusici. Per tutti e tre i tipi di rumore, inoltre, gli SRT non sono significativamente diversi tra i soggetti normoudenti senza soppressione del rumore e gli utilizzatori di apparecchi acustici con sistema di denoising.

Prospettive incoraggianti

«Questo sistema di denoising consente agli utilizzatori di apparecchi acustici di raggiungere livelli di intelligibilità del parlato nel rumore paragonabili a quelli degli ascoltatori normoudenti, con risultati simili in tutti gli ambienti rumorosi» commentano gli autori della ricerca. «I sistemi di denoising basati sul deep-learning potrebbero quindi facilitare il miglioramento dell’udito indipendentemente dalla direzione spaziale del suono ed essere utili non solo per i soggetti ipoacusici, ma anche per le persone con udito normale che desiderino ridurre il rumore di fondo in situazioni rumorose, come per esempio ristoranti o bar affollati».

Reference

Diehl PU, Singer Y, Zilly H, et al. Restoring speech intelligibility for hearing aid users with deep learning. Sci Rep. 2023 Feb 15;13(1):2719.

04 Giugno 2024
Autore: 1951

Un algoritmo basato sul deep-learning migliora l’intelligibilità vocale nel rumore

Un innovativo sistema di soppressione selettiva del rumore di fondo si è dimostrato in grado di ripristinare l’intelligibilità del parlato negli utilizzatori di apparecchi acustici al livello dei soggetti con udito normale.

Un nuovo algoritmo di denoising

Migliorare l’intelligibilità vocale

Prospettive incoraggianti

Reference