HONOR, azienda leader a livello mondiale nell’ecosistema dei dispositivi AI, ha annunciato il debutto del primo on-device large speech model su HONOR Magic V5
![]()
HONOR, azienda leader a livello mondiale nell’ecosistema dei dispositivi AI, ha annunciato il debutto del primo on-device large speech model su HONOR Magic V5. Questo risultato è la soluzione alle principali sfide tecniche nel campo del riconoscimento e della traduzione vocale multilingue sui dispositivi, tra cui i principali progressi nel riconoscimento vocale in streaming a bassa latenza e la distribuzione efficiente di modelli su larga scala.
A sostegno di questo progresso tecnologico, due ricerche correlate sono state premiate durante INTERSPEECH 2025, la più grande e completa conferenza mondiale sulla scienza e la tecnologia dell’elaborazione del linguaggio parlato.
Affrontare il dilemma della privacy e delle prestazioni.
Le attuali soluzioni di traduzione mainstream dipendono fortemente dall’infrastruttura cloud, sollevando notevoli problemi di privacy, soprattutto per le conversazioni sensibili come le telefonate. Sebbene alcune soluzioni esistenti sul mercato tentino di risolvere questo problema, spesso compromettono in modo significativo le prestazioni, tra cui la velocità, l’accuratezza e l’occupazione della memoria, a causa delle limitazioni dei dispositivi mobili. La nuova tecnologia di HONOR supera decisamente queste limitazioni, offrendo un’esperienza paragonabile a quella del cloud direttamente sul dispositivo, garantendo così una privacy solida e prestazioni superiori.
Sbloccare i vantaggi senza precedenti della comunicazione on-device.
Le soluzioni innovative di HONOR offrono una serie di vantaggi fondamentali per i consumatori. Raggiunge una drastica efficienza della memoria, riducendo l’ingombro da 3-4 GB a soli 800 MB, con un risparmio impressionante del 75% della memoria. Questo include l’integrazione di sei pacchetti linguistici (cinese, inglese, tedesco, francese, spagnolo e italiano), eliminando la necessità di sei download separati da 500 MB e risparmiando circa 2,78 GB di memoria. La tecnologia consente la traduzione in tempo reale “speak-as-you-go”, un progresso significativo rispetto ai metodi tradizionali che richiedono di attendere il completamento di un’intera frase, con un aumento del 38% della velocità di elaborazione e del 16% dell’accuratezza della traduzione.
INTERSPEECH 2025 convalida una ricerca innovativa
Il primo articolo della ricerca, “MFLA: Monotonic Finite Look-ahead Attention for Streaming Speech Recognition“, affronta la sfida cruciale di ottenere un riconoscimento vocale in streaming a bassa latenza e alta precisione sui dispositivi. L’innovativa integrazione di HONOR di un sensore basato su CIF (Continuous Integrate-and-Fire) con la strategia Wait-k è un punto di forza. Mentre le strategie Wait-k tradizionali funzionano bene per attività più semplici come la traduzione automatica, la loro applicazione diretta al riconoscimento vocale automatico (ASR) è limitata dalla natura continua del parlato, con conseguenti costi computazionali elevati. HONOR ha introdotto un predittore basato sul meccanismo CIF. Questo predittore mappa esplicitamente le caratteristiche acustiche continue alle decisioni di confine discrete richieste dalla strategia Wait-k, adattando con successo questo approccio a bassa latenza dal dominio del testo a quello del parlato.
Il secondo articolo, “Novel Parasitic Dual-Scale Modeling for Efficient and Accurate Multilingual Speech Translation“, supera i limiti dell’inferenza in tempo reale per discorsi di grandi dimensioni su dispositivi con risorse limitate. Questa caratteristica introduce una strategia di accelerazione del campionamento speculativo a doppia scala, sviluppata in collaborazione con la Shanghai Jiao Tong University, che può essere implementata su dispositivi edge e che consente di ottenere un aumento del 38% della velocità di inferenza senza compromettere le prestazioni del modello
Il secondo articolo, intitolato “Novel Parasitic Dual-Scale Modeling for Efficient and Accurate Multilingual Speech Translation”, supera i limiti dell’ interpretazione in tempo reale per modelli vocali di grandi dimensioni su dispositivi con risorse limitate. Questo articolo introduce la parasitic dual-scale speculative sampling acceleration strategy, sviluppata in collaborazione con l’Università Jiao Tong di Shanghai, che può essere implementata su dispositivi edge e consente di aumentare del 38% la velocità di inferenza senza compromettere le prestazioni del modello.
HONOR rimane fedele al suo impegno di spingere i confini dell’IA su dispositivo. Questa tecnologia innovativa apre la strada a interazioni uomo-dispositivo ancora più smart.