人民網
人民網>>安徽頻道>>人民日報看安徽>>游儀

在國家智能語音創新中心看民企活力——

“創新鏈產業鏈深度融合,步伐更快”(經濟新方位·支持民營經濟發展)

本報記者 游 儀
2023年05月10日08:06 | 來源:人民網-人民日報
小字號

《 人民日報 》( 2023年05月10日   第 02 版)

《 人民日報 》( 2023年05月10日 第 02 版)

制圖:沈亦伶

制圖:沈亦伶

  企業是科技創新的主體。習近平總書記強調:“有能力、有條件的民營企業要加強自主創新,在推進科技自立自強和科技成果轉化中發揮更大作用。”

  越來越多的民營企業創新步伐不斷加快,成為推動經濟高質量發展的重要力量。在安徽合肥,記者走進國家智能語音創新中心。這是工業和信息化部2021年批復組建的4家國家制造業創新中心之一,由科大訊飛牽頭,依托合肥智能語音創新發展有限公司,國內10多家智能語音企業和科研院所聯手組建而成。中心與企業聯動,充分發揮科技創新驅動作用,不斷促進創新鏈產業鏈深度融合,為生產生活帶來更多想象空間。

  助生產提質增效——

  “智能耳朵”將質檢效率提高2/3

  浙江捷昌線性驅動科技股份有限公司主營電機生產。“在傳統工業場景中,電機設備一旦出現故障,發出異常聲音,通常都是經驗豐富的老師傅用耳朵聽,來判斷故障點。”公司新昌生產基地生產總監張巍峰介紹:“我們實現了電機在流水線組裝完成后,通過聲紋質檢系統檢測採集產品運轉數據。”

  一款系統,如何通過聲音識別產品質量?

  靜音房中,電機運轉,嗡嗡聲響接連不斷﹔顯示屏上,聲紋起伏,數據被採集捕捉﹔存在故障,通過數據分析,維修點位隨即可以確定。一直以來,張巍峰都在琢磨怎樣通過機器“聽音”提高質檢效率,“自個兒摸索兩三年,沒有取得一點進展”。

  機緣巧合,一次技術推介會上,得知國家智能語音創新中心正在開展工業聲學方向的研究,張巍峰當即尋求合作:“我們有需求,他們懂技術,優勢互補,說不定能研發出來。”

  研發初期,中心委派的聲紋分析工程師入廠調研,收集樣本﹔質檢工人現場聽音,記錄特征。6個多月時間,採集近5萬條數據,算法選型、深度學習、參數調節,經過與人工聽音多輪比拼試驗,工業聲紋質檢系統初步建成。

  國家智能語音創新中心總經理吳江照介紹,利用工業聲學技術開展設備質檢,除了民營企業自主創新,還離不開科研院所的大力支持。“發聲位置、距離遠近都會對收音造成影響,為了解決工業領域的麥克風陣列分布問題,我們和西北工業大學科研團隊開展交流,共同探討技術方案。”吳江照說。

  如今,這款“智能耳朵”已在產線投用,質檢識別准確率達到95%。“一次聯合研發,僅一條產線每年就能為我們節省成本近15萬元!”張巍峰算了筆賬,過去人工聽音,易因疲勞而失准,現在使用工業聲紋質檢系統,不僅效率提高2/3,還增強了一致性。曾經難以分辨的齒輪或換向器故障點,通過聲紋數據分析,有了改進方向。

  讓生活智慧便捷——

  “全屋智控”識別用戶指令更精准精確

  一進門,燈光自動點亮,空調自行開啟﹔一句語音指令,舒緩的音樂在耳邊響起,陽台上的晾衣架開始升降﹔廚房裡,感應裝置監測到煤氣泄漏,既能報警,還會開窗……走進合肥榮事達電子電器集團智能全屋體驗生活館,研發中心技術人員孫杰指向巴掌大小的控制面板:“能集中控制空調、音箱、窗帘等,啟動各種智能情景。”

  一塊屏幕,如何實現“全屋智控”?

  從傳統的按鍵控制到智能的語音交互,為實現多款產品集成,孫杰帶領團隊與國家智能語音創新中心一道攻關,花了約一年時間。

  首先要解決的,是用戶反映最多的“免喚醒”功能。孫杰介紹,喚醒詞是為了激活設備進入運行狀態,一般來說,喚醒詞說出后,若能立刻給出反應,有利於提升用戶體驗。可如果每次使用智能設備都需要喚醒詞,也會造成交互冗余,增添麻煩。

  為此,企業結合市場調研,分析常用指令,中心則利用聲學技術,提供算法支持。通過具有AI(人工智能)交互能力的語音芯片加持,這款控制面板可以實現一分鐘內“一次喚醒,多輪交互”。

  “誤操作”是橫在面前的另一道難題。“居家生活時,經常出現閑聊觸發關鍵詞、設備作出響應的情況,尤其是在開發‘免喚醒’功能后。”中心AI語音芯片部研發總監周正友介紹。

  是否可以通過識別聲音、判斷方向,進而給出正確回應?為了解決這個難題,周正友和同事們根據波速強度,算法分析音頻,經過多次試驗,系統識別准確度大幅提升。

  眼下,除了智能家居,這款具有語音交互功能的面板產品還被應用到其他領域。“醫院、養老院、辦公室等商用客戶也很感興趣!”孫杰表示,企業與中心聯合攻關,既增強了創新能力,還開拓了應用市場。

  為創新提供支撐——

  AR字幕眼鏡帶來“看得見的聲音”

  耳邊,交流聲音不斷,眼前,文字逐句呈現。這讓弱聽患者劉爍感覺不錯:“跟看劇一樣!戴上眼鏡,聲音就能轉化成文字顯示在眼前,還可以調節字體大小、背景顏色,絲毫不影響視線。”

  這款AR(增強現實)字幕眼鏡,由北京亮亮視野科技有限公司與國家智能語音創新中心聯合研發,具備實時轉寫、語音翻譯等功能,已為5000多名弱聽患者帶來“看得見的聲音”。

  面向市場需求,兼具技術基礎,新品研發按說應該很順利。令亮亮視野系統研發部總監趙偉沒想到的是,技術遷移並不簡單。“我們想的是把眼鏡和聲學技術相結合,增強用戶體驗,可眼鏡收集聲音后,難以依托眼鏡本體算力進行轉寫。”趙偉思來想去,決定“上雲”一試。

  這朵“雲”,是國家智能語音創新中心構建的端雲一體語音雲平台,為金融、醫療、智能交通等領域企業提供技術服務,助力企業高效穩定運營,日交互量達20億次。

  近半年時間裡,趙偉在合肥、北京兩地奔走,從拾音降噪到接入“雲端”,企業、中心協同創新。如何精准識別人聲?科研人員調節上千次麥克風陣列組合,確定聲音增益最佳范圍。怎樣確保轉寫迅速穩定?技術人員將數據接入雲平台,提供響應及時的算力支撐。

  “簡化操作步驟、調節字幕位置,產品去年研發成功以來,軟件前后更新了三四個版本。現在,我們正在和中心討論,如何增加語音控制開關功能,讓用戶操作更加便捷。”趙偉說。

  近年來,為支持智能語音產業發展,工信部批復組建國家智能語音創新中心,給予專項支持﹔2021年,安徽省印發《支持中國聲谷創新發展若干政策》,鼓勵人工智能及智能語音產業發展和推廣應用,引導企業協同創新發展。“政府有政策,企業有場景、有需求,中心有技術、有實力。依托這樣的創新合作形式,可以更有效實現資源聯動。創新鏈產業鏈深度融合,步伐更快。”吳江照說。

  本期統籌:呂 莉

(責編:關飛、金蕾欣)

分享讓更多人看到

返回頂部