儘管智慧型手機和社交媒體在我們的生活中變得越來越不可或缺,但口頭交流仍然是人們最常見的互動方式。然而,有些人因為身體的障礙或是疾病,天生就無法言語或是因為疾病而突然失去說話能力。
現在,將大腦活動轉換成語音或文字的技術所取得的進展,為透過大腦訊號進行溝通鋪平了道路,這提供了一種不需聲音及動作的溝通方式,可以大大改善障礙者的生活。
自從1990年代以來,神經學家和計算機科學家一直在使用AI來彌補人們的想法與希望採取的行動之間的差距。腦機界面(Brain-computer interfaces,簡稱BCI)藉由人們在腦中想像特定事物(比如移動手臂)時,所產生的電波訊號,來控制像是機械手臂這樣外部設備。
大腦訊號可以透過非侵入性的腦波測量技術(electroencephalography,簡稱EEG,又稱腦波圖)測量,是一種將電極放置在頭皮上的方法。
「作為一名年輕的學生,我一直對大腦的運作感到好奇,」來自韓國首爾的韓國大學腦與認知工程學系的神經工程師Seo-Hyun Lee表示。「但作為一名博士生,我想做的不僅僅是揭開它的神秘而已。透過辨識在想特定詞語所觸發的大腦活動,我希望能夠創造一項技術,是能幫助不會說話或喪失說話能力的人的。」
將大腦訊號轉換為自然語音是非常有挑戰的,腦波圖(EEG)數據中會有非常多雜訊,因此,能夠從資料中提取關鍵特徵的先進人工智慧開發非常重要。
有一些案例成功的生成語音,像是藉由手術植入電極或是當患者患者大聲說話時所捕捉到的訊號。然而,為了在我們的生活中能夠應用更廣泛的「無聲對話」,例如在不需鍵盤輸入便在電腦上生成文本,更簡單和非侵入性的技術將是關鍵。「我們現在對於無需在腦中植入電極的情況下,僅『從腦海想像中的語音』來生成語音,非常有興趣」韓國大學人工智慧與腦工程學教授Seong-Whan Lee表示。
「想像言語(Imagined Speech)」是指某人在腦海中想像著說話而不發出聲音(「口頭說話」)或者以嘴型表示(假裝說話」)。
Lee的實驗室由韓國資訊通信技術規劃評估研究所(Institute of Information & Communications Technology Planning & Evaluation,簡稱IITP)補助,專注於圖形識別(pattern recognition)和機器學習,聚焦於研究關於言語的大腦訊號圖形。「我們研究的主要目標是使用這些圖形來分析這個人在想些什麼並預測他想說的話,」Lee說。「目前的腦機界面技術大多是基於文本和音訊的,但未來我們希望使用來自想像言語(Imagined Speech)的大腦訊號,因為這些訊號是非常直觀與直接的。」
「腦-語音」技術結合了多個人工智慧的關鍵領域,包括腦機介面(BCI)、從複雜的大腦訊號中捕捉重要特徵的深度學習工具,以及語音合成技術。這個系統是這樣運作的:一個人先在自己腦中說著「你好嗎?」,腦波圖(EEG)記錄了這個想法產生的信號,深度學習模型將大腦信號傳來的訊息解碼,最後運用提取出的特徵合成使用者的聲音。
韓國大學的Seong-Whan Lee、Seo-Hyun Lee及其團隊開發了一種「腦-語音」技術,可以辨識及生成12個透過非侵入性之腦波圖的想像言語(Imagined Speech)訊號。這代表了「腦-語音」言語應用的一個重要進步,因為以前的研究只涉及幾個詞彙,團隊不得不克服重大挑戰。
「透過頭皮記錄電波訊號使得挑選出其中的語音訊號變得更加困難,因為頭髮和皮膚會引入很多干擾,所以我們必須開發一種去除它們的方法」,Seo-Hyun Lee說。「好的一面是,想像言語(Imagined Speech)產生的噪音比默劇和實際說話時的要少,因為想像言語(Imagined Speech)不涉及運動,」她補充道。
另一個問題是,與實際說話不同,想像言語(Imagined Speech)沒有可供AI對比的語音紀錄,也沒有想像言語(Imagined Speech)的確切開始時間,並將這些訊號與對應使用者的聲音相匹配,」Seo-Hyun Lee說。
為了找出這些獨特的信號,Seong-Whan Lee的團隊蒐集了以想像言語和實際說出病人交談的12個常用詞彙(如「幫忙我」和「謝謝」)時,大腦產生的信號所集結的大型數據庫。參與者戴上頭皮電極帽,進行三個環節:反覆大聲說出一個詞,反覆想像說出它,以及反覆想像看到它。然後,團隊使用AI模型尋找所記錄之腦波圖信號中的模式,並學習要將其與哪些詞彙和聲音相關聯。
「我們觀察到兩種語音之間的共同特徵,如電波訊號的時序、位置和強度,以及類似的圖形,兩種語音都在左顳葉和額葉皮層的類似區域活動」,Seo-Hyun Lee說。
「我們進一步比較腦波圖結果與視覺意象訊號來研究想像言語(Imagined Speech)的內在特徵,參與者僅需想像某個詞語的圖像,如時鐘」她補充道。「有趣的是,它們之間也表現出顯著的相關性,相似的詞語群創造出相似的訊號1。」
透過使用最佳特徵,他們的模型能夠偵測訊號之間的微小差異,並成功地學會從想像言語(Imagined Speech)中識別這12個詞彙。此外,就單字而言,他們的AI模型還可以成功地將想像言語(Imagined Speech)的腦波圖轉化為具有使用者自己聲音的合成語音。
這個團隊正在研究一個虛擬原型,它突顯了結合人工智慧以及資訊通訊科技、大數據和機器人技術在智慧家居領域的潛力,使障礙者能夠簡單地藉由想法控制他們的暖氣、照明、娛樂和家電。
「距離以想像言語(Imagined Speech)合成不僅是單字,而是完整句子的自然聲音,仍有好一大段距離,但我們一直在尋找有潛力的方法來改良我們的技術。」Seo-Hyun Lee說。他希望他們在未來十年內能夠達成這個目標,讓他們可以開始對患者的生活產生積極的影響。
「障礙者或是患有肌萎縮側索硬化症(ALS)等疾病的人可能最終會失去說話的能力,」Seo-Hyun Lee說。「『腦-語音』技術可以在他們還能說話時將他們的聲音記錄下來,這樣他們在未來的某一天還可以用自己的聲音說話。」