近幾個月來,在新聞和社交媒體上,關於語音人工智能(AI)的討論很多。看起來,AI可能會為許多溝通障礙者來益處。在一次偶然的談話中我意識到,語音AI作為預測功能不可或缺的一部分,已經長年存在於我的生活中。並且,人工智能已經整合到了輔助溝通系統(AAC)的語音中。最新的進展是它如何幫助有構音障礙或是失去聲音的人,以及其他即將發生的新進展。
構音障礙,這正是我所被診斷的症狀,所以在兩年多前我決定參與語音辨識(又叫做語音輔助)軟體的試驗。這個概念是人工智能可以將我的聲音,從對許多人來說難以理解的狀態轉換為可以直接被辨認的話語。這原則上可以應用於多種情況,包括日常對話、語音轉文字的書面工作,以及給我家中的環境控制系統下達指令。
這個構想其實是非常令人興奮的。作為一名學生,我可以預見一些實際上的益處。例如在課堂中的臨時發言,目前我想要參與時,則必需依賴我的助理逐字重復我所說的話。還有,無論是要寄電子郵件還是撰寫一篇上萬字的評估報告,寫作的這個過程都十分艱辛,可能需要我重說好幾次,或是等待我輸入到溝通設備之後,再由我的個人助理抄寫下來。以及,若我想以指令操控家中的環境控制系統,我也能夠在手邊沒有科技輔具時完成。
一開始我發現需要穩定的將詞語複誦30次以設定軟體時,這讓我有些擔心。然而我還是決定試一試。遺憾的是,構音障礙使我的聲音非常不穩定。從片語到長句型的聲音表達,我的所說的內容總會模糊不清或是聽起來沙啞。我說話的速度可能快得像火車,也可能慢的像蝸牛。除了這些情況,有時候我可能突然低聲細語,但下一秒又會無法控制地變大聲。前面提到的這些。都完全不是我可以控制的。
我構音障礙的狀況是由我的腦性麻痺引起,它影響了我臉部、下顎、舌頭和喉嚨的所有肌肉,特別是在我試圖調節我的發聲並盡可能清晰表達的時候。這導致我時常會感到肌肉上的發聲疲勞,以至於不得不停止說話。這意味著我每天在與我不太熟悉的人溝通時,以及當我的團隊成員與成員間討論到其他事情時,需使用輔助溝通系統(AAC)。
在數次嘗試設定軟體的過程中,我花了很多時間反思。整體考量了軟體、我使用的方式以及我的溝通需求,很遺憾地決定這不適合我。對我來說,接下來最好的方式仍是繼續使用我的溝通輔具。
與其他構音障礙患者相比,或許我很幸運。我可以使用輔助溝通系統(AAC),同時意味著我也可以輕鬆地透過應用程式控制家中的環境。我可以透過過點擊應用程式上的圖示來拉窗簾、開門、控制燈光,並滿足各式各樣的媒體需求。我的身體障礙也讓我能有可愛的私人助理全天候幫助我處理其他所需。
擁有一種有效的溝通方式很重要。我很喜歡語音AI的這個想法,但我現在知道我更傾向以我自己的聲音來與我熟悉的人互動。我已經能夠以手指或觸控筆使用所有的蘋果設備,並且已經將所有需要的功能做好電腦程式編寫了。
另一件我真的不太喜歡的事是,軟體無法考量到我說話時音量的爆炸性。在好幾個場合中,軟體給我的回饋是告訴我不要大吼大叫,但這是我無法改變的。在我真的已經很努力地清楚表達,以便軟體能夠運作時,這其實讓我有點沮喪。
我能清楚地看到這種軟體對某些人的好處。對於一些人來說,特別是無法使用AAC的人,它將對他們帶來真實的改變。任何可以改善溝通的事情都是好事,不過,這項語音人工智能開發對我來說並不適用。
15歲之前的我是一個「美國」小孩,那時並沒有符合英式發音的(AAC)語音。15歲時,我成為了「露西(Lucy)」,一個「Acapela」公司製作的「英式」語音,至今都還在我的iPad之中。據我了解,露西在實驗室裡花了3個月時間製作,最終提供了一個穩定且高品質的語音。從個人認同的角度來看,能夠喜歡自己的聲音是非常非常重要的。
這些發展真是令人興奮。但在我以Lucy認同自己的同時,有一群其他女性AAC使用者也正在使用與我同樣的聲音交談,這讓我感到沮喪與挑戰。當然,所有男性的聲音也都是相同的。在現實生活中,每個人都有他們獨特的、自己的聲音,因此我認為在促進AAC的個人化與個人認同發展的方面,AI是個很棒的方法。。
「Acapela」現在允許使用者運用AI神經數位軟體創建自己的語音。最近,我錄製了一個新的聲音(我的媽媽),也一直都有在TD Pilot(Tobii Dynavox眼球追蹤系統與iPad Pro結合的系統)上進行測試。這個新版本仍然在開發中,所以我在等待進一步的更新。這個新聲音的品質不錯,但還不到Lucy那麼的好。不過,只要錄製僅僅50個短句就能生成一個新的聲音,我得說這是一個是非常令人驚嘆的進步。
多年來,人工智能持續在推動(AAC)使用者的發展。(但我們別忘了,AAC其實是文本預測的推手。)使用自然選擇或預測技術所加快的溝通速度所是無法衡量的。我記得14年前,我拿到了使用了自然選擇技術的Lightwriter SL40 Connect。突然間,我發現它提供的是我經常使用的字詞,而非由軟體開發者決定的內容。這不僅僅是基於拼寫的預測,而是基於我之前已經寫過的內容。
同樣的,這也是我喜愛使用iPad和其他蘋果設備上的Proloquo4Text的原因之一。它的字詞預測是基於我過去所說過的內容來運作。好消息是,多虧它與Acapela相容,我才能夠保留Lucy的聲音。
最近,我開始在隨興交談中使用TD Pilot。我喜歡它使用眼睛控制的便利性,也喜歡語音AI的預測運作。它不僅僅是提供我可能選擇的字詞,還包括簡短的語句。目前唯一的缺點是常用語句的儲存空間有限。例如,如果有人問我有關我的碩士研究(MRes),在我的iPad上有一個標準回答。但TD Pilot上的預測功能無法使我給出完整一點的回答。目前,預測只會提供我關於回答的前幾個短語。但我對其進一步的發展工作充滿期望,希望這方面能夠改進。
對於AI在說話上的發展,我其實有一點點擔心。我百分之百不想看到的是,我們所說的「話」是被「塞進」我們嘴巴的。但我想,這也是我或是每個使用者的選擇,除非那是我們真真正正想要說的,否則不要接受它所提供給你的內容。
幾年前在里斯本舉辦的ISAAC會議,我曾有嘗試腦波技術的機會。它很明顯還不是一個成熟的技術,但它已能使螢幕上的滑鼠抖動,顯現出了在未來的某天這也許是一個可行的選項。不過,如果每天幾乎都要在頭髮上塗凝膠並戴腦波頭帶連上電極,這似乎還不太切實際。
我並不想遵循身心障礙者的醫療模式。我並沒有「損壞」,也不想被「修復」。我的一生都將與我的障礙一同生活。我的腦性麻痺、語言和聽力障礙使「我」成為「我」!我理解為什麼有些人因為低肌肉張力接受深層腦刺激療法。如果這將改善我的生活品質,我想我可能會因為健康因素認真考慮。每次手術都有風險,尤其是大腦手術。現階段,我無法看到為操控電腦和語音生成而進行植入的風險,是否比我現在所擁有的更有保障。另外,我是一個視覺思維者(圖像、符號、顏色),所以這對不以文字進行思考的我有用嗎?還有,這樣的技術如何幫助發展中的孩童獲得語言能力?我相信沒有能持續一輩子的植入物。
科技巨頭們的發展焦點似乎都僅將關注放在那些「有聲音的人」身上,包括「語音銀行」也是為那些「即將失去聲音的人」而生的。為了那些無法清楚表達的人們,我們必須努力讓開發者將我們的需求放在心上。這不僅僅是對溝通方面,而是使用AI的所有科技產品都應該這麼做。如果創作者的作品是能夠讓能讓我們這些多種障礙者使用的話,這將只會對所有人都帶來好處。
噢,還有一點必須注意。我曾經在依賴優秀科技的日常中遇過一些問題。主要是關於科技產品間的相容性問題。例如,一個新的助聽器應用程式在控制音量時將AAC裝置的聲音輸出關掉,只把聲音傳送到我的助聽器。這直接導致了我只能將它刪掉。還有,進行演講時用來放大我聲音輸出的藍芽喇叭會將用來在iPad上輸入語音的觸控筆關掉。所以,進步是好的,但如果我因此沒辦法進行表達,恐怕就不好了。大致上聽起來還不錯的,實際上可能會面對不少挑戰。但若能用AI來辨識所有科技仰賴者所使用的軟硬體,並確保一切能夠無縫接軌地共同運作,那將會令人驚艷。
毫無疑問,科技是一個強而有力的促成要素。然而,對於像AAC這種潛在市場非常小的領域,也存在著一些挑戰。我很喜歡像微軟這樣正在讓所有人都更易使用其產品的公司。蘋果公司為那些可以使用通用程式集的人帶來了更易於取得的溝通軟體。我的TD Pilot結合了iPad Pro和Tobii Dynavox硬體,但並不便宜。然而在溝通領域的專業端,開發適合的軟硬體之成本,很有可能需繼續由障礙者承擔較高的比例。語音識別軟體就是一個這樣的例子。儘管他們總是大肆宣揚某些進展將造福某類潛在使用者,但令人遺憾的是,總是會有像我這樣無法有效使用的人。
在AAC市場中,每個人都是獨一無二的,每個裝置都需要是可訂製的。我們並不是都使用相同的硬體或軟體,因為我們甚至有不一樣的需求。就我所知,僅有很少一部分AAC使用者是以完全相同的方式使用他們的裝置。從輸入方式、軟體的訂製設定以及所需的語言等都會有很大的不同。量身訂做是成功的關鍵。語音AI的多樣性是否意味著「個人化」將成為新的常態呢?我希望如此!就像是能夠以快速且相對划算的價格錄製屬於自己的語音一樣。誰知道呢?至少我等不及看看接下來將會如何進展。