這聽起來可能顯而易見,不過,AI聊天機器人將改變一些人說話的方式。AI聊天機器人背後的語言模型不僅在「生成期末報告」、「偽造Drake饒舌」和「快速理財計劃」等方面表現出色(這同時也是許多人在社交媒體上使用AI的方式)。
這項技術在輔助溝通系統(AAC)領域將會是一個重大的變革。AAC指的是除了口語之外的所有人們交流的方式,通常用於協助因健康問題或其障礙而在語言表達面臨困難的人。Sam Sennott在這個領域花費了他職業生涯的大半時間,他是波特蘭州立大學的特殊教育助理教授,他表示這是一個令人振奮的AAC時刻。
(以下是經整理、編輯的對話內容)
Sam Sennott教授:
有很多很多技術上的進步,幫助了有障礙的人來進行溝通。但很有趣的是,這件事對我們來說並不是那麼「新」的。早在1970年代,一些用於AAC的硬體便出現在計算機上,隨著時間不斷發展,他也使用了像詞語預測和動態詞語預測模型等AI創新技術。
主持人Meghan McCarty Carino:
那麼,像是文本預測這類的技術,他們是如何改變使用者的溝通體驗呢?
Sam Sennott教授:
我們從詞語預測看到了很多好處,它可讓輸入速度非常慢的人們更有效率,像是提升打字速度;另外一個部分是,現在的預測工具加入了動態元素,而能真正地將上語境因素納入考量,比如時間、現在在哪裡、正在跟誰講話、關於工作或學校中主要在做些什麼、或是目前正在討論中的話題。使用者可以獲取所有像是這樣的語言內容服務,比起將這些全部都打字出來,這將降低不少疲勞感,同時也增加了不同的元素,像是讓即時性的敘述變得更加活潑。
其中一項AAC使用者經常提到的事情是,溝通的速度對於他們來說是很重要的,必須寫或是必須說這樣的挑戰時常成為(溝通上的)阻礙,人們傾向因為這些因素,而對他們的溝通或是智力有所預設。
主持人Meghan McCarty Carino:
那這樣的文本預測工具有什麼缺點嗎?
Sam Sennott教授:
其中一個缺點當然是它聽起來不像是你的聲音,使用者們談到他們希望在電腦生成長篇話語時,能夠被用他們自己的聲音來說出來,不要因為使用詞語預測而失去個人特質。我們從兒童(以及所有的人)身上學到與AAC有關的另一件事是,運動記憶是很重要的。當我們引入文本預測技術時,其實有一些認知上所需的工作,以評估它給你的預測選項。如果這樣的技術增加了溝通的難度,同時你又沒發展出一定程度的自動化認知,這將令人感到十分不安。
主持人Meghan McCarty Carino:
據我所瞭解,AI還可以用在所謂的「語音銀行(Voice Banking)」,那是什麼呢?
Sam Sennott教授:
「語音銀行(Voice Banking)」,以自己的聲音錄製不同的口語樣本,讓AI能夠以此生成合成語音,將來便能派上用場。如此一來,退化性的障礙者便能夠獲得他們自己的聲音。技術層面而言,自然語言處理和機器學習近年來的創新,使的這一切變得更加容易。
語音銀行對不少人而言是至關重要的。能夠聽到自己的聲音、對於家人及朋友而言則是聽到了熟悉的聲音及語調,對於很多人來說,語音銀行非常重要,因為這樣他們的家人和朋友可以聽到他們熟悉的聲音和語調,以他們熟悉的聲音說話非常重要。但對於其他人來說,如霍金教授,他對於一直以來所使用的那個機器合成語音十分重視。
主持人Meghan McCarty Carino:
在節目中,我們提到了很多AI存在的偏見問題。我們生活在一個不完美的世界中,一些現實世界中的偏見在輔助溝通系統中更加明顯。這是否也是這些輔助溝通系統的問題呢?
Sam Sennott教授:
輔助溝通系統中的偏見是個十分重要的議題。對於這些大型語言模型而言,存在一個「人們實際所說」,與「人們心中所想」之間的平衡。我們不禁要問,這些人們所發出的對話,是否真的是他們所想的呢?所以我們確實有些害怕。
關於AI和AAC領域,我最關注的其實不在於預測,反而是在於評估和預測的方面。在健康領域,擁有這些預測模型和增強智能模型確實非常令人興奮。然而,當系統中存在偏見和種族歧視時,你便能體會到因為預測模型所說的內容,而導致機會的缺乏。
舉個例子,當我住在佛羅里達南部時,我與一群被描述為過於失能而無法獲得語言治療幫助的年輕人們共事。但是在我們給予他們輔助溝通系統的幫助後,這些人正在成長茁壯、並從這些支持中受益。因此,當你的基於規則模型愈牢固,認為這些人的能力不足以做什麼什麼、或是得先要學會怎樣怎樣才能怎樣怎樣,你便是在設立障礙。我認為,用於評估的預測模型為服務更多的人帶來了很棒的機會,但我想我們還需要一些努力來防止某些偏見的形成。
主持人Meghan McCarty Carino:
目前最先進的AAC科技是什麼呢?
Sam Sennott教授:
最新的AAC工具是最近熱門的眼球追蹤系統。支援臉部辨識的最新iPhone相機即支持這點,然後你便可以透過眼睛來控制電腦打字。這感覺就像魔法一樣。還有一些令人驚奇的,非侵入性腦機介面藉由讀取腦波,你可以用類似眼球追蹤或是按下按鈕的方式來操作電腦。
不過也有些跟簡單工具有關的事情令人興奮,像是讓教師、言語病理學家、教學助理等等,取得低成本的電腦硬體,並獲得如何幫助人們發展語言系統與以此支持他們自主權的資訊。
主持人Meghan McCarty Carino:
你之前提到過史蒂芬霍金。我想大部分人對他所使用的,可以說是最先進的輔助科技並不陌生。那是由Intel所設計的,基本上能夠讓他運用臉頰肌肉來進行溝通。現在,這些科技是否已經普及到大部分需要這些科技的人呢?
Sam Sennott教授:
像Intel這樣的公司已經將那個軟體開源授權,並且也有許多成本相對低的軟硬體,讓人們能夠以臉頰打字或是以眼球追蹤操作電腦。但我們看到的卻是,儘管這些軟硬體相對普及,仍然有許多自閉症的兒童或是不同的障礙人士無法取得這些本應免費與無處不在的工具。
我患有一種目前尚無法治愈的癌症,名為多發性骨髓瘤,這是一種非常複雜和具有挑戰性的疾病,我曾經進行過幹細胞移植,回來之後感覺好多了,聽到身心障礙者分享他們類似的生命經驗讓我深受啟發。讓我們想想真實的現況,「對於無法以言語溝通的身心障礙者,我們收取了如此高額的費用」,這感覺不太對勁。這並不正義。
我認為,在一片興奮中所推出的一系列創新和生成的大型語言模型,讓我們有很棒的機會來改正一些錯誤,並重新思考其可能性。據我了解這與人有關而非與技術有關,讓我覺得慶幸。其中一件以AAC用途使用大型語言模型的有趣事情是,想像孩子們能夠輕鬆理解這些笑話的笑點。這是一個人際接觸與交朋友的好方法,享受樂趣、社交與開玩笑。
主持人Meghan McCarty Carino的更多見解:
Sam Sennott教授想要強調,他並不是這個主題的最理想的受訪者,儘管他非常思考周全與充滿智慧,並且具有合作開發AAC應用程式「Proloquo2Go」的經驗。然而,他並沒有作為一位AAC科技使用者的直接經驗。
基於此看法,他建議我們關注Google無障礙團隊研究人員近期的努力。在這項研究中,研究人員與12名AAC使用者運用一個大型語言模型來測試文本預測系統的益處及挑戰。該論文標題為「The less I type, the better’: How AI Language Models can Enhance or Impede Communication for AAC Users.」