隨著越來越多的人使用語音控制和圖像搜索,并且ChatGPT越來越接近成為一個真正多模式、有用的虛擬助手,維持住安全護欄會變得越來越困難。OpenAI在其官網宣布,ChatGPT現在可以“看”、“聽”和“說”了。自誕生以來,ChatGPT的大部分更新主要在于,這個基于AI的機器人可以做什么、可以回答哪些問題、可以訪問哪信息,以及如何改進其基礎模型等方面。這一次,OpenAI正在調整使用ChatGPT的方式。
目前正在推出ChatGPT的新版本,除了通過常見的文本框交互外,現在它正在學會以新的方式理解人類的問題,比如通過大聲說話或者上傳圖片。具體而言,在語音方面:第一,允許用戶進行語音對話,提供更直觀的交互方式;第二,支持在iOS和Android移動應用上使用;第三,提供5種不同的語音選擇;第四,通過新型文本轉語音模型和語音識別系統實現。
這應該感覺就像與蘋果的Siri交談一樣,只是OpenAI希望,通過改進基礎技術使其說出更好的答案。目前,大多數虛擬助手,如亞馬遜的Alexa,都在以大語言模型(LLM)為基礎進行改進。據OpenAI介紹,新的語音功能由一個新的文本到語音模型提供支持,該模型能夠從文本和幾秒鐘的語音樣本生成“類似人類的音頻”。OpenAI似乎還認為該模型的潛力不止于此,其正在與互聯網(互聯網行業分析報告)流媒體音樂服務平臺Spotify合作,將播客翻譯成其他語言,同時保持播音者的聲音。合成語音有許多有趣的用途,而OpenAI可能會成為該行業的重要組成部分。
然而,只需幾秒鐘的音頻就能構建出功能強大的合成音色,這也為各種問題性用例敞開了大門?!斑@些功能還帶來了新的風險,比如惡意行為者冒充公眾人物或實施欺詐的可能性”,OpenAI在其宣布新功能的博文中寫道。OpenAI表示,出于這個原因,該模型不會廣泛被使用,而更多受到特定用例和合作伙伴的限制。
在圖像方面,第一,允許用戶上傳圖像與ChatGPT進行交互;第二,支持多張圖像;第三,提供移動應用上的繪圖工具;第四,使用多模態GPT模型(Generative Pre-Trained Transformer,生成式預訓練Transformer模型)理解圖像;第五,在接下來的兩周內首先面向Plus(付費訂閱用戶)和企業用戶推出;第六,語音和圖像功能的推出采取漸進策略,以確保安全性;第七,要注意模型局限性,避免高風險場景下對其依賴。
圖像搜索有點類似于Google Lens的功能,用戶拍攝自己感興趣的任何東西的照片,ChatGPT去嘗試了解用戶在詢問什么,并做出相應的回應。用戶還可以使用應用程序的繪圖工具幫助明晰自己的訴求,或配合圖像進行說話或寫入問題。這是ChatGPT希望實現的一個互動特性:與其進行一次搜索得到錯誤答案,然后再重新進行一次搜索,不如在進行的過程中提示AI機器人完善答案。
不過,顯然圖像搜索也有其潛在問題。比如,如果用戶詢問的是關于一個人的情況,ChatGPT該如何反應?OpenAI表示,他們故意限制了ChatGPT“分析和直接陳述關于人的能力”,這既是為了準確性,也是為了隱私原因。這意味著對于AI的一個極具科幻色彩的想象——看著某人然后問AI“那是誰”,并不會很快實現。