當地時間13日,美國OpenAI公司展示了最新版本ChatGPT-4o的新技能:與使用者展開語音對話、識別圖像並展開討論、翻譯。據路透社報道,相比先前版本,GPT-4o與使用者對話基本無延遲,和人類反應速度類似。即使對話中途被打斷,也能繼續下去。這些都是實現逼真語音對話的標誌,也是當前眾多AI語音助手普遍面臨的技術難點。在BBC看來,GPT-4o能夠結合文本、音頻和圖像內容瞬間作出反應,目前在競爭中仍處於領先地位。
邁向更自然人機互動 能回應真人情緒
在當天網絡直播的展示中,GPT-4o這款生成式AI工具利用其視覺和語音能力,指導演示者在紙上逐步解出一道方程式,而不是直接給出答案。它還展示了英語與意大利語互譯、用自拍照片識別情緒等能力。新模型將會免費對外開放,而付款費用可獲得更多限額。
OpenAI在直播時演示,用戶與ChatGPT對話時可立即獲得回應,並且能夠中途打斷ChatGPT的說話。GPT-4o能夠利用其視像和語音功能與研究人員對話,解決紙上的數學方程式。另一展示中,GPT-4o模型展現即時語言翻譯能力,亦能對研究人員的情緒作出回應。
「GPT-4o」是「GPT-4」模型的更新版本,當中的「o」代表「omni」,代表「全部」。新模型將免費使用,原因是比過去的模型更具成本效益,並提供大量過往曾收費的功能,例如線上搜尋、語音對話等,不過設有用量限制,當到達上限時,會自動切換到「GPT-3.5」。
OpenAI稱今次更新,是邁向更自然人機互動的一步,因為在GPT-4o推出前,用戶使用語音模式與ChatGPT對話,GPT-3.5的平均延遲2.8秒,GPT-4延遲5.4秒。相反,GPT-4o可快至232毫秒內對音頻輸入作反應,與人類在對話中的反應時間相近,令人類與聊天機械人的對話交流,變得更自然。
OpenAI行政總裁奧特曼發文形容,與電腦的交流從未如此自然過,就像是在電影中出現過的AI一樣。OpenAI首席技術官穆拉蒂解釋,之前的模型是語音、文字和視覺協同工作,導致大量延遲,破壞沉浸式體驗,GPT-4o則將三者整合到同一個模型中,以消除所有延遲。
OpenAI希望以GPT-4o在激烈的AI技術競爭中保持領先。該公司2022年發布ChatGPT後,短時間內每月活躍用戶增至1億。然而,研究機構西米勒網絡公司的數據顯示,去年以來ChatGPT用戶人數呈現過山車式變化,近期才重回去年5月巔峰時期的水平。
谷歌推出聊天機械人Gemini應對
另一方面,谷歌和OpenAI之間激烈的競爭態勢愈演愈烈。谷歌13日亦發布了一段視頻,展示了疑似經過升級的Gemini聊天機械人。視頻中,Gemini以同時實時處理來自視頻和語音的輸入。
視頻展示了Gemini在一台Pixel手機上流暢地處理實時視頻和語音提問,並準確地提供信息。當被問到正在進行的布置工作時,Gemini正確識別出這是為一個重要活動做的準備。整個對話過程自然流暢,Gemini還會詢問用戶注意到的細節,成功識別出了該活動為谷歌I/O開發者大會,並進行了簡要介紹。
此外,微軟當地時間13日亦宣布向法國投資40億歐元,用於擴展在當地的雲端及AI業務,並將會資助法國的AI技術及科技工業,計劃把2.5萬塊最先進的塊圖像處理器帶進法國,預計至2027年可訓練100萬人,及支援2500家AI初創公司。
近年來,開發更人性化、功能更強大的生成式AI工具競爭激烈。谷歌母公司Alphabet擬於14日召開谷歌開發者年度會議,預計屆時將展示谷歌開發的相關產品。馬斯克、科技DeepMind創始人之一穆蘇萊曼也分別投資開發了聊天機械人Grok和Pi,將擬人化特點作為產品主攻方向。
IMF警全球四成職位受AI衝擊
與此同時,國際貨幣基金(IMF)也在對AI可能給全球勞動力市場帶來的衝擊發出警告。IMF總裁格奧爾基耶娃13日表示,AI正如山呼海嘯般衝擊全球勞動力市場,而全球政府和企業尚未對此做好準備。格奧爾基耶娃預測,未來兩年,對於發達經濟體而言,AI可能會影響60%的工作職位;而對於全球所有國家而言,AI可能將衝擊40%的工作職位。
格奧爾基耶娃表示:「我們幾乎沒有時間讓人們和企業做好準備,如果我們管理得當,AI的確可以極大地提高生產力,但它也可能導致更多的錯誤信息,當然,還會加劇我們社會的不平等。」
頂圖:ChatGPT用戶人數去年呈過山車式變化,近期才重回去年5月巔峰時期的水平。 路透社