Apple 早前發表了一篇有關開發「Ferret-UI」AI 人工智能的論文,據悉 Ferret-UI 是一個生成式人工智能系統,能夠理解智能電話應用程式螢幕顯示的內容。
大家耳熟能詳的 AI ChatGPT 屬於大型語言模型 (Large Language Models,LLMs),主要訓練素材取材自文字內容,而更先進的多模態大語言模型(Multimodal Large Language Models,MLLMs)旨在擴展 AI 理解圖片、影片、音訊等非文字資訊的能力,但是現時大部份 MLLM 還無法有效理解智能電話上面的應用程式,主要因為以下原因:
- 手機螢幕長闊比例與平時訓練素材不同;
- 手機應用程式的按鈕尺寸較小,對目前的 MLLMs 而言難以識別;
- 目前的 MLLM 暫時未有與應用程式按鈕互動的理解能力。
Apple 因此構思開發名為 Ferret-UI 的全新 MLLM,以解決上述問題。Apple 指,Ferret-UI 加入了「任意解像度」,讓這個 MLLM 得以放大畫面細節,增強視覺能力。Apple 又表示從廣泛的基本 UI 任務裏收集了不少訓練樣本,例如圖標識別、尋找文字、小清單等,以提高精確度。