在2024年3月19號,Google發布了Screen AI這個視覺情境語言理解模型,原文的介紹都是在介紹Screen AI的技術原理之類的,寫的文謅謅的,整篇內文的重點是


ScreenAI 主要重點:

  • 是一種視覺語言模型,專門針對 UI 和資訊圖表的理解和互動。

  • 在基於 UI 和資訊圖表的任務上取得了最先進的結果。

  • 使用靈活的修補策略和預訓練資料生成技術。

  • 具有在各種任務中表現優異的潛力,包括 QA、導航和摘要。

Google原文
https://research.google/blog/screenai-a-visual-language-model-for-ui-and-visually-situated-language-understanding/

ScreenAI-2.width-800.png

主要就是在說ScreenAI 可以讀取螢幕上的內容,結合LLM技術,進行問與答跟摘要。Aidec看到這個技術時的第一個想法是,這對所有的網頁都會帶來巨大的衝擊啊~

現在的網頁爬蟲技術基本上都還是以讀取網站的HTML進行解析,然後收錄到Google索引,但這項技術出來以後,估計未來Google爬網頁的方式,會變成讀取每個網頁頁面實際看到的畫面(就跟真人瀏覽一樣),然後去解析畫面上的內容。這樣兩者的不同會有什麼影響?

像現在是以抓HTML進行解析,那就肯定是以文字內容為主,圖片連結、HTML結構之類的為輔助,來判斷網頁的內容評分。

但假如是使用這種視覺化的爬蟲技術的話,估計就會不一樣了,會主要以AI是否能識別出文字、圖片,是否能理解頁面內容,還有整個畫面的視覺體驗如何... 來作為網頁評分的判斷基準。


以後可能不在是內容為王,而是體驗為王?


這樣整個評分機制就會跟以前大不相同,網頁的排名可能也會出現很大的變化。

除此之外,要是Google真把所有站都用ScreenAI 這種視覺化技術來爬網頁,這樣以後人們在搜尋時,估計也都不用進入網站了,直接在Google上就能得到答案。

這對搜尋者來說是件好事,但對網站經營者來說會不會是種災難呢? 尤其是主要收入來源是靠流量的內容網站經營者,估計會影響頗多


文章轉載或引用,請先告知並保留原文出處與連結!!(單純分享或非營利的只需保留原文出處,不用告知)

原文連結:
https://blog.aidec.tw/post/google-screen-ai