苹果的研究员们近日推出了一款名为ReALM(指代解析作为语言建模)的AI系统,这玩意儿能在对话中或屏幕上的元素里搞懂那些让人摸不着头脑的暧昧指代。ReALM: Reference Resolution As Language Modeling
说白了,ReALM就是把这个难题变成了一个语言建模的游戏,用上了大型语言模型的超能力。这招不仅让它能根据识别出来的元素重建屏幕布局,还能生成一种文本表现形式,帮助理解视觉上下文。比起现有的方法,甚至是那个牛逼闪闪的GPT-4模型,ReALM在处理屏幕上的指代时表现得更加出色。
看样子,苹果可能打算让ReALM能“读懂”你屏幕上的上下文,并通过分析展示的数据来执行AI功能,可能又向全自动代理人迈进了一步。
但这系统还是靠自动化屏幕解析,这东西有它的局限性。未来的进步需要结合计算机视觉和多模态技术,来处理那些更复杂的视觉指代。