在ChatGPT-4 变得多模态的时候,Open Source 那边也没有停着。LLaVA代表了一个新颖的端到端训练的大型多模态模型,它结合了视觉编码器和Vicuna,用于通用的视觉和语言理解,实现了令人印象深刻的聊天能力,模仿多模态GPT-4的精神,并在Science QA上设定了新的最先进的准确度。去试试?

来自新加坡的最新人工智能动态跟踪简报 (中英文)
在ChatGPT-4 变得多模态的时候,Open Source 那边也没有停着。LLaVA代表了一个新颖的端到端训练的大型多模态模型,它结合了视觉编码器和Vicuna,用于通用的视觉和语言理解,实现了令人印象深刻的聊天能力,模仿多模态GPT-4的精神,并在Science QA上设定了新的最先进的准确度。去试试?