BABA-Alibaba releases new AI model Qwen2-VL that can analyze videos more than 20 minutes long

文章核心观点 - 阿里巴巴云发布了最新的视觉语言模型Qwen2-VL,在多项第三方基准测试中表现出色,超越了Meta的Llama 3.1、OpenAI的GPT-4o、Anthropic的Claude 3 Haiku和Google的Gemini-1.5 Flash等领先模型 [1][2] - Qwen2-VL具有出色的图像和视频分析能力,可以分析长达20分钟的视频内容,并提供总结和回答问题,可用于技术支持等实时应用场景 [3] - Qwen2-VL有3种不同参数规模的版本,其中7B和2B版本采用Apache 2.0开源许可,可供企业商业使用,72B版本将稍后发布 [4][5] - Qwen2-VL具有函数调用和人类视觉感知等能力,可集成到移动设备和机器人等,支持基于视觉环境和文本指令的自动化操作 [6][7] - 阿里巴巴Qwen团队将继续推进视觉语言模型的能力,计划集成更多模态并拓展应用场景 [8]