阅读背景:

论文解读 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

来源:互联网 

一. 摘要

如何将现有的图像 - 文本多模态大模型(例如 OpenAI CLIP)用于视频内容理解,是一个非常实用且具有前景的研究课题如何将现有的图像 - 文本多模态大模型(例如 Ope




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: