用于理解真实世界短视频的结构化视频理解模型

理解视频内容的多模态AI