用于理解真实世界短视频的结构化视频理解模型