[1] 基于大语言模型的流式视频理解 *MLLM based Streaming Video Understanding*(中科院自动化所多媒体计算组合作方向)
[2] 多模态表示学习 *Multi-modal Representation Learning*(组合图像检索*Composed Image Retrieval*、通用领域自适应 *Universal DA*)
[3] 视觉语言导航 *Vision Language Navigation*
[1] 基于大语言模型的流式视频理解 *MLLM based Streaming Video Understanding*(中科院自动化所多媒体计算组合作方向)
[2] 多模态表示学习 *Multi-modal Representation Learning*(组合图像检索*Composed Image Retrieval*、通用领域自适应 *Universal DA*)
[3] 视觉语言导航 *Vision Language Navigation*