Zesen Cheng (成泽森)

我是北京大学计算机科学与技术专业直博四年级学生（预计 2026 年毕业），本科毕业于华南理工大学电子与信息学院（2021 届）。

人生格言: 知行合一，格物致知；志存高远，脚踏实地。

我的研究方向主要集中在 “多模态大模型与图像/视频理解” 领域，具体包括：

多模态大模型 (视频理解), 包括:
- 泛视频理解: Qwen2.5-VL core contributor
- 音视频理解: VideoLLaMA2; CMM
- 流视频理解: VideoLLaMA3
- 长视频理解: Inf-CL (CVPR 2025 Highlight)
- 细粒度视频理解: VideoRefer (CVPR 2025)
图像/视频分割，包括:
- 弱监督分割: OCR (CVPR 2023)
- 视频实例分割: TAR (ICCV 2025)
- 多模态分割: WiCo (IJCAI 2023, Neurocomputing 2024); PVD (AAAI 2024); BriVIS (AAAI 2025)
- 医学图像分割: Fused U-Net (Medical Physics 2021)

目前已发表论文 20+ 篇，总 Google Scholar 引用量为。

所参与开源项目获得广泛关注，代表性项目的 GitHub Star 数如下：

如果您对我的研究感兴趣，欢迎联系交流合作或提供实习 / 全职机会 🙏🙏。这是我的联系邮箱: cyanlaser@stu.pku.edu.cn