我是北京大学计算机科学与技术专业直博四年级学生 (预计 2026 年毕业),本科毕业于华南理工大学电子与信息学院(2021 届)。

人生格言: 知行合一,格物致知;志存高远,脚踏实地。

📌 主要研究方向

我的研究方向主要集中在 “多模态大模型与图像/视频理解” 领域,具体包括:

  • 多模态大模型 (视频理解), 包括:
    • 泛视频理解: Qwen2.5-VL core contributor
    • 音视频理解: VideoLLaMA2; CMM
    • 流视频理解: VideoLLaMA3
    • 长视频理解: Inf-CL (CVPR 2025 Highlight)
    • 细粒度视频理解: VideoRefer (CVPR 2025)
  • 图像/视频分割,包括:
    • 弱监督分割:  OCR (CVPR 2023)
    • 视频实例分割: TAR (ICCV 2025)
    • 多模态分割:  WiCo (IJCAI 2023, Neurocomputing 2024); PVD (AAAI 2024); BriVIS (AAAI 2025)
    • 医学图像分割: Fused U-Net (Medical Physics 2021)

📈 学术成果

目前已发表论文 20+ 篇,总 Google Scholar 引用量为 Citations

所参与开源项目获得广泛关注,代表性项目的 GitHub Star 数如下:

VideoLLaMA2 Stars VideoLLaMA3 Stars Inf-CL Stars CMM Stars VideoRefer Stars

💬 联系方式

如果您对我的研究感兴趣,欢迎联系交流合作或提供实习 / 全职机会 🙏🙏。这是我的联系邮箱: cyanlaser@stu.pku.edu.cn