2023 年 4 月 - 2025 年 4 月

研究员 · MERaLiON 团队技术负责人

新加坡 A*STAR 资讯通信研究院 (I²R) · 新加坡

研究方向

在 I²R, A*STAR 工作初期,主要从事对话摘要研究。随后 MERaLiON 团队组建,负责推进新加坡国家级大语言模型项目,我加入了这一由资深博士与工程师组成的核心团队,并在 AudioLLM 工作线中主导评测与数据准备工作,重点研究如何让大模型在东南亚多样化语言环境中保持稳定表现。相关工作于 2025 年告一段落。

担任 MERaLiON 团队技术负责人,项目隶属于 国家多模态大语言模型计划 (NMLP),由新加坡国家研究基金会 (NRF) 提供总额 7,000 万新币的资助。

当前研究课题

  • 对话摘要
    • 如何在保留关键信息的同时对多轮对话进行有效摘要?
    • 哪些技术可以提升对话摘要的连贯性与事实一致性?
  • 让大语言模型"听见" — AudioLLM
    • 哪些技术可以将音频处理能力有效融入现有大语言模型架构?
    • 实现跨模态无缝融合的最高效路径是什么?
    • 如何设计基准以准确评估 AudioLLM 在真实场景下的性能?

发表论文

指导学生

  • Pham The Binh Minh — 本科研究实习生,新加坡南洋理工大学 (2025-01 – 2025-05)。多模态 AudioLLM。
  • Yiming Gao — 本科研究实习生,新加坡南洋理工大学 (2025-01 – 2025-05)。多模态大语言模型的指令跟随能力研究。(AACL 2025)
  • Tey Xue Cong — A*STAR 学者实习生,新加坡义安理工学院 (2025-02 – 2025-04)。联合指导:Xunlong Zou。多语言语音数据采集与处理。
  • Jayden Lum — A*STAR 学者实习生,新加坡义安理工学院 (2025-02 – 2025-04)。联合指导:Xunlong Zou。多语言语音数据采集与处理。
  • Yanchao Li — ACIS 博士学者,新加坡南洋理工大学 (2024-01 – 2025-04)。联合指导:Nancy F. Chen。长视频理解。
  • Ziyi Xu — 研究实习生,新加坡国立大学 (2024-07 – 2024-12)。联合指导:Sun Shuo。多模态对齐数据的采集与筛选。
  • Ayrton San Joaquin — 研究助理,新加坡 DesCarte@CREATE (2023-09 – 2024-08)。基于梯度估计的大语言模型高效训练。(EMNLP 2024 Findings)
  • Anh Thuc Nguyen — 研究实习生,美国北卡罗来纳大学教堂山分校 (2024-01 – 2024-05)。MERaLiON 项目的问题生成与评测数据集构建。

学术服务

  • 出版主席:EMNLP 2023
  • 本地组织委员会:EMNLP 2023
  • 领域主席:ACL ARR (2024-2025)
  • 编辑:APSIPA Transactions on Signal and Information Processing
  • 审稿人:ACL、EMNLP、NAACL、ICASSP、IEEE TASLP

获奖

  • 最佳论文奖(300 美元) — SUMEval Workshop, COLING 2025
  • 最佳论文奖(200 美元) — C3NLP Workshop, ACL 2024

视频

演讲

  • 2025.03 — Lorong AI,新加坡。Evaluation on Audio-LLMs and Beyond. 讲稿