研究方向
在 I²R, A*STAR 工作初期,主要从事对话摘要研究。随后 MERaLiON 团队组建,负责推进新加坡国家级大语言模型项目,我加入了这一由资深博士与工程师组成的核心团队,并在 AudioLLM 工作线中主导评测与数据准备工作,重点研究如何让大模型在东南亚多样化语言环境中保持稳定表现。相关工作于 2025 年告一段落。
担任 MERaLiON 团队技术负责人,项目隶属于 国家多模态大语言模型计划 (NMLP),由新加坡国家研究基金会 (NRF) 提供总额 7,000 万新币的资助。
当前研究课题
- 对话摘要
- 如何在保留关键信息的同时对多轮对话进行有效摘要?
- 哪些技术可以提升对话摘要的连贯性与事实一致性?
- 让大语言模型"听见" — AudioLLM
- 哪些技术可以将音频处理能力有效融入现有大语言模型架构?
- 实现跨模态无缝融合的最高效路径是什么?
- 如何设计基准以准确评估 AudioLLM 在真实场景下的性能?
发表论文
- MERaLiON-AudioLLM: Bridging Audio and Language with Large Language Models — ACL 2025
- AudioBench: A Universal Benchmark for Audio Large Language Models — NAACL 2025
- Instructive Dialogue Summarization with Query Aggregations — EMNLP 2023
- CRAFT: Extracting and Tuning Cultural Instructions from the Wild — C3NLP 2024
- In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models — EMNLP Findings 2024
- Resilience of Large Language Models for Noisy Instructions — EMNLP Findings 2024
- CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment — SUMEval 2025
- SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning — NAACL 2024
- SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages — EMNLP 2024
- MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders — ICASSP 2025
- CoinMath: Harnessing the Power of Coding Instruction for Math LLM — ACL Findings 2025
- Optimizing Cross-Modality Alignment Module for Audio Large Language Models — Data Intelligence 2025
- MNSC: Advancing Singlish Speech Understanding with Carefully Curated Corpora — ASRU 2025
- Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia — ACL 2025
- NTU Speechlab LLM-Based Multilingual ASR System for Interspeech MLC-SLM Challenge 2025 — MLC-SLM 2025
- Diversity and Complementarity of Speech Encoders across Diverse Tasks in a Multi-modal Large Language Model — ASRU 2025
- Towards Spoken Mathematical Reasoning: Benchmarking Speech-based Models over Multi-faceted Math Problems — arXiv 2025
- IFEval-Audio: Benchmarking Instruction-Following Capability in Audio-based Large Language Models — AACL 2025
- Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs — AACL 2025
- Train Multi-Modal LLMs to Understand Diverse Speech Paralinguistics by Distilling from Teachers with Meta-Information — AAAI 2026 Workshop on Audio-Centric AI
指导学生
- Pham The Binh Minh — 本科研究实习生,新加坡南洋理工大学 (2025-01 – 2025-05)。多模态 AudioLLM。
- Yiming Gao — 本科研究实习生,新加坡南洋理工大学 (2025-01 – 2025-05)。多模态大语言模型的指令跟随能力研究。(AACL 2025)
- Tey Xue Cong — A*STAR 学者实习生,新加坡义安理工学院 (2025-02 – 2025-04)。联合指导:Xunlong Zou。多语言语音数据采集与处理。
- Jayden Lum — A*STAR 学者实习生,新加坡义安理工学院 (2025-02 – 2025-04)。联合指导:Xunlong Zou。多语言语音数据采集与处理。
- Yanchao Li — ACIS 博士学者,新加坡南洋理工大学 (2024-01 – 2025-04)。联合指导:Nancy F. Chen。长视频理解。
- Ziyi Xu — 研究实习生,新加坡国立大学 (2024-07 – 2024-12)。联合指导:Sun Shuo。多模态对齐数据的采集与筛选。
- Ayrton San Joaquin — 研究助理,新加坡 DesCarte@CREATE (2023-09 – 2024-08)。基于梯度估计的大语言模型高效训练。(EMNLP 2024 Findings)
- Anh Thuc Nguyen — 研究实习生,美国北卡罗来纳大学教堂山分校 (2024-01 – 2024-05)。MERaLiON 项目的问题生成与评测数据集构建。
学术服务
- 出版主席:EMNLP 2023
- 本地组织委员会:EMNLP 2023
- 领域主席:ACL ARR (2024-2025)
- 编辑:APSIPA Transactions on Signal and Information Processing
- 审稿人:ACL、EMNLP、NAACL、ICASSP、IEEE TASLP
获奖
- 最佳论文奖(300 美元) — SUMEval Workshop, COLING 2025
- 最佳论文奖(200 美元) — C3NLP Workshop, ACL 2024
视频
- MERaLiON 项目介绍 — MERaLiON 项目总体介绍。youtube.com/embed/nBA3MqwjN3I
- MERaLiON 演示 — MERaLiON AudioLLM 能力演示。youtube.com/embed/HZSa7vT73Lg
演讲
- 2025.03 — Lorong AI,新加坡。Evaluation on Audio-LLMs and Beyond. 讲稿