欢迎来到莫易川的主页!👏
我是北京大学智能科学与技术学院 ZERO Lab 的四年级博士研究生,导师为王奕森助理教授。我于上海交通大学取得工学学士学位,期间受王士林教授和严骏驰教授的共同指导。
我的研究方向聚焦于深度学习模型的安全对齐,尤其是针对大语言模型以及基于扩散的图像/文本生成模型(引用逾 900 次)。同时,我致力于探索下一代语言模型范式,涵盖模型架构、后训练及解码策略。近期,我尤其关注语言扩散模型,并探索其与传统自回归框架的融合可能性。
我是一个积极乐观、友善的人,享受在日常生活中发现小确幸并感到快乐。我尤其热爱运动,特别是羽毛球、游泳和跑步。我的长远愿景是构建安全的通用人工智能(AGI)系统,使其能够持续、可靠地造福全人类。面对日新月异的 AI 技术,我始终保持谦虚的心态向各位同行学习,也乐于迎接新的挑战。
我预计将于2027年6月毕业,目前正在寻找2027年夏季开始的工作机会,方向包括大语言模型训练、量化研究员以及学术岗位。欢迎通过 mo666666@stu.pku.edu.cn 与我联系!
🎓 教育经历
- 北京大学2022年9月 – 至今博士研究生智能科学与技术学院
上海交通大学2018年9月 – 2022年6月工学学士计算机学院
💯 学业成绩
本科阶段
- GPA:90.93/100(或 3.94/4.3),排名:2/128(前 1.6%)
- 课程成绩:55.81% 在 A 以上,24.42% 在 A+ 以上
研究生阶段
- GPA:3.88/4.0
- 课程成绩:71.4% 在 A 以上
🏆 代表性荣誉
本科阶段
- 2019.10 上海交通大学三好学生
- 2019.12 国家奖学金(前 1%)
- 2020.12 国家奖学金(前 1%)
- 2021.12 潍柴动力奖学金
- 2022.05 杰出寝室
- 2022.06 上海市优秀毕业生(前 3%)
- 2022.06 上海交通大学优秀本科毕业论文(前 1%,1/128)
博士阶段
- 2022.12 阳光寝室
- 2023.09 小米一等奖学金
- 2023.09 北京大学三好学生
- 2024.09 罗岳华奖学金
- 2024.09 北京大学优秀科研奖
- 2025.04 学术智星提名(五位研究生/年)
- 2025.11 淘天奖学金(八位研究生/年)
- 2026.04 Optiver AI 博士奖学金(全国仅六位博士生/年)
📝 学术论文
(* 共同一作,# 学生一作)
已录用
TrustLDM: Benchmarking Trustworthiness in Language Diffusion Model
ICLR 2026 Trustworthy Workshop (首个评估语言扩散模型可信性的基准)
Decoding Large Language Diffusion Models with Foreseeing Movement
ICLR 2026 DeLTa Workshop
Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations
TPAMI 2026 (已被 Anthropic 规模化采用)
On the Adversarial Transferability of Generalized “Skip Connections”
TPAMI 2026 (SGM 的期刊扩展版,原论文 Google Scholar 引用逾 400 次)
Fight Back Against Jailbreaking via Prompt Adversarial Tuning
NeurIPS 2024
TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors
ICML 2024 (首个面向扩散模型的后门输入检测方法)
PID: Prompt-Independent Data Protection Against Latent Diffusion Models
ICML 2024
When Adversarial Training Meets Vision Transformers: Recipes from Training to Architecture
NeurIPS 2022 (Spotlight,前 5%) (首个提升 ViT 对抗鲁棒性的工作)
Improving Generative Adversarial Networks via Adversarial Learning in Latent Space
NeurIPS 2022 (Spotlight,前 5%)
DICE: Domain-attack Invariant Causal Learning for Improved Data Privacy Protection and Adversarial Robustness
SIGKDD 2022
Multi-Task Learning Improves Synthetic Speech Detection
ICASSP 2022
预印本
SelfCAD: Protecting Your Efficient Reasoning Capabilities via Self-Cautious Insertion
Preprint 2026
Generalist++: A Meta-learning Framework for Mitigating Trade-off in Adversarial Training
arXiv 2025
Are Smarter LLMs Safer? Exploring Safety-Reasoning Trade-offs in Prompting and Fine-Tuning
arXiv 2025 (首次揭示安全性与推理能力之间的权衡)
🤖 开源模型
Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making
世界最强医疗大模型(2026 年 1 月)
Baichuan-M2: Scaling Medical Capability with Large Verifier System
世界最强开源医疗大模型(2025 年 8 月)
🛠️ 学术服务
- 审稿人:NeurIPS 2023/2024/2025;ICLR 2024/2025/2026;ICML 2024/2025/2026;CVPR 2025/2026;ICCV 2025;IJCAI 2024;AAAI 2025/2026;AISTATS 2025;ECCV 2026
- NeurIPS 2023 杰出审稿人(前 10.49%)
- NeurIPS 2024 杰出审稿人(前 8.60%)
- NeurIPS 2025 杰出审稿人(前 8.02%)
- ICLR 2025 优秀审稿人(前 3%)
