欢迎来到莫易川的主页！👏

我是北京大学智能科学与技术学院 ZERO Lab 的四年级博士研究生，导师为王奕森助理教授。我于上海交通大学取得工学学士学位，期间受王士林教授和严骏驰教授的共同指导。

我的研究方向聚焦于深度学习模型的安全对齐，尤其是针对大语言模型以及基于扩散的图像／文本生成模型（引用逾 一千次）。同时，我致力于探索下一代语言模型范式，涵盖模型架构、后训练及解码策略。近期，我尤其关注语言扩散模型，并探索其与传统自回归框架的融合可能性。

我是一个积极乐观、友善的人，享受在日常生活中发现小确幸并感到快乐。我尤其热爱运动，特别是羽毛球、游泳和跑步。我的长远愿景是构建安全的通用人工智能（AGI）系统，使其能够持续、可靠地造福全人类。面对日新月异的 AI 技术，我始终保持谦虚的心态向各位同行学习，也乐于迎接新的挑战。

我预计将于2027年6月毕业，目前正在寻找2027年夏季开始的工作机会，方向包括大语言模型训练、量化研究员以及学术岗位。欢迎通过 mo666666@stu.pku.edu.cn 与我联系！

🎓 教育经历

北京大学
2022年9月 – 至今
博士研究生
智能科学与技术学院
上海交通大学
2018年9月 – 2022年6月
工学学士
计算机学院

💯 学业成绩

本科阶段

GPA：90.93/100（或 3.94/4.3），排名：2/128（前 1.6%）
课程成绩：55.81% 在 A 以上，24.42% 在 A+ 以上

研究生阶段

GPA：3.88/4.0
课程成绩：71.4% 在 A 以上

🏆 代表性荣誉

本科阶段

2019.10 上海交通大学三好学生
2019.12 国家奖学金（前 1%）
2020.12 国家奖学金（前 1%）
2021.12 潍柴动力奖学金
2022.05 杰出寝室
2022.06 上海市优秀毕业生（前 3%）
2022.06 上海交通大学优秀本科毕业论文（前 1%，1/128）

博士阶段

2022.12 阳光寝室
2023.09 小米一等奖学金
2023.09 北京大学三好学生
2024.09 ‌罗岳华奖学金
2024.09 北京大学优秀科研奖
2025.04 学术智星提名（五位研究生/年）
2025.11 淘天奖学金（八位研究生/年）
2026.04 Optiver AI 博士奖学金（全国仅六位博士生/年）

📝 学术论文

（* 共同一作，# 学生一作）

已录用

TrustLDM: Benchmarking Trustworthiness in Language Diffusion Model
Yichuan Mo^*, Yukun Jiang^*, Yanbo Shi^*, Mingjie Li^*, Michael Backes, Yang Zhang, and Yisen Wang
ICLR 2026 Trustworthy Workshop （首个评估语言扩散模型可信性的基准）
[PDF]
Decoding Large Language Diffusion Models with Foreseeing Movement
Yichuan Mo^*, Quan Chen^*, Mingjie Li, Zeming Wei, and Yisen Wang
ICLR 2026 DeLTa Workshop
[PDF]
Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations
Zeming Wei, Yifei Wang, Li Ang, Yichuan Mo, and Yisen Wang
TPAMI 2026 （已被 Anthropic 规模化采用）
[PDF] [Code] [Anthropic Blog]
On the Adversarial Transferability of Generalized “Skip Connections”
Yisen Wang, Yichuan Mo^#, Dongxian Wu, Mingjie Li, Xingjun Ma, and Zhouchen Lin
TPAMI 2026 （SGM 的期刊扩展版，原论文 Google Scholar 引用逾 400 次）
[PDF] [Code]
Fight Back Against Jailbreaking via Prompt Adversarial Tuning
Yichuan Mo^*, Yuji Wang^*, Zeming Wei, and Yisen Wang
NeurIPS 2024
[PDF] [Code]
TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors
Yichuan Mo, Hui Huang, Mingjie Li, Ang Li, and Yisen Wang
ICML 2024 （首个面向扩散模型的后门输入检测方法）
[PDF] [Code]
PID: Prompt-Independent Data Protection Against Latent Diffusion Models
Ang Li, Yichuan Mo, Mingjie Li, and Yisen Wang
ICML 2024
[PDF] [Code]
When Adversarial Training Meets Vision Transformers: Recipes from Training to Architecture
Yichuan Mo, Dongxian Wu, Yifei Wang, Yiwen Guo, and Yisen Wang
NeurIPS 2022 （Spotlight，前 5%） （首个提升 ViT 对抗鲁棒性的工作）
[PDF] [Code] [Comment]
Improving Generative Adversarial Networks via Adversarial Learning in Latent Space
Yang Li, Yichuan Mo, Liangliang Shi, Junchi Yan, Xiaolu Zhang, and Jun Zhou
NeurIPS 2022 （Spotlight，前 5%）
[PDF] [Code]
DICE: Domain-attack Invariant Causal Learning for Improved Data Privacy Protection and Adversarial Robustness
Qibing Ren, Yiting Chen, Yichuan Mo, Qitian Wu, and Junchi Yan
SIGKDD 2022
[PDF] [Code]
Multi-Task Learning Improves Synthetic Speech Detection
Yichuan Mo, and Shilin Wang
ICASSP 2022
[PDF] [Code]

预印本

SelfCAD: Protecting Your Efficient Reasoning Capabilities via Self-Cautious Insertion
Taiye Chen, Mingjie Li, Yichuan Mo, Shuo Feng, and Yisen Wang
Preprint 2026
[PDF]
Generalist++: A Meta-learning Framework for Mitigating Trade-off in Adversarial Training
Yisen Wang, Yichuan Mo^#, Hongjun Wang, Junyi Li, and Zhouchen Lin
arXiv 2025
[PDF]
Are Smarter LLMs Safer? Exploring Safety-Reasoning Trade-offs in Prompting and Fine-Tuning
Ang Li, Yichuan Mo, Mingjie Li, Yifei Wang, and Yisen Wang
arXiv 2025 （首次揭示安全性与推理能力之间的权衡）
[PDF]

🤖 开源模型

Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making
世界最强医疗大模型（2026 年 1 月）
[PDF] [github] [huggingface] [blog]
Baichuan-M2: Scaling Medical Capability with Large Verifier System
世界最强开源医疗大模型（2025 年 8 月）
[PDF] [github] [huggingface] [blog]

🛠️ 学术服务

审稿人：NeurIPS 2023/2024/2025；ICLR 2024/2025/2026；ICML 2024/2025/2026；CVPR 2025/2026；ICCV 2025；IJCAI 2024；AAAI 2025/2026；AISTATS 2025；ECCV 2026
NeurIPS 2023 杰出审稿人（前 10.49%）
NeurIPS 2024 杰出审稿人（前 8.60%）
NeurIPS 2025 杰出审稿人（前 8.02%）
ICLR 2025 优秀审稿人（前 3%）

Yichuan Mo

🎓 教育经历

💯 学业成绩

🏆 代表性荣誉

📝 学术论文

TrustLDM: Benchmarking Trustworthiness in Language Diffusion Model

Decoding Large Language Diffusion Models with Foreseeing Movement

Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations

On the Adversarial Transferability of Generalized “Skip Connections”

Fight Back Against Jailbreaking via Prompt Adversarial Tuning

TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors

PID: Prompt-Independent Data Protection Against Latent Diffusion Models

When Adversarial Training Meets Vision Transformers: Recipes from Training to Architecture

Improving Generative Adversarial Networks via Adversarial Learning in Latent Space

DICE: Domain-attack Invariant Causal Learning for Improved Data Privacy Protection and Adversarial Robustness

Multi-Task Learning Improves Synthetic Speech Detection

SelfCAD: Protecting Your Efficient Reasoning Capabilities via Self-Cautious Insertion

Generalist++: A Meta-learning Framework for Mitigating Trade-off in Adversarial Training

Are Smarter LLMs Safer? Exploring Safety-Reasoning Trade-offs in Prompting and Fine-Tuning

🤖 开源模型

Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making

Baichuan-M2: Scaling Medical Capability with Large Verifier System

🛠️ 学术服务