Publications

You can also find my articles on my Google Scholar profile.

2026

SelfCAD: Protecting Your Efficient Reasoning Capabilities via Self-Cautious Insertion
Taiye Chen, Mingjie Li, Yichuan Mo, Shuo Feng, and Yisen Wang
Preprint 2026
[PDF]
TrustLDM: Benchmarking Trustworthiness in Language Diffusion Model
Yichuan Mo^*, Yukun Jiang^*, Yanbo Shi^*, Mingjie Li^*, Michael Backes, Yang Zhang, and Yisen Wang
ICLR 2026 Trustworthy Workshop (First benchmark for evaluating trustworthiness of language diffusion models)
[PDF]
Decoding Large Language Diffusion Models with Foreseeing Movement
Yichuan Mo^*, Quan Chen^*, Mingjie Li, Zeming Wei, and Yisen Wang
ICLR 2026 DeLTa Workshop
[PDF]
Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations
Zeming Wei, Yifei Wang, Li Ang, Yichuan Mo, and Yisen Wang
TPAMI 2026 (Adopted at scale by Anthropic)
[PDF] [Code] [Anthropic Blog]
On the Adversarial Transferability of Generalized “Skip Connections”
Yisen Wang, Yichuan Mo^#, Dongxian Wu, Mingjie Li, Xingjun Ma, and Zhouchen Lin
TPAMI 2026 (Journal extension of SGM, original paper cited 400+ times on Google Scholar)
[PDF] [Code]

Generalist++: A Meta-learning Framework for Mitigating Trade-off in Adversarial Training
Yisen Wang, Yichuan Mo^#, Hongjun Wang, Junyi Li, and Zhouchen Lin
arXiv 2025
[PDF]
Are Smarter LLMs Safer? Exploring Safety-Reasoning Trade-offs in Prompting and Fine-Tuning
Ang Li, Yichuan Mo, Mingjie Li, Yifei Wang, and Yisen Wang
arXiv 2025 (First to reveal the safety–reasoning capability trade-off)
[PDF]

Fight Back Against Jailbreaking via Prompt Adversarial Tuning
Yichuan Mo^*, Yuji Wang^*, Zeming Wei, and Yisen Wang
NeurIPS 2024
[PDF] [Code]
TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors
Yichuan Mo, Hui Huang, Mingjie Li, Ang Li, and Yisen Wang
ICML 2024 (First backdoor input detection method for diffusion models)
[PDF] [Code]
PID: Prompt-Independent Data Protection Against Latent Diffusion Models
Ang Li, Yichuan Mo, Mingjie Li, and Yisen Wang
ICML 2024
[PDF] [Code]

When Adversarial Training Meets Vision Transformers: Recipes from Training to Architecture
Yichuan Mo, Dongxian Wu, Yifei Wang, Yiwen Guo, and Yisen Wang
NeurIPS 2022 (Spotlight, Top 5%) (First work to improve adversarial robustness of ViTs)
[PDF] [Code] [Comment]
Improving Generative Adversarial Networks via Adversarial Learning in Latent Space
Yang Li, Yichuan Mo, Liangliang Shi, Junchi Yan, Xiaolu Zhang, and Jun Zhou
NeurIPS 2022 (Spotlight, Top 5%)
[PDF] [Code]
DICE: Domain-attack Invariant Causal Learning for Improved Data Privacy Protection and Adversarial Robustness
Qibing Ren, Yiting Chen, Yichuan Mo, Qitian Wu, and Junchi Yan
SIGKDD 2022
[PDF] [Code]
Multi-Task Learning Improves Synthetic Speech Detection
Yichuan Mo, and Shilin Wang
ICASSP 2022
[PDF] [Code]