欢迎来到莫易川的主页!👏

我是北京大学智能科学与技术学院 ZERO Lab 的四年级博士研究生,导师为王奕森助理教授。我于上海交通大学取得工学学士学位,期间受王士林教授和严骏驰教授的共同指导。

我的研究方向聚焦于深度学习模型的安全对齐,尤其是针对大语言模型以及基于扩散的图像/文本生成模型(引用逾 900 次)。同时,我致力于探索下一代语言模型范式,涵盖模型架构、后训练及解码策略。近期,我尤其关注语言扩散模型,并探索其与传统自回归框架的融合可能性。

我是一个积极乐观、友善的人,享受在日常生活中发现小确幸并感到快乐。我尤其热爱运动,特别是羽毛球、游泳和跑步。我的长远愿景是构建安全的通用人工智能(AGI)系统,使其能够持续、可靠地造福全人类。面对日新月异的 AI 技术,我始终保持谦虚的心态向各位同行学习,也乐于迎接新的挑战。

我预计将于2027年6月毕业,目前正在寻找2027年夏季开始的工作机会,方向包括大语言模型训练、量化研究员以及学术岗位。欢迎通过 mo666666@stu.pku.edu.cn 与我联系!

🎓 教育经历

  • 北京大学
    2022年9月 – 至今
    博士研究生
    智能科学与技术学院
  • 上海交通大学
    2018年9月 – 2022年6月
    工学学士
    计算机学院

💯 学业成绩

本科阶段

  • GPA:90.93/100(或 3.94/4.3),排名:2/128(前 1.6%
  • 课程成绩:55.81% 在 A 以上,24.42% 在 A+ 以上

研究生阶段

  • GPA:3.88/4.0
  • 课程成绩:71.4% 在 A 以上

🏆 代表性荣誉

本科阶段

  • 2019.10 上海交通大学三好学生
  • 2019.12 国家奖学金(前 1%
  • 2020.12 国家奖学金(前 1%
  • 2021.12 潍柴动力奖学金
  • 2022.05 杰出寝室
  • 2022.06 上海市优秀毕业生(前 3%
  • 2022.06 上海交通大学优秀本科毕业论文(前 1%,1/128)

博士阶段

  • 2022.12 阳光寝室
  • 2023.09 小米一等奖学金
  • 2023.09 北京大学三好学生
  • 2024.09 ‌罗岳华奖学金
  • 2024.09 北京大学优秀科研奖
  • 2025.04 学术智星提名(五位研究生/年
  • 2025.11 淘天奖学金八位研究生/年
  • 2026.04 Optiver AI 博士奖学金全国仅六位博士生/年

📝 学术论文

(* 共同一作,# 学生一作)

已录用

  • TrustLDM: Benchmarking Trustworthiness in Language Diffusion Model

    ICLR 2026 Trustworthy Workshop (首个评估语言扩散模型可信性的基准)

  • Decoding Large Language Diffusion Models with Foreseeing Movement

    ICLR 2026 DeLTa Workshop

  • Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations

    TPAMI 2026 (已被 Anthropic 规模化采用)

  • On the Adversarial Transferability of Generalized “Skip Connections”

    TPAMI 2026 (SGM 的期刊扩展版,原论文 Google Scholar 引用逾 400 次)

  • Fight Back Against Jailbreaking via Prompt Adversarial Tuning

    NeurIPS 2024

  • TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors

    ICML 2024 (首个面向扩散模型的后门输入检测方法)

  • PID: Prompt-Independent Data Protection Against Latent Diffusion Models

    ICML 2024

  • When Adversarial Training Meets Vision Transformers: Recipes from Training to Architecture

    NeurIPS 2022 (Spotlight,前 5%) (首个提升 ViT 对抗鲁棒性的工作)

  • Improving Generative Adversarial Networks via Adversarial Learning in Latent Space

    NeurIPS 2022 (Spotlight,前 5%)

  • DICE: Domain-attack Invariant Causal Learning for Improved Data Privacy Protection and Adversarial Robustness

    SIGKDD 2022

  • Multi-Task Learning Improves Synthetic Speech Detection

    ICASSP 2022

预印本

  • SelfCAD: Protecting Your Efficient Reasoning Capabilities via Self-Cautious Insertion

    Preprint 2026

  • Generalist++: A Meta-learning Framework for Mitigating Trade-off in Adversarial Training

    arXiv 2025

  • Are Smarter LLMs Safer? Exploring Safety-Reasoning Trade-offs in Prompting and Fine-Tuning

    arXiv 2025 (首次揭示安全性与推理能力之间的权衡)

🤖 开源模型

  • Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making

    世界最强医疗大模型(2026 年 1 月)

  • Baichuan-M2: Scaling Medical Capability with Large Verifier System

    世界最强开源医疗大模型(2025 年 8 月)

🛠️ 学术服务

  • 审稿人:NeurIPS 2023/2024/2025;ICLR 2024/2025/2026;ICML 2024/2025/2026;CVPR 2025/2026;ICCV 2025;IJCAI 2024;AAAI 2025/2026;AISTATS 2025;ECCV 2026
  • NeurIPS 2023 杰出审稿人前 10.49%
  • NeurIPS 2024 杰出审稿人前 8.60%
  • NeurIPS 2025 杰出审稿人前 8.02%
  • ICLR 2025 优秀审稿人前 3%