Publications

Xuan Chen, Shiwei Feng, Zikang Xiong, Shengwei An, Yunshu Mao, Lu Yan, Guanhong Tao, Wenbo Guo, Xiangyu Zhang (2025). Temporal Logic-Based Multi-Vehicle Backdoor Attacks against Offline RL Agents in End-to-end Autonomous Driving. In NeurIPS.

Shiwei Feng, Xiangzhe Xu, Xuan Chen, Kaiyuan Zhang, Syed Yusuf Ahmed, Zian Su, Mingwei Zheng, Xiangyu Zhang (2025). INTENTEST: Stress Testing for Intent Integrity in API-Calling LLM Agents. In NeurIPS.

Lu Yan, Siyuan Cheng, Xuan Chen, Kaiyuan Zhang, Guangyu Shen, Zhuo Zhang, Xiangyu Zhang (2025). ASPIRER: Bypassing System Prompts with Permutation-based Backdoors in LLMs. In ACL.

Xuan Chen, Yuzhou Nie, Wenbo Guo, Xiangyu Zhang (2024). When LLM Meets DRL: Advancing Jailbreaking Efficiency via DRL-guided Search. In NeurIPS.

Xuan Chen, Yuzhou Nie, Lu Yan, Yunshu Mao, Wenbo Guo, Xiangyu Zhang (2024). RL-JACK: Reinforcement Learning-powered Black-box Jailbreaking Attack against LLMs.

Xuan Chen, Guanhong Tao, Xiangyu Zhang (2023). Dynamics Model Based Adversarial Training For Competitive Reinforcement Learning. In NeurIPS.

Lu Yan, Zhuo Zhang, Guanhong Tao, Kaiyuan Zhang, Xuan Chen, Guangyu Shen, Xiangyu Zhang (2023). ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned Samples in NLP. In NeurIPS.

Xuan Chen, Wenbo Guo, Guanhong Tao, Xiangyu Zhang, Dawn Song (2023). BIRD: Generalizable Backdoor Detection and Removal for Deep Reinforcement Learning. In NeurIPS.