Tianhui Cai

About

I am a PhD student at the University of California, Los Angeles (UCLA), advised by Professor Jiaqi Ma. My research centers on autonomous driving, with a focus on vision-language-action (VLA) models, end-to-end driving, and 3D Gaussian Splatting (3DGS).

Previously, I received my M.S. in Computer Vision from Carnegie Mellon University, where I worked with Professor Fernando De La Torre on text-driven human motion synthesis. I earned my B.S. in Mathematics & Computer Science from the University of Illinois at Urbana-Champaign, graduating with Highest Distinction.

I am currently a research intern at NVIDIA, working on spatial understanding for vision-language-action models in autonomous driving.

Education

University of California, Los Angeles
Apr 2024 – Present

Ph.D., research focus on Autonomous Driving

Advisor: Professor Jiaqi Ma
Carnegie Mellon University
Aug 2022 – Dec 2023

M.S. in Computer Vision
University of Illinois at Urbana-Champaign
Aug 2018 – May 2022

B.S. in Mathematics & Computer Science

Publications

^* denotes equal contribution.

RelMap: Enhancing Online Map Construction with Class-Aware Spatial Relation and Semantic Priors

Tianhui Cai, Yun Zhang, Zewei Zhou, Zhiyu Huang, Jiaqi Ma

IEEE International Conference on Robotics and Automation (ICRA), 2026
Driving with Regulation: Trustworthy and Interpretable Decision-Making for Autonomous Driving with Retrieval-Augmented Reasoning

Tianhui Cai^*, Yifan Liu^*, Zewei Zhou, Haoxuan Ma, Seth Z. Zhao, Zhiwen Wu, Jiaqi Ma

AAAI Conference on Artificial Intelligence (AAAI), 2026
AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

Zewei Zhou^*, Tianhui Cai^*, Seth Z. Zhao, Yun Zhang, Zhiyu Huang, Bolei Zhou, Jiaqi Ma

Conference on Neural Information Processing Systems (NeurIPS), 2025
OASIS: Object-guided Attention for Text-conditional Diffusion Synthesis of Human Interaction Sequences

Chih-Chun Yang^*, Tianhui Cai^*, Zoltán Milacski, Aayush Prakash, Shingo Takagi, Daeil Kim, Fernando de la Torre

IEEE International Conference on Automatic Face and Gesture Recognition (FG), 2025
MotionGPT: Human Motion Synthesis with Improved Diversity and Realism via GPT-3 Prompting

Jose Ribeiro-Gomes^*, Tianhui Cai^*, Zoltan Milacski, Chen Wu, Alexandre Bernardino, Fernando De La Torre

IEEE Winter Conference on Applications of Computer Vision (WACV), 2024

Contact

Feel free to reach out about research, collaborations, or anything else.