Publications

mrCAD: Multimodal Refinement of Computer-aided Designs

William P. McCarthy, Saujas Vaduguru, Karl D. D. Willis, Justin Matejka, Judith E. Fan, Daniel Fried, Yewen Pu

EMNLP 2025

Multimodal instructions for iteratively refining CADs (text, sketch, or both) across human games—benchmarking VLMs on refinement versus generation.

When Robots Should Say "I Don't Know": Benchmarking Abstention in Embodied Question Answering

Tao Wu, Chuhao Zhou, Guangyu Zhao, Haozhi Cao, Yewen Pu, Jianfei Yang

CVPR 2026 (Highlight)

AbstainEQA pairs abstention cases with OpenEQA; frontier models still trail humans on knowing when to abstain.

Bongards at the Boundary of Perception and Reasoning: Programs or Language?

Cassidy Langenfeld, Claas Beger, Gloria Geng, Wasu Top Piriyakulkij, Keya Hu, Yewen Pu, Kevin Ellis

CogSci 2026

Neurosymbolic approach to Bongard problems: LLMs generate parameterized programmatic rules with Bayesian parameter fitting; evaluated on classification and full problem solving.

Code Driven Planning with Domain-Adaptive Critic

Zikang Tian, Shaohui Peng, Du Huang, Jiaming Guo, Ruizhi Chen, Rui Zhang, Xishan Zhang, Yuxuan Guo, Zidong Du, Qi Guo, Ling Li, Yewen Pu, Xing Hu, Yunji Chen

ICLR 2026

CoPiC uses LLM-generated planning programs to propose and refine plans and a trained domain-adaptive critic to pick candidates aligned with long-term rewards—stronger success with far fewer LLM queries (ALFWorld, NetHack, StarCraft II).