MLSys 2026 Thursday 05/21

Timezone: US/Pacific

Full Schedule Mon Tue Wed Thu Fri

Registration Desk

Registration

8:00 AM - 5:00 PM

Oral

Industry Track Oral Presentation: Agentic AI/MLSys

8:30 AM - 10:00 AM

6 Events in this session

ADR: AN AGENTIC DETECTION SYSTEMFORENTERPRISE AGENTIC AI SECURITY

Chenning Li ⋅ Pan Hu ⋅ Justin Xu ⋅ Baris Ozbas ⋅ Olivia Liu ⋅ Caroline Van ⋅ Manxue Li ⋅ Wei Zhou ⋅ Mohammad Alizadeh ⋅ Pengyu Zhang ⋅ KK Sriramadhesikan ⋅ Ming Zhang

PROMPTS: PeRformance Optimization via Multi-Agent Planning for LLM Training and Serving

Yuran Ding ⋅ Ruobing Han ⋅ Xiaofan Zhang ⋅ Xinwei Chen

Agentic Operator Generation for ML ASICs

Alec Hammond ⋅ Aram Markosyan ⋅ Aman Dontula ⋅ Simon Mahns ⋅ Zacharias Fisches ⋅ Dmitrii Pedchenko ⋅ Keyur Muzumdar ⋅ Natacha Supper ⋅ Site Cao ⋅ Haishan Zhu ⋅ Mark Saroufim ⋅ Joe Isaacson ⋅ Laura Wang ⋅ Warren Hunt ⋅ Kaustubh Gondkar ⋅ Roman Levenstein ⋅ Gabriel Synnaeve ⋅ Richard Li ⋅ Jacob Kahn ⋅ Ajit Mathews

Cost-aware Duration Prediction for Software Upgrades in Datacenters

Yi Ding ⋅ Aijia Gao ⋅ Thibaud Ryden ⋅ Michal Sedlak ⋅ Essam Ewaisha ⋅ Igor Marnat ⋅ Henry (Hank) Hoffmann

The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents

Xingyao Wang ⋅ Simon Rosenberg ⋅ Juan Michelini ⋅ Calvin Smith ⋅ Hoang Tran ⋅ Engel Nyst ⋅ Rohit Malhotra ⋅ Xuhui Zhou ⋅ Valerie Chen ⋅ Robert Brennan ⋅ Graham Neubig

BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-oriented Token Batching

Zhen Zheng ⋅ Xin Ji ⋅ Taosong Fang ⋅ Fanghao Zhou ⋅ Chuanjie Liu ⋅ Gang Peng

Go to Event Page

Oral

Research Track Oral Presentation: LLM Serving 5

8:30 AM - 10:00 AM

5 Events in this session

PRISM: Parametrically Refactor Inference for Speculative Decoding Draft Models

Xuliang Wang ⋅ Yuetao Chen ⋅ Maochan Zhen ⋅ Fang LIU ⋅ Xinzhou Zheng ⋅ Xingwu Liu ⋅ Hong Xu ⋅ Ming Li

CDLM: Consistency Diffusion Language Models for Faster Sampling

Minseo Kim ⋅ Chenfeng Xu ⋅ Coleman Hooper ⋅ Harman Singh ⋅ Ben Athiwaratkun ⋅ Ce Zhang ⋅ Kurt Keutzer ⋅ Amir Gholami

Speculative Decoding: Performance or Illusion?

Xiaoxuan Liu ⋅ Jiaxiang Yu ⋅ Jongseok Park ⋅ Ion Stoica ⋅ Alvin Cheung

SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding

Jameson Sandler ⋅ Jacob K Christopher ⋅ Tom Hartvigsen ⋅ Ferdinando Fioretto

Accelerating Large-Scale Reasoning Model Inference with Sparse Self-Speculative Decoding

Yilong Zhao ⋅ Jiaming Tang ⋅ Kan Zhu ⋅ Zihao Ye ⋅ Chi-Chih Chang ⋅ Chaofan Lin ⋅ Jongseok Park ⋅ Guangxuan Xiao ⋅ Mohamed Abdelfattah ⋅ Mingyu Gao ⋅ Baris Kasikci ⋅ Song Han ⋅ Ion Stoica

Go to Event Page

Invited Talk

Rethinking Pretraining: Data and Architecture

Luke Zettlemoyer

10:30 AM - 11:30 AM

Large language model training follows a standard pipeline:x000D tokenization, pretraining, possibly mid-training, and post training orx000D alignment. Despite its wild success, we understand relatively littlex000D about this recipe and are almost certainly missing many opportunitiesx000D to improve it. In this talk, I will focus on three such cases. I’llx000D describe our work on data efficient post training (e.g. LIMA, ALMA,x000D and s1) where we argue that nearly all advanced model capabilitiesx000D ultimately come from the pretraining data, even if effective alignmentx000D is still essential for controlling model behavior. I will alsox000D describe new methods for extracting more signal from the pretrainingx000D data, including new hierarchical architectures for byte-level languagex000D models (e.g. BLT) that are both tokenizer-free and scale better thanx000D traditional BPE-based methods, especially in the long tail. Finally, Ix000D will discuss decentralized, modular training algorithms (e.g. BTM)x000D that better isolate and control the influence of specific data onx000D specific model components and behaviors. Together, these methodsx000D promise to simplify training and improve scaling, by centering andx000D amplifying the influence of data in architecture design.

... more

Speaker Bio

Luke Zettlemoyer is a Professor in the Paul G. Allen School of Computer Science & Engineering at the University of Washington and a Senior Research Director at Meta. His research interests are in the intersections of natural language processing, machine learning, and decision making under uncertainty, with a recent emphasis on the science of training both text-based and multi-modal language models. Luke did postdoctoral research at the University of Edinburgh, earned his PhD at MIT, and was an undergraduate at NC State University. His honors include numerous paper awards, being named a Schmidt AI 2050 Senior Follow in 2025, elected President of the Association for Computational Linguistics (ACL) in 2024, named a Fellow of the ACL in 2021 along with winning the Presidential Early Career Award for Scientists and Engineers (PECASE) award in 2016, an Allen Distinguished Investigator Award in 2014, and the National Science Foundation (NSF) International Research Fellowship in 2009.

... more

Session

Overflow / Viewing

10:30 AM - 11:30 AM

Oral

Industry Track Oral Presentation: LLM Serving 6

1:00 PM - 2:15 PM

5 Events in this session

SHIP: SRAM-Based Huge Inference Pipelines for Fast LLM Serving

Andrew Bitar ⋅ Aravind Vayalapra ⋅ Baorui Zhou ⋅ Matthew Boyd ⋅ Charlie Wang ⋅ Sahil Parmar ⋅ Eugene Sha ⋅ Gautam Rayaprolu ⋅ Peter Hicks ⋅ Alex Bowe ⋅ Roberto DiCecco ⋅ Santosh Raghavan ⋅ Evan Patrick ⋅ Josip Smolcic ⋅ David Han ⋅ Kris Kang ⋅ Andy Rock ⋅ Josh Hay ⋅ Mohamed Eldafrawy ⋅ Mikhail Kandel ⋅ Daulet Zhanguzin ⋅ Omar Kilani ⋅ Liming Gong ⋅ Andrew Paprotskyi ⋅ Arash Taheri-Dezfouli ⋅ Josh Fender ⋅ Andrew Ling

Beyond the Buzz: A Pragmatic Take on Inference Disaggregation

Tiyasa Mitra ⋅ Ritika Borkar ⋅ Nidhi Bhatia ⋅ Shivam Raj ⋅ hongkuan zhou ⋅ Yan Ru Pei ⋅ Vishwanath Venkatesan ⋅ Kyle Kranen ⋅ Ramon Matas ⋅ Dheevatsa Mudigere ⋅ Ritchie Zhao ⋅ Maximilian Golub ⋅ Arpan Dutta ⋅ Suresh Nambi ⋅ Sailaja Madduri ⋅ Dharmesh Jani ⋅ Brian Pharris ⋅ Itay Neeman ⋅ Bita Darvish Rouhani

Optimizing Deployment Configurations for LLM Inference

Sungmin Cho ⋅ Jaewon Lee ⋅ Chunqiang Tang ⋅ Yejin Lee ⋅ Geonhwa Jeong ⋅ Anca Agape ⋅ Scott Batura ⋅ Vincent Boivin ⋅ Stephen Chen ⋅ Renfei Chen ⋅ Sijia Chen ⋅ Yan Cui ⋅ Bradley Davis ⋅ Summer Deng ⋅ Nick Egebo ⋅ Emad El-Haraty ⋅ Sebastien Estienne ⋅ Lu Fang ⋅ Lu Fang ⋅ Joshua Fromm ⋅ Raj Ganapathy ⋅ Vedanuj Goswami ⋅ Liangpeng Guo ⋅ Ye Hu ⋅ Chenheli Hua ⋅ Jianyu Huang ⋅ Aya Ibrahim ⋅ Niranjan Jagannath ⋅ Hongyi Jia ⋅ Changkyu Kim ⋅ Shikai Li ⋅ Brandon Liu ⋅ Jiawen Liu ⋅ Ajit Mathews ⋅ Xiaozhu Meng ⋅ Vlad Tiberiu Mihailescu ⋅ Amit Nagpal ⋅ Maxim Naumov ⋅ Michal Ostrowski ⋅ Jialin Ouyang ⋅ Jason Park ⋅ Sarunya Pumma ⋅ Ye Qi ⋅ Zixi Qi ⋅ Jeremy Francis Reizenstein ⋅ Rajasi Saha ⋅ Nandhini Santhanam ⋅ Zhan Shu ⋅ Ruan Silva ⋅ Grigory Sizov ⋅ Jon Swenson ⋅ Brandon Taylor ⋅ Chris Thi ⋅ Adolfo Victoria ⋅ Yunfan Wang ⋅ Pengchao Wang ⋅ Wenchen Wang ⋅ Xiaodong Wang ⋅ Bram Wasti ⋅ Wei Xu ⋅ Qirui Yang ⋅ Jingyi Yang ⋅ Hector Yuen ⋅ Zhengyuan Zhang ⋅ Jing Zhang ⋅ Yi Zhen ⋅ Yanjun Zhou

Meeting SLOs, Slashing Hours: Automated Enterprise LLM Optimization with OptiKIT

Nicholas Santavas ⋅ Kareem Eissa ⋅ Patrycja Cieplicka ⋅ Piotr Florek ⋅ Matteo Nulli ⋅ Stefan Vasilev ⋅ Seyyed Hashemi ⋅ Antonios Gasteratos ⋅ Shahram Khadivi

Scaling Up Large Language Models Serving Systems for Semantic Job Search

Kayhan Behdin ⋅ Qingquan Song ⋅ Sriram Vasudevan ⋅ Jian Sheng ⋅ Xiaojing Ma ⋅ Zhengze Zhou ⋅ Chuanrui Zhu ⋅ Guoyao Li ⋅ Chanh Nguyen ⋅ Sayan Ghosh ⋅ Hejian Sang ⋅ Ata Fatahi ⋅ Sundara Ramachandran ⋅ Xiaoqing Wang ⋅ Qing Lan ⋅ Vinay S ⋅ Qi Guo ⋅ Caleb Johnson ⋅ Zhipeng Wang ⋅ Fedor Borisyuk

Go to Event Page

Oral

Research Track Oral Presentation: Efficient ML

1:00 PM - 2:15 PM

5 Events in this session

HELIOS : Adaptive Model And Early-Exit Selection for Efficient LLM Inference Serving

Avinash Kumar ⋅ Shashank Nag ⋅ Jason Clemons ⋅ LIZY JOHn ⋅ Poulami Das

IntAttention: A Fully Integer Attention Pipeline for Efficient Edge Inference

Wanli Zhong ⋅ Haibo Feng ⋅ Zirui Zhou ⋅ Hanyang Peng ⋅ Shiqi Yu

REPARO: LOSS-RESILIENT GENERATIVE CODEC FOR VIDEO CONFERENCING

Tianhong Li ⋅ Vibhaalakshmi Sivaraman ⋅ Pantea Karimi ⋅ Lijie Fan ⋅ Mohammad Alizadeh ⋅ Dina Katabi

Rethinking DVFS for Mobile LLMs: Unified Energy-Aware Scheduling with CORE

Zongpu Zhang ⋅ Pranab Dash ⋅ Qiang Xu ⋅ Y. Charlie Hu ⋅ Jian Li ⋅ Haibing Guan

EarthSight: A Distributed Framework for Low-Latency Satellite Intelligence

Ansel Erol ⋅ Seungjun Lee ⋅ Divya Mahajan

Go to Event Page

Oral

Industry Track Oral Presentation: LLM Training 4

2:45 PM - 4:15 PM

6 Events in this session

Sparing Strategies to Minimize Reliability Impact On Large Training Jobs

Kevin Quirk ⋅ Matthew Lennie ⋅ Ehsan K. Ardestani ⋅ Satyajeet Ahuja ⋅ Matthew Bergeron ⋅ Andrew Grier ⋅ Zhaodong Wang ⋅ Mustafa Ozdal ⋅ Xu Zhang ⋅ Abhinav Triguna ⋅ Ying Zhang ⋅ Mathew Oldham ⋅ Chunqiang Tang

veScale-FSDP: Flexible and High-Performance FSDP at Scale

Zezhou Wang ⋅ Youjie Li ⋅ Zhiqi Lin ⋅ Jiacheng Yang ⋅ Cong Xie ⋅ Guanyu Feng ⋅ ZHENG ZHONG ⋅ Ziyue Huang ⋅ Hongyu Zhu ⋅ Zhi Zhang ⋅ Yanghua Peng ⋅ Xin Liu

AXLearn: Modular, Hardware-Agnostic Large Model Training

Mark Lee ⋅ Chang Lan ⋅ Tom Gunter ⋅ John Peebles ⋅ Hanzhi Zhou ⋅ Xuan Zou ⋅ Sneha Bangalore ⋅ Chung-Cheng Chiu ⋅ Nan Du ⋅ Xianzhi Du ⋅ Philipp Dufter ⋅ Liang He ⋅ Ruixuan Hou ⋅ Haoshuo Huang ⋅ Dongseong Hwang ⋅ Xiang Kong ⋅ Jinhao Lei ⋅ Tao Lei ⋅ Meng Li ⋅ Li Li ⋅ Jiarui Lu ⋅ Zhiyun Lu ⋅ Yiping Ma ⋅ David Qiu ⋅ Vivek Rathod ⋅ Senyu Tong ⋅ Zhucheng Tu ⋅ Chong Wang ⋅ Jianyu Wang ⋅ Yongqiang Wang ⋅ Zirui Wang ⋅ Floris Weers ⋅ Sam Wiseman ⋅ Guoli Yin ⋅ Bowen Zhang ⋅ Xiyou Zhou ⋅ Danyang Zhuo ⋅ Cheng Leong ⋅ Ruoming Pang

GUARD: SCALABLE STRAGGLER DETECTION AND NODE HEALTH MANAGEMENT FOR LARGE-SCALE TRAINING

guanliang liu ⋅ Abhinandan Patni ⋅ congzhu lin ⋅ Zoe Zeng ⋅ Jack Wittmayer ⋅ Yinghong Liu ⋅ josh wu ⋅ Anthony Ko ⋅ Alexander Zhipa ⋅ Ashvin Nihalani ⋅ Binxuan Huang ⋅ Cong Cheng ⋅ Mi Sun ⋅ Vijay rajakumar ⋅ Rejith Joseph ⋅ Parthasarathy Govindarajen

MoEBlaze: Breaking the Memory Wall for Efficient MoE Training on Modern GPUs

Jiyuan Zhang ⋅ Yining Liu ⋅ Siqi Yan ⋅ Lisen Deng ⋅ Jennifer Cao ⋅ Shuqi Yang ⋅ Bi Xue ⋅ Min Ni ⋅ Shen Li

FreeScale: Distributed Training for Sequence Recommendation Models with Minimal Scaling Cost

Chenhao Feng ⋅ Haoli Zhang ⋅ Shakhzod Ali-zade ⋅ Yanli Zhao ⋅ Liang Luo ⋅ Jennifer Cao ⋅ Lisen Deng ⋅ Siqiao Chen ⋅ Chenyu Zhao ⋅ Tristan Rice ⋅ Daniel Johnson ⋅ Min Si ⋅ Tiantu Xu ⋅ Yi Zhang ⋅ Evgenii Kolpakov ⋅ Siqi Yan ⋅ Chuanhao Zhuge ⋅ Min Ni ⋅ Bi Xue ⋅ Qunshu Zhang ⋅ Shen Li

Go to Event Page

Oral

Research Track Oral Presentation: Benchmarks and Evaluation

2:45 PM - 4:15 PM

5 Events in this session

Massive-Scale Out-Of-Core UMAP on the GPU

Jinsol Park ⋅ Corey Nolet ⋅ Edward Raff ⋅ Tim Oates ⋅ Akira Naruse

Charon: A Unified and Fine-Grained Simulator for Large-Scale LLM Training and Inference

Mengtian Yang ⋅ Zhekun Zhang ⋅ Mingheng Wu ⋅ jianwen yan ⋅ Hanshi Sun ⋅ Li-Wen Chang

Hawkeye: Reproducing GPU-Level Non-Determinism

Erez Badash ⋅ Dan Boneh ⋅ Ilan Komargodski ⋅ Megha Srivastava

DriftBench: Measuring and Predicting Infrastructure Drift in LLM Serving Systems

Gianluigi Vitale

PARROT: Persuasion and Agreement Robustness Rating of Output Truth — A Sycophancy Robustness Benchmark for LLMs

Özay Ezerceli ⋅ Mahmoud ElHussieni

Go to Event Page

Oral

Industry Track Oral Presentation: Benchmarks and Evaluation

4:30 PM - 6:00 PM

6 Events in this session

XProf: An Open, Scalable, and Extensible Profiling System for the Modern ML Stack

Robert Hundt ⋅ Naveen Kumar ⋅ Jose Baiocchi Paredes ⋅ Scott Goodson ⋅ Clive Verghese ⋅ Prasanna Rengasamy ⋅ Kelvin Le ⋅ Jiya Zhang ⋅ Charles Alaras ⋅ Yin Zhang ⋅ Kan Cai ⋅ Jiten Thakkar ⋅ Sai Ganesh Bandiatmakuri ⋅ Yogesh SY ⋅ Ani Udipi ⋅ Vikas Agarwal

AIRS: Scaling Live Inference in Resource Constrained Environments

Nilesh Jagnik ⋅ Xiaohao Yang ⋅ Tuan Do ⋅ Chelsea Chen ⋅ Harshvardhan GM

SAKURAONE: An Open Ethernet–Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment

Fumikazu KONISHI ⋅ Yuuki Tsubouchi ⋅ Hirofumi Tsuruta

MLCommons Chakra: Advancing Performance Benchmarking and Co-design using Standardized Execution Traces

Srinivas ⋅ Andrey Balogh ⋅ Brad B ⋅ Brian Coutinho ⋅ Louis Feng ⋅ Sheng Fu ⋅ Sanshan Gao ⋅ Mehryar Garakani ⋅ Taekyung Heo ⋅ David Kanter ⋅ Josh Ladd ⋅ Ziwei Li ⋅ Winston Liu ⋅ Changhai Man ⋅ Dan Mihailescu ⋅ Spandan More ⋅ Joongun Park ⋅ Ashwin Ramachandran ⋅ Vinay Ramakrishnaiah ⋅ Saeed Rashidi ⋅ Vijay Janapa Reddi ⋅ Puneet Sharma ⋅ Phio Tian ⋅ William Won ⋅ Hanjiang Wu ⋅ Huan Xu ⋅ Jinsun Yoo ⋅ Tushar Krishna

ProfInfer: An eBPF-based Fine-Grained LLM Inference Profiler

Bohua Zou ⋅ Debayan Roy ⋅ Dhimankumar Airao ⋅ Weihao Xu ⋅ Binqi Sun ⋅ Yutao Liu ⋅ Haibo Chen

Machine Learning Fleet Efficiency: Improving TPU Systems at Scale with ML Productivity Goodput

Arissa Wongpanich ⋅ Tayo Oguntebi ⋅ Jose Baiocchi Paredes ⋅ Yu Wang ⋅ Phitchaya Phothilimthana ⋅ Ritwika Mitra ⋅ Zongwei Zhou ⋅ Naveen Kumar ⋅ Vijay Janapa Reddi

Go to Event Page

Oral

Research Track Oral Presentation: Compilers and Kernels

4:30 PM - 6:00 PM

6 Events in this session

ParallelKittens: Systematic and Practical Simplification of Multi-GPU AI Kernels

Stuart H. Sul ⋅ Simran Arora ⋅ Benjamin Spector ⋅ Christopher Ré

Event Tensor: A Unified Abstraction for Compiling Dynamic Megakernel

Hongyi Jin ⋅ Bohan Hou ⋅ Guanjie Wang ⋅ Ruihang Lai ⋅ Jinqi Chen ⋅ Zihao Ye ⋅ Yaxing Cai ⋅ Yixin Dong ⋅ Xinhao Cheng ⋅ Zhihao Zhang ⋅ Yilong Zhao ⋅ Yingyi Huang ⋅ Lijie Yang ⋅ Jinchen Jiang ⋅ Gabriele Oliaro ⋅ Jianan Ji ⋅ Xupeng Miao ⋅ Vinod Grover ⋅ Todd Mowry ⋅ Zhihao Jia ⋅ Tianqi Chen

AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization

Genghan Zhang ⋅ Shaowei Zhu ⋅ Anjiang Wei ⋅ Zhenyu Song ⋅ Allen Nie ⋅ Zhen Jia ⋅ Nandita Vijaykumar ⋅ Yida Wang ⋅ Kunle Olukotun

DynaFlow: Transparent and Flexible Intra-Device Parallelism via Programmable Operator Scheduling

Yi Pan ⋅ Yile Gu ⋅ Luo Jinbin ⋅ Yibo Wu ⋅ Ziren Wang ⋅ Hongtao Zhang ⋅ Ziyi Xu ⋅ Shengkai Lin ⋅ Baris Kasikci ⋅ Stephanie Wang

ApproxMLIR : Accuracy-Aware Compiler for Compound ML System

Hao Ren ⋅ Yi Mu ⋅ Sasa Misailovic

HipKittens: Fast and Furious AMD Kernels

William Hu ⋅ Drew Wadsworth ⋅ Sean Siddens ⋅ Stanley Winata ⋅ Daniel Fu ⋅ Ryan Swann ⋅ Muhammad Osama ⋅ Christopher Ré ⋅ Simran Arora

Go to Event Page

Poster

Poster Session 3

6:00 PM - 8:00 PM

52 Events in this session

ADR: AN AGENTIC DETECTION SYSTEMFORENTERPRISE AGENTIC AI SECURITY

Chenning Li ⋅ Pan Hu ⋅ Justin Xu ⋅ Baris Ozbas ⋅ Olivia Liu ⋅ Caroline Van ⋅ Manxue Li ⋅ Wei Zhou ⋅ Mohammad Alizadeh ⋅ Pengyu Zhang ⋅ KK Sriramadhesikan ⋅ Ming Zhang

PRISM: Parametrically Refactor Inference for Speculative Decoding Draft Models

Xuliang Wang ⋅ Yuetao Chen ⋅ Maochan Zhen ⋅ Fang LIU ⋅ Xinzhou Zheng ⋅ Xingwu Liu ⋅ Hong Xu ⋅ Ming Li

PROMPTS: PeRformance Optimization via Multi-Agent Planning for LLM Training and Serving

Yuran Ding ⋅ Ruobing Han ⋅ Xiaofan Zhang ⋅ Xinwei Chen

CDLM: Consistency Diffusion Language Models for Faster Sampling

Minseo Kim ⋅ Chenfeng Xu ⋅ Coleman Hooper ⋅ Harman Singh ⋅ Ben Athiwaratkun ⋅ Ce Zhang ⋅ Kurt Keutzer ⋅ Amir Gholami

Agentic Operator Generation for ML ASICs

Speculative Decoding: Performance or Illusion?

Xiaoxuan Liu ⋅ Jiaxiang Yu ⋅ Jongseok Park ⋅ Ion Stoica ⋅ Alvin Cheung

Cost-aware Duration Prediction for Software Upgrades in Datacenters

Yi Ding ⋅ Aijia Gao ⋅ Thibaud Ryden ⋅ Michal Sedlak ⋅ Essam Ewaisha ⋅ Igor Marnat ⋅ Henry (Hank) Hoffmann

SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding

Jameson Sandler ⋅ Jacob K Christopher ⋅ Tom Hartvigsen ⋅ Ferdinando Fioretto

The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents

Xingyao Wang ⋅ Simon Rosenberg ⋅ Juan Michelini ⋅ Calvin Smith ⋅ Hoang Tran ⋅ Engel Nyst ⋅ Rohit Malhotra ⋅ Xuhui Zhou ⋅ Valerie Chen ⋅ Robert Brennan ⋅ Graham Neubig

Accelerating Large-Scale Reasoning Model Inference with Sparse Self-Speculative Decoding

HELIOS : Adaptive Model And Early-Exit Selection for Efficient LLM Inference Serving

Avinash Kumar ⋅ Shashank Nag ⋅ Jason Clemons ⋅ LIZY JOHn ⋅ Poulami Das

SHIP: SRAM-Based Huge Inference Pipelines for Fast LLM Serving

IntAttention: A Fully Integer Attention Pipeline for Efficient Edge Inference

Wanli Zhong ⋅ Haibo Feng ⋅ Zirui Zhou ⋅ Hanyang Peng ⋅ Shiqi Yu

BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-oriented Token Batching

Zhen Zheng ⋅ Xin Ji ⋅ Taosong Fang ⋅ Fanghao Zhou ⋅ Chuanjie Liu ⋅ Gang Peng

REPARO: LOSS-RESILIENT GENERATIVE CODEC FOR VIDEO CONFERENCING

Tianhong Li ⋅ Vibhaalakshmi Sivaraman ⋅ Pantea Karimi ⋅ Lijie Fan ⋅ Mohammad Alizadeh ⋅ Dina Katabi

Beyond the Buzz: A Pragmatic Take on Inference Disaggregation

Rethinking DVFS for Mobile LLMs: Unified Energy-Aware Scheduling with CORE

Zongpu Zhang ⋅ Pranab Dash ⋅ Qiang Xu ⋅ Y. Charlie Hu ⋅ Jian Li ⋅ Haibing Guan

Optimizing Deployment Configurations for LLM Inference

EarthSight: A Distributed Framework for Low-Latency Satellite Intelligence

Ansel Erol ⋅ Seungjun Lee ⋅ Divya Mahajan

Meeting SLOs, Slashing Hours: Automated Enterprise LLM Optimization with OptiKIT

Nicholas Santavas ⋅ Kareem Eissa ⋅ Patrycja Cieplicka ⋅ Piotr Florek ⋅ Matteo Nulli ⋅ Stefan Vasilev ⋅ Seyyed Hashemi ⋅ Antonios Gasteratos ⋅ Shahram Khadivi

Scaling Up Large Language Models Serving Systems for Semantic Job Search

Sparing Strategies to Minimize Reliability Impact On Large Training Jobs

Massive-Scale Out-Of-Core UMAP on the GPU

Jinsol Park ⋅ Corey Nolet ⋅ Edward Raff ⋅ Tim Oates ⋅ Akira Naruse

Charon: A Unified and Fine-Grained Simulator for Large-Scale LLM Training and Inference

Mengtian Yang ⋅ Zhekun Zhang ⋅ Mingheng Wu ⋅ jianwen yan ⋅ Hanshi Sun ⋅ Li-Wen Chang

veScale-FSDP: Flexible and High-Performance FSDP at Scale

Zezhou Wang ⋅ Youjie Li ⋅ Zhiqi Lin ⋅ Jiacheng Yang ⋅ Cong Xie ⋅ Guanyu Feng ⋅ ZHENG ZHONG ⋅ Ziyue Huang ⋅ Hongyu Zhu ⋅ Zhi Zhang ⋅ Yanghua Peng ⋅ Xin Liu

AXLearn: Modular, Hardware-Agnostic Large Model Training

Hawkeye: Reproducing GPU-Level Non-Determinism

Erez Badash ⋅ Dan Boneh ⋅ Ilan Komargodski ⋅ Megha Srivastava

GUARD: SCALABLE STRAGGLER DETECTION AND NODE HEALTH MANAGEMENT FOR LARGE-SCALE TRAINING

DriftBench: Measuring and Predicting Infrastructure Drift in LLM Serving Systems

Gianluigi Vitale

MoEBlaze: Breaking the Memory Wall for Efficient MoE Training on Modern GPUs

Jiyuan Zhang ⋅ Yining Liu ⋅ Siqi Yan ⋅ Lisen Deng ⋅ Jennifer Cao ⋅ Shuqi Yang ⋅ Bi Xue ⋅ Min Ni ⋅ Shen Li

PARROT: Persuasion and Agreement Robustness Rating of Output Truth — A Sycophancy Robustness Benchmark for LLMs

Özay Ezerceli ⋅ Mahmoud ElHussieni

FreeScale: Distributed Training for Sequence Recommendation Models with Minimal Scaling Cost

ParallelKittens: Systematic and Practical Simplification of Multi-GPU AI Kernels

Stuart H. Sul ⋅ Simran Arora ⋅ Benjamin Spector ⋅ Christopher Ré

XProf: An Open, Scalable, and Extensible Profiling System for the Modern ML Stack

Event Tensor: A Unified Abstraction for Compiling Dynamic Megakernel

AIRS: Scaling Live Inference in Resource Constrained Environments

Nilesh Jagnik ⋅ Xiaohao Yang ⋅ Tuan Do ⋅ Chelsea Chen ⋅ Harshvardhan GM

AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization

Genghan Zhang ⋅ Shaowei Zhu ⋅ Anjiang Wei ⋅ Zhenyu Song ⋅ Allen Nie ⋅ Zhen Jia ⋅ Nandita Vijaykumar ⋅ Yida Wang ⋅ Kunle Olukotun

SAKURAONE: An Open Ethernet–Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment

Fumikazu KONISHI ⋅ Yuuki Tsubouchi ⋅ Hirofumi Tsuruta

DynaFlow: Transparent and Flexible Intra-Device Parallelism via Programmable Operator Scheduling

Yi Pan ⋅ Yile Gu ⋅ Luo Jinbin ⋅ Yibo Wu ⋅ Ziren Wang ⋅ Hongtao Zhang ⋅ Ziyi Xu ⋅ Shengkai Lin ⋅ Baris Kasikci ⋅ Stephanie Wang

MLCommons Chakra: Advancing Performance Benchmarking and Co-design using Standardized Execution Traces

ApproxMLIR : Accuracy-Aware Compiler for Compound ML System

Hao Ren ⋅ Yi Mu ⋅ Sasa Misailovic

ProfInfer: An eBPF-based Fine-Grained LLM Inference Profiler

Bohua Zou ⋅ Debayan Roy ⋅ Dhimankumar Airao ⋅ Weihao Xu ⋅ Binqi Sun ⋅ Yutao Liu ⋅ Haibo Chen

HipKittens: Fast and Furious AMD Kernels

William Hu ⋅ Drew Wadsworth ⋅ Sean Siddens ⋅ Stanley Winata ⋅ Daniel Fu ⋅ Ryan Swann ⋅ Muhammad Osama ⋅ Christopher Ré ⋅ Simran Arora

Machine Learning Fleet Efficiency: Improving TPU Systems at Scale with ML Productivity Goodput

Arissa Wongpanich ⋅ Tayo Oguntebi ⋅ Jose Baiocchi Paredes ⋅ Yu Wang ⋅ Phitchaya Phothilimthana ⋅ Ritwika Mitra ⋅ Zongwei Zhou ⋅ Naveen Kumar ⋅ Vijay Janapa Reddi

Dataflow Is All You Need

Darshan Gandhi ⋅ Pushkar Nandkar ⋅ David Koeplinger ⋅ Nasim Farahini ⋅ Romy Tsoupidi ⋅ Samuel Rydh ⋅ Matheen Musaddiq ⋅ Tuowen Zhao ⋅ Reid Goodbar ⋅ Nathan Sheeley ⋅ Leon Zhang ⋅ Matthew Shaffer ⋅ John Long ⋅ Han Wang ⋅ Angela Wang ⋅ Arjun Sabnis ⋅ Joshua Brot ⋅ Yun Du ⋅ Håkan Zeffer ⋅ Mingran Wang ⋅ Raghu Prabhakar

Spira: Exploiting Voxel Data Structural Properties for Efficient Sparse Convolution in Point Cloud Networks

Dionysios Adamopoulos ⋅ Anastasia Poulopoulou ⋅ Georgios Goumas ⋅ Christina Giannoula

Efficient, VRAM-Constrained xLM Inference on Clients

Aditya Ukarande ⋅ Deep Shekhar ⋅ Marc Blackstein ⋅ Ram Rangan

Attribution-based Sparse Activation in Large Language Models

Jifeng Song ⋅ Xiangyu Yin ⋅ Boyuan Yang ⋅ Kai Huang ⋅ Weichen Liu ⋅ Wei Gao

Wave: A Symbolic Python DSL And Compiler for High-Performance Machine Learning

Harsh Menon ⋅ Oleksandr Zinenko ⋅ Gaurav Verma ⋅ Stanley Winata ⋅ Ivan Butygin ⋅ Nithin Meganathan ⋅ Sanket Pandit ⋅ William Gallard Hatch ⋅ Surya Jasper ⋅ Megan Kuo ⋅ Sahil FAIZAL ⋅ Ashay Rane ⋅ Aurore De Spirlet ⋅ Martin P. Lücke

Flashlight: PyTorch Compiler Extensions to Accelerate Attention Variants

Bozhi You ⋅ Irene Wang ⋅ Zelal Mustafaoglu ⋅ Abhinav Jangda ⋅ Angélica Moreira ⋅ Roshan Dathathri ⋅ Divya Mahajan ⋅ Keshav Pingali

CATWILD: Compiler Autotuning for TPU workloads in the Wild

Ignacio Cano ⋅ Yu Wang ⋅ Mike Burrows ⋅ Ziqiang Feng ⋅ Matheus Camargo ⋅ Chao Wang ⋅ David Liu ⋅ Tengyu Sun ⋅ Alexander Wertheim ⋅ Arissa Wongpanich ⋅ Christof Angermueller ⋅ Hyojun Kim ⋅ Wenqi Cao ⋅ Aleksey Orekhov ⋅ Amit Sabne ⋅ Emma Sevastian ⋅ Mehrdad Khani ⋅ Karthik Murthy ⋅ Berkin Ilbeyi ⋅ Subhankar Shah ⋅ Ryan Lefever ⋅ Arjun Khare ⋅ Ankit Sinha ⋅ Peter Ma ⋅ Matt Bierbaum ⋅ Jeremiah Wilke ⋅ Emily Donahue ⋅ Sami Abu-El-Haija ⋅ Nikhil Sarda ⋅ Vineetha Govindaraj ⋅ Shobha Vasudevan ⋅ Kirill Gugaev ⋅ Idan Nachman ⋅ Jie Sun ⋅ Jose Baiocchi Paredes ⋅ Samrat Ghosh ⋅ Domagoj Babic ⋅ Zongwei Zhou ⋅ Naveen Kumar ⋅ Phitchaya Phothilimthana

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

Ted Zadouri ⋅ Markus Hoehnerbach ⋅ Jay Shah ⋅ Vijay Thakkar ⋅ Tri Dao

Go to Event Page