[1]

Pradeep Rao Vennamaneni, “Optimizing Cloud-Native LLM Workloads with Serverless GPU Orchestration and Token-Aware Scheduling”, tajet, vol. 4, no. 04, pp. 33–59, Apr. 2024.