[1]

Pradeep Rao Vennamaneni 2024. Optimizing Cloud-Native LLM Workloads with Serverless GPU Orchestration and Token-Aware Scheduling. The American Journal of Engineering and Technology. 4, 04 (Apr. 2024), 33–59.