Home

Hi, I'm Zhicheng.

Education Software Engineering master's student at Xi'an Jiaotong University .

Internship AI Infra intern at TeleAI , working on video-generation inference optimization.

Current Work Inference optimization for video generation, focusing on stage scheduling and latent cache.

Result Reduced concurrent E2E latency by 17.8% / 23.8%, with ~20% latency reduction from latent cache.

Building Building a NanoVLM-based demo and notes around inference, profiling, and deployment.

Diffusion Stage Scheduling Latent Cache Inference Serving NanoVLM

Open to AI Infra internships · Shanghai / Shenzhen / Hangzhou

论文项目笔记

精选内容

AI Infra 待补充

TeleAI 实习中的核心方向，围绕视频生成推理链路做调度、缓存和框架重构。

Diffusion Stage Scheduling Latent Cache Inference Serving

重构 Pipeline / Stage / Worker / RuntimeConfig，降低多阶段推理链路的工程耦合。

通过异步 stage overlap 优化并发推理，FP8 / BF16 场景端到端耗时降低 17.8% / 23.8%。

基于语义检索设计 Latent Cache，命中请求可跳过前 5 步 latent 计算，单条时延优化约 20%。

Ongoing 待补充

正在推进的 AI Infra 项目，围绕 NanoVLM 做推理、profiling 和部署方向的 demo 与笔记。

NanoVLM Inference Profiling Deployment

作为后续简历项目持续打磨，先沉淀源码阅读、推理链路和 profiling 记录。

目标是把开源阅读、实验 demo 和工程复盘串成完整项目，而不是只停留在笔记。

当前以 Ongoing 方式展示，完成后再升级为正式项目入口。

系统基础

从 xv6 入手做系统实验，整理工具链、用户态程序和最初的内核交互。

分布式数据处理模型的经典论文，作为理解训练数据处理与系统调度的基础。

共识算法与复制状态机的基础阅读，支撑后续分布式训练控制面和存储系统理解。

ML Systems

面向算子实现、kernel 优化和 profiling 的学习笔记，后续逐步整理。

待补充

AI Infra

推理服务中的 batching、调度、KV cache、显存和吞吐延迟权衡。

待补充