Home
Hi, I'm Zhicheng.
Education Software Engineering master's student at Xi'an Jiaotong University .
Internship AI Infra intern at TeleAI , working on video-generation inference optimization.
Current Work Inference optimization for video generation, focusing on stage scheduling and latent cache.
Result Reduced concurrent E2E latency by 17.8% / 23.8%, with ~20% latency reduction from latent cache.
Building Building a NanoVLM-based demo and notes around inference, profiling, and deployment.
Open to AI Infra internships · Shanghai / Shenzhen / Hangzhou
Video Generation Inference Optimization
TeleAI 实习中的核心方向,围绕视频生成推理链路做调度、缓存和框架重构。
重构 Pipeline / Stage / Worker / RuntimeConfig,降低多阶段推理链路的工程耦合。
通过异步 stage overlap 优化并发推理,FP8 / BF16 场景端到端耗时降低 17.8% / 23.8%。
基于语义检索设计 Latent Cache,命中请求可跳过前 5 步 latent 计算,单条时延优化约 20%。
NanoVLM Demo
正在推进的 AI Infra 项目,围绕 NanoVLM 做推理、profiling 和部署方向的 demo 与笔记。
作为后续简历项目持续打磨,先沉淀源码阅读、推理链路和 profiling 记录。
目标是把开源阅读、实验 demo 和工程复盘串成完整项目,而不是只停留在笔记。
当前以 Ongoing 方式展示,完成后再升级为正式项目入口。
6.s081 Lab 1
从 xv6 入手做系统实验,整理工具链、用户态程序和最初的内核交互。
MapReduce 论文阅读
分布式数据处理模型的经典论文,作为理解训练数据处理与系统调度的基础。
Raft 论文阅读
共识算法与复制状态机的基础阅读,支撑后续分布式训练控制面和存储系统理解。
OSTEP 笔记
操作系统基础阅读,补齐进程、内存、并发和存储等系统底层知识。
CUDA / Triton Notes
面向算子实现、kernel 优化和 profiling 的学习笔记,后续逐步整理。
Inference Serving Notes
推理服务中的 batching、调度、KV cache、显存和吞吐延迟权衡。