Self-Knowing

Home

Hi, I'm Zhicheng.

Education Software Engineering master's student at Xi'an Jiaotong University .

Internship AI Infra intern at TeleAI , working on video-generation inference optimization.

Current Work Inference optimization for video generation, focusing on stage scheduling and latent cache.

Result Reduced concurrent E2E latency by 17.8% / 23.8%, with ~20% latency reduction from latent cache.

Building Building a NanoVLM-based demo and notes around inference, profiling, and deployment.

Diffusion Stage Scheduling Latent Cache Inference Serving NanoVLM

Open to AI Infra internships · Shanghai / Shenzhen / Hangzhou

论文 项目 笔记
精选内容
AI Infra 待补充

Video Generation Inference Optimization

TeleAI 实习中的核心方向,围绕视频生成推理链路做调度、缓存和框架重构。

Diffusion Stage Scheduling Latent Cache Inference Serving

重构 Pipeline / Stage / Worker / RuntimeConfig,降低多阶段推理链路的工程耦合。

通过异步 stage overlap 优化并发推理,FP8 / BF16 场景端到端耗时降低 17.8% / 23.8%。

基于语义检索设计 Latent Cache,命中请求可跳过前 5 步 latent 计算,单条时延优化约 20%。

Ongoing 待补充

NanoVLM Demo

正在推进的 AI Infra 项目,围绕 NanoVLM 做推理、profiling 和部署方向的 demo 与笔记。

NanoVLM Inference Profiling Deployment

作为后续简历项目持续打磨,先沉淀源码阅读、推理链路和 profiling 记录。

目标是把开源阅读、实验 demo 和工程复盘串成完整项目,而不是只停留在笔记。

当前以 Ongoing 方式展示,完成后再升级为正式项目入口。

系统基础
正在整理 2 个条目
ML Systems

CUDA / Triton Notes

面向算子实现、kernel 优化和 profiling 的学习笔记,后续逐步整理。

待补充
AI Infra

Inference Serving Notes

推理服务中的 batching、调度、KV cache、显存和吞吐延迟权衡。

待补充