王朝晖

全栈软件工程师 / 机器学习工程师

+1 (213) 910-9843

zwang000@usc.edu

美国洛杉矶

GitHub

个人简介

南加州大学计算机科学硕士在读，具有丰富的全栈开发和机器学习系统经验。曾在Meetfood、绿盟科技、腾讯等公司工作，擅长使用Python、Java、TypeScript、Rust构建高性能后端系统、移动应用和AI系统。在多智能体强化学习、知识蒸馏、推荐系统和高性能计算方面有深入研究，具备将前沿AI技术应用于生产环境的能力。

技术技能

编程语言

精通: Python, Java, TypeScript, JavaScript, Rust, C/C++
熟练: CUDA, SQL

后端技术

Java: Spring Boot, MyBatis, Redis
Node.js: Express.js, MongoDB
Python: FastAPI, Flask, Django
数据: Elasticsearch, PostgreSQL, MySQL

前端与移动端

React, React Native, Svelte 5, TypeScript, Tailwind CSS
WebAssembly (Rust/WASM), PWA, Service Workers

AI/ML

框架: PyTorch, Transformers, PEFT, TRL, LangChain
专长: 知识蒸馏, 模型压缩, 神经架构搜索, 强化学习
LLM: LoRA/QLoRA, RAG, FAISS, Chroma DB
推荐系统: DeepFM, AutoInt, DIN, xDeepFM, DCNv2

高性能计算

CUDA, OpenMP, Ray, AsyncIO, ROS

云服务与工具

AWS: EC2, S3, Cognito, CloudFront, MediaConvert, CodePipeline
DevOps: Docker, Kubernetes, Prometheus, Grafana
工具: Git, Linux/Unix, GitHub Actions, Tauri

核心能力

跨职能团队协作与项目管理
全栈系统架构设计
快速学习新技术并应用于生产
问题分析与解决能力
CI/CD流程优化
技术文档撰写

工作经验

软件工程师实习生 (全栈)

Meetfood | AWS, React Native, TypeScript, Node.js

2025年5月 - 至今 | 美国洛杉矶

开发发现附近餐厅和美食的移动应用，与设计师、产品经理和开发人员紧密协作
使用React Native、TypeScript和Jotai构建跨平台移动UI，实现响应式设计和可复用组件库，加速功能交付20%
使用Node.js、Express和MongoDB构建RESTful API，高效处理媒体上传、用户认证和实时数据同步
架构可扩展的视频处理管道，使用AWS MediaConvert和CloudFront CDN，将视频加载延迟降低20%
在AWS (EC2, S3, RDS)上部署云基础设施，通过GitHub Actions和CodePipeline实现CI/CD自动化，部署时间减少25%
实现推送通知、实时更新和离线优先架构，通过本地缓存和同步机制改善用户体验

软件开发工程师

绿盟科技 (NSFocus) | Java, Python, React, Elasticsearch

2023年6月 - 2024年6月 | 中国北京

开发全栈网络安全分析平台，React前端和Spring Boot后端，支持实时威胁可视化、日志分析和事件响应
使用React、D3.js和ECharts构建交互式仪表板，通过WebSocket实现实时更新，优化渲染支持10万+数据点
使用Spring Boot和Python FastAPI构建后端微服务，集成Elasticsearch进行日志聚合，通过查询优化将延迟降低35%
实现JWT认证授权系统、基于角色的访问控制(RBAC)和多租户企业环境的会话管理
使用Docker容器化应用，建立CI/CD管道，自动化测试、构建和部署流程

Java工程师实习生

腾讯 | Spring Boot, MyBatis, Redis, Docker

2019年7月 - 2019年8月 | 中国深圳

使用Spring Boot和MyBatis开发企业消息平台后端服务，实现RESTful API和Redis缓存支持高流量
使用CompletableFuture和响应式编程优化异步处理，吞吐量提升25%，响应时间减少30%
在Kubernetes (TKE)上部署微服务，配置健康检查、自动扩缩容和Prometheus/Grafana监控，部署时间减少40%

项目经验

LayerwiseAdapter: 多教师融合推荐系统

技术栈: PyTorch, CUDA | 2024年6月 - 9月

设计实现新颖的3层自适应框架，通过Fisher引导的知识蒸馏将传统ML算法与LLM进行多教师知识融合
在MovieLens 1M上达到SOTA性能，RMSE=0.8921，超越最佳单一算法AutoInt (0.8910)，同时参数减少43.8%
实现6种SOTA推荐算法(DeepFM, AutoInt, xDeepFM, DIN, DCNv2, Transformer4Rec)的CUDA优化，推理速度比LLM基线快25倍
开发Fisher信息引导的重要性分析和剪枝感知知识蒸馏(PAKD)，实现75%模型压缩和400%加速

FisherLD: Fisher引导的LLM压缩知识蒸馏

技术栈: PyTorch, Transformers | 2024年10月 - 12月

研究实现Fisher信息引导的分层蒸馏框架，用于高效LLM推荐系统，实现模型压缩同时保持高精度
在Amazon Electronics评论(86K样本)上训练12层Transformer基线，达到87.53%测试精度，通过知识蒸馏压缩为6层学生模型
使用Fisher信息矩阵和梯度范数设计层重要性分析，识别top-6关键层，重要性比深层高1577倍，实现50%层减少
实现压缩突破：学生模型超越教师(54.9% vs 54.2%)，参数减少43.8%，模型大小减少44%

Interruptr: 博弈论多智能体代码分析系统

技术栈: Python, OpenAI API, Ollama | 2024年10月 - 11月

架构博弈论优化的异构多智能体系统，3+1架构(3个GPT专家+1个本地验证器)实现代码分析的成本-质量纳什均衡
相比单一GPT-4，成本降低22%($0.094 vs $0.120)，质量提升13%(F1: 0.85 vs 0.75)，效率提升44.6%
设计对抗验证系统，使用轻量级Qwen3本地模型(0.5B)作为质量检测器，检测20%+的LLM幻觉，成本开销不到5%
实现真正的并行协作，3个专家智能体异步执行，比串行执行快3倍，无质量损失

情感感知语言模型与音频增强

技术栈: PyTorch, Transformers, PEFT | 2024年3月 - 7月

研究训练能感知并响应语音情感上下文的语言模型，将音频特征(手工声学+WavLM嵌入)集成到LLM
通过在真实情感语音(RAVDESS, 24位说话者)上训练，跨说话者退化减少48%(41.7x vs 80.2x)
发现特征-泛化悖论：更好的域内性能与跨说话者鲁棒性负相关，建立严格的跨说话者评估必要性
使用4-bit量化和LoRA微调Qwen2.5-1.5B-Instruct，分析音频表示中的说话者-情感纠缠

Persona-RAG: 记忆增强多人格对话AI

技术栈: PyTorch, LangChain, FAISS | 2024年1月 - 5月

开发轻量级人格驱动对话AI系统，结合MBTI人格模型和记忆增强检索(RAG)实现个性化上下文感知对话
使用QLoRA微调(4-bit量化, r=16)在Qwen3-0.6B上实现3种MBTI人格，达到97.3-97.6% token精度，每个人格适配器仅39MB
设计人格感知记忆检索算法，加权评分(40%相似度+30%关键词+20%重要性+10%时间衰减)，上下文相关性优于标准RAG
构建FAISS向量搜索系统，100+记忆搜索时间小于0.1秒，支持多用户和持久化存储

音乐风格滤镜PWA

技术栈: Rust, WebAssembly, React, TypeScript | 2024年9月 - 12月

构建生产级PWA，使用WebAssembly编译的DSP算法实现实时音频风格滤波，支持8种预设风格(复古、lo-fi、收音机等)
用Rust实现音频处理引擎并编译为WASM，通过SIMD优化和高效内存管理，性能比JavaScript快5-10倍
设计响应式React前端，支持拖放音频上传、实时波形可视化和即时音频反馈的参数控制
架构离线优先PWA，使用Service Workers和IndexedDB缓存，无网络也能完整使用，Lighthouse评分95+

浏览器ML推理引擎

技术栈: Rust, WASM, React, TypeScript | 2024年1月 - 12月

开发生产就绪的神经网络推理引擎，完全在浏览器中运行，使用Rust/WebAssembly和React演示界面，支持17+算子
构建高性能WASM运行时，SIMD加速、Web Workers并行处理和INT8量化，比JavaScript实现快10-50倍
优化二进制大小至1MB以下，通过激进优化、tree shaking和压缩，慢网络也能快速加载

浏览器向量数据库

技术栈: Rust, WASM, React, IndexedDB | 2024年5月 - 11月

创建生产级浏览器向量数据库，使用Rust/WASM和HNSW索引算法，支持7种距离度量和IndexedDB持久化
实现SIMD加速向量运算(余弦相似度、欧氏距离、点积)，在浏览器环境达到接近原生性能
开发React Web界面，支持向量操作、相似性搜索可视化和实时性能监控

桌面硬件监控组件

技术栈: Rust, Tauri 2.x, Svelte 5 | 2024年8月 - 12月

使用Tauri 2.x和Svelte 5构建跨平台桌面应用，支持Windows、macOS和Linux原生系统集成
开发Rust后端实时采集系统指标(CPU、内存、磁盘、网络)，最小性能开销的高效轮询
实现系统托盘集成、可定制组件和本地存储持久设置，启动时间低于100ms，内存占用低于50MB

高性能分形渲染引擎

技术栈: C++, CUDA, OpenMP, WebAssembly | 2024年9月 - 12月

设计实现大规模并行分形渲染引擎，展示从单线程CPU到GPU计算的演进，双RTX 3090达到20亿像素/秒
优化CUDA内核的内存合并和可配置线程块，比CPU基线加速1216倍，比OpenMP加速400倍，4K渲染仅6ms
使用Emscripten开发WebAssembly版本，浏览器性能比JavaScript快5-20倍，支持实时缩放/平移

AgentMesh: 分布式多智能体协调框架

技术栈: Python, Ray, AsyncIO | 2024年8月 - 11月

架构分布式异步智能体协调框架，使用Actor模型和乐观并发控制解决并发LLM智能体的竞态条件
实现基于AST的语义冲突检测和三路合并算法，多文件重构自动合并成功率85%
设计优先级任务调度和背压控制，支持1000+待处理任务，P99延迟小于500ms

SmartNet: 可解释性引导的神经架构搜索

技术栈: PyTorch, Flask | 2024年5月 - 8月

开发首个结合可视化网络构建和可解释性引导神经架构搜索(NAS)的平台，实现精度和可解释性兼顾
实现多目标NAS，优化精度+可解释性(SHAP/Fisher)+效率+速度，使用进化搜索，种群大小20，10代
构建模块化系统，6+可复用组件和流畅Python API，支持Web拖放界面和代码生成(Python/YAML)

多机器人通信系统

技术栈: PyTorch, ROS, CUDA | 2020年9月 - 2023年4月

主导设计开发多智能体强化学习系统，通过分布式控制和实时通信提升机器人协调效率
实现自定义PyTorch MARL算法(DDPG, MADDPG, QMIX)，CUDA并行化加速，模拟基准收敛速度提升4倍
集成ROS中间件实现实时机器人通信，支持消息传递、SLAM定位和跨异构机器人平台的分布式控制
在模拟(Gazebo)和物理机器人(TurtleBot)上验证系统，任务成功率提升30%

教育背景

计算机科学硕士

南加州大学 (USC) | 2024年7月 - 2025年12月

美国洛杉矶|

计算机科学博士候选人

中国科学院大学 | 2020年8月 - 2023年3月

中国北京 (项目中止)

计算机科学学士

中南大学 | 2016年9月 - 2020年6月

中国长沙 |

返回首页()

王朝晖