Inference shadow fleet
Side-by-side PyTorch vs ONNXRuntime serving with traffic mirroring; automated diff on logits and business KPIs.
Profil talent IA
PyTorch Production Engineer — serving & compilers
Profil actif · Apr 5
Sur le marché depuis le 15 mars 2026
I specialize in taking PyTorch models from training graphs to low-latency inference: torch.compile, ONNX/TensorRT paths, and GPU memory tuning for recommender and ranking towers.
Pourquoi la preuve d’abord ?
Les profils Ganloss mettent en avant projets et outils réels—pas le jargon—pour évaluer plus vite qu’avec un CV générique.
Side-by-side PyTorch vs ONNXRuntime serving with traffic mirroring; automated diff on logits and business KPIs.
Principal Software Engineer, ML Serving
Gulf Meridian Commerce · 2019 — Present
Principal software engineer, ML serving: torch.compile and custom CUDA audits cut p99 latency ~40% on a ranking tower; shadow traffic vs ONNXRuntime with automated logit/KPI diffs. Canary rollouts for quantized student models beside full-precision teachers; rollback playbooks and SLO dashboards. GPU memory tuning for large embedding tables; batching strategies for peak retail traffic.
Connectez-vous pour écrire à ce profil
Seuls les comptes employeur connectés peuvent envoyer des messages annuaire aux talents du marché.
·
Compétences listées
3
Projets
1
Avec liens
0
Preuves partageables
Cas d’usage
2
Lignes d’expérience
1
Bio
24 mots
178 caractères
Profondeur des compétences
3 expert
Publiez une offre avec les compétences et outils recherchés—les candidats postulent en une étape et vous pilotez tout depuis votre espace employeur.
Publier une offre