Inference shadow fleet
Side-by-side PyTorch vs ONNXRuntime serving with traffic mirroring; automated diff on logits and business KPIs.
KI-Talentprofil
PyTorch Production Engineer — serving & compilers
Profil aktiv · Apr 5
Im Marktplatz seit 15.03.2026
I specialize in taking PyTorch models from training graphs to low-latency inference: torch.compile, ONNX/TensorRT paths, and GPU memory tuning for recommender and ranking towers.
Warum proof-first?
Ganloss-Profile zeigen echte Projekte und Tools—kein Buzzword-Bingo—damit Sie KI-Talente schneller beurteilen als mit einem generischen Lebenslauf.
Side-by-side PyTorch vs ONNXRuntime serving with traffic mirroring; automated diff on logits and business KPIs.
Principal Software Engineer, ML Serving
Gulf Meridian Commerce · 2019 — Present
Principal software engineer, ML serving: torch.compile and custom CUDA audits cut p99 latency ~40% on a ranking tower; shadow traffic vs ONNXRuntime with automated logit/KPI diffs. Canary rollouts for quantized student models beside full-precision teachers; rollback playbooks and SLO dashboards. GPU memory tuning for large embedding tables; batching strategies for peak retail traffic.
Anmelden, um dieses Profil zu kontaktieren
Nur angemeldete Arbeitgeberkonten können Verzeichnisnachrichten an Marktplatz-Talente senden.
·
Eingetragene Skills
3
Projekte
1
Mit Links
0
Teilbare Belege
Anwendungsfälle
2
Erfahrungszeilen
1
Bio
24 Wörter
178 Zeichen
Skill-Tiefe
3 Expert
Stellen Sie eine Rolle mit den benötigten Skills und Tools aus—Kandidat:innen bewerben sich in einem Schritt, Sie steuern alles im Arbeitgeber-Dashboard.
Stelle veröffentlichen