متخصص بهینهسازی عملکرد مدل
Inference Engineer
Inference Engineer (متخصص بهینهسازی عملکرد مدل) متخصصی است در تقاطع GPU programming، compiler engineering و ML systems که کارش تبدیل یک مدل training-time به یک سرویس production است که سریع، ارزان و scalable باشد. تفاوت کلیدی این نقش با ML engineer این است که شما با performance engineering در سطح کرنل CUDA، quantization (INT8/FP8/FP4)، speculative decoding و KV-cache management سر و کار دارید — یعنی هر میکروثانیه و هر مگابایت VRAM اهمیت دارد. در ۲۰۲۶ با هزینه inference بهعنوان ۸۰٪+ بودجه AI شرکتها و GPU shortage مداوم، Inference Engineer یکی از پرحقوقترین نقشهای تخصصی هوش مصنوعی شده — Senior position در NVIDIA، OpenAI، Anthropic، Meta و Together AI با total comp ۵۰۰هزار+ دلار، و talent pool بسیار محدود.
مقدمه و تعریف شغل
Inference Engineer متخصصی است که با ترکیب knowledge GPU، ML و compiler، یک مدل training-time را به یک سرویس production تبدیل میکند که سریع، ارزان و scalable باشد. در دنیای GPT-4 و Claude، training یک مدل ممکن است $50M-$200M هزینه داشته باشد، اما inference آن طی یک سال میتواند ۱۰ تا ۲۰ برابر آن خرج بردارد — به همین دلیل صرفهجویی ۲۰٪ در inference cost میتواند صد میلیون دلار اثر داشته باشد. Inference Engineer این صرفهجویی را با techniques مختلف ممکن میکند: quantization (تبدیل FP16 به INT4)، speculative decoding (پیشبینی چند token جلوتر)، MoE routing optimization، KV-cache management، و در سطحی عمیقتر، نوشتن CUDA kernel custom برای operation های hot path. این نقش نیاز به ترکیبی نادر از مهارتها دارد — knowledge ML deep، GPU programming، و systems thinking.
تاریخچه inference optimization به CUDA در ۲۰۰۷ برمیگردد، اما revolution اصلی در ۲۰۲۰ با paper Megatron-LM و در ۲۰۲۲ با FlashAttention از Tri Dao شروع شد. FlashAttention نشان داد که با تجمیع attention در on-chip SRAM، میتوان ۲-۳ برابر سریعتر و با حافظه کمتر inference کرد. در ۲۰۲۳ paper PagedAttention از Berkeley vLLM را معرفی کرد — یک architecture بر اساس memory pagination که throughput را ۲۴x نسبت به baseline بالا برد. در ۲۰۲۴، quantization به سطح bit بسیار پایین رسید (Q3، Q2 با AQLM، QuIP#) و speculative decoding (Medusa، EAGLE) به production آمد. در ۲۰۲۵، MoE inference با DeepSeek-V3 و Mixtral به استاندارد تبدیل شد و چالش جدید expert routing efficiency بود. در ۲۰۲۶، با GPU Blackwell NVIDIA و FP4 native، یک wave جدید optimization شروع شد. companies مثل Together AI، Fireworks AI، Anyscale و Lepton AI بر اساس همین optimization ها business های ۱۰۰ میلیون دلاری ساختند. talent shortage جدی است — اکثر Inference Engineer ها از academia ML systems یا GPU programming میآیند و تعداد آنها در دنیا چند هزار نفر است.
چه چیزی میسازید؟
مثالهای واقعی از خروجی کار یک متخصص بهینهسازی عملکرد مدل
CUDA Kernel برای FlashAttention
Tri Dao در Stanford یک CUDA kernel نوشت که attention را با tiling در SRAM compute میکند. این کار latency LLM inference را ۲-۳x کاهش داد و حالا default در vLLM، PyTorch و همه LLM serving stack هاست.
Quantization Workflow End-to-End
Hugging Face یک workflow طراحی میکند که هر مدل را با AWQ یا GPTQ به INT4 تبدیل کند، quality regression را measure کند، و فقط در صورت <۱٪ degradation deploy کند.
Speculative Decoding Engine
Together AI یک engine میسازد که با Medusa head ها، ۳-۵ token جلوتر را predict کند و فقط در صورت match accept کند — throughput ۲-۳x سریعتر بدون quality loss.
MoE Expert Routing Optimizer
DeepSeek یک MoE inference engine میسازد که با aware از expert load، routing کند تا hot expert ها OOM نشوند و throughput maximize شود.
Multi-GPU Tensor Parallelism Stack
NVIDIA TensorRT-LLM یک stack دارد که یک مدل ۷۰B را روی ۸ GPU با tensor parallelism + pipeline parallelism deploy میکند با NCCL all-reduce بهینه.
Compiler Optimization Pass
Meta torch.compile با TorchInductor یک optimization pass دارد که operator های PyTorch را در یک kernel فیوز میکند — کاهش kernel launch overhead و سرعت ۱.۵-۲x.
تخصصهای مختلف متخصص بهینهسازی عملکرد مدل
این شغل یک عنوان واحد نیست — مسیرهای تخصصی متعددی دارد
LLM Inference Frameworks
LLM Inference Frameworks
تخصص در vLLM، TensorRT-LLM، SGLang — architecture و contribution. کارفرماهای اصلی: vLLM team UC Berkeley، NVIDIA، LMSYS.
Quantization و Compression
Quantization & Compression
تخصص در GPTQ، AWQ، SmoothQuant، AQLM، sparsity. کارفرماهای اصلی: Hugging Face Optimum، Neural Magic، MosaicML.
GPU Kernel Engineering
GPU Kernel Engineering
تخصص در نوشتن CUDA/Triton kernel با performance maximum. کارفرماهای اصلی: NVIDIA، OpenAI، Tri Dao's group در Princeton.
Speculative و Parallel Decoding
Speculative & Parallel Decoding
تخصص در speculative decoding، Medusa، EAGLE و parallel sampling. کارفرماهای اصلی: Together AI، Anthropic، DeepMind.
Edge و Mobile Inference
Edge & Mobile Inference
تخصص در inference روی edge device — llama.cpp، CoreML، MLX، ONNX Runtime. کارفرماهای اصلی: Apple، Qualcomm، Hugging Face Optimum.
تفاوت با شغلهای مشابه
کجا این شغل تمام میشود و شغل دیگری شروع میشود؟
ML Engineer روی training، data pipeline و model architecture کار میکند. Inference Engineer روی serving و optimization production. مهارت ML مشترک است، اما Inference Engineer عمق بیشتری در GPU، CUDA و compiler دارد. در شرکتهای کوچک یک نفر هر دو نقش را دارد.
AI SRE focus روی uptime، incident response و reliability operation است. Inference Engineer focus روی performance و optimization. AI SRE با Inference Engineer همکار است — اما skill set متفاوت. Inference Engineer در سطح kernel و compiler عمیق میشود.
Compiler Engineer روی frontend/backend compiler (LLVM، MLIR) کار میکند. Inference Engineer از compiler ها (torch.compile، TensorRT) استفاده میکند و گاهی به آنها contribute میکند. overlap قابل توجه است در شرکتهایی مثل NVIDIA که هر دو نقش close work میکنند.
GPU Kernel Engineer روی نوشتن کرنل برای task های گسترده (HPC، graphics، ML) کار میکند. Inference Engineer specialty خاص ML inference دارد — میداند چه چیزی برای Transformer مهم است. مهارتهای پایه مشترک، اما deployment context متفاوت.
تأثیر در صنایع مختلف
متخصص بهینهسازی عملکرد مدل در همه صنایع مشغول به کار است — نه فقط شرکتهای فناوری
Foundation Model Labs
OpenAI، Anthropic، Google DeepMind، Meta AI — بزرگترین استخدامکنندگان Inference Engineer. حقوق top of market، چالشهای unique در scale.
Inference-as-a-Service
Together AI، Fireworks AI، Lepton AI، Anyscale، Modal — business model آنها در gross margin بر اساس inference optimization دور میزند.
Hardware Vendors
NVIDIA، AMD، Intel، Cerebras، Groq، SambaNova — همه تیمهای Inference Engineer دارند برای building SDK و showcase کردن hardware آنها.
Cloud AI Platforms
AWS Bedrock، Azure OpenAI Service، GCP Vertex AI — هر یک تیم Inference Engineer دارند برای optimization deploy های managed.
AI-First SaaS
Notion، Perplexity، Glean — برای رقابت با cost LLM، نیاز به Inference Engineer داخلی دارند که محصول را competitive نگه دارد.
Edge AI & Robotics
Tesla، Waymo، Skydio، Boston Dynamics — inference روی edge device با constraint های memory و power.
Mobile AI
Apple Intelligence، Google Gemini Nano، Samsung Galaxy AI — inference روی device، نه cloud — challenge های unique optimization.
Open-Source AI Communities
Hugging Face، LMSYS، EleutherAI — community-driven، با تأثیر بزرگ روی direction industry.
تصورات غلط رایج
قبل از تصمیمگیری، این باورهای اشتباه را بشناسید
Inference Engineer فقط با hyperparameter بازی میکند
اشتباه. Inference Engineer واقعی در سطح CUDA kernel، GPU memory hierarchy و compiler graph کار میکند. hyperparameter tuning کاری است که data scientist میکند. Inference Engineer مینویسد kernel که آن hyperparameter ها روی آن اجرا میشوند.
quantization همیشه quality را قربانی میکند
نه. modern quantization techniques مثل AWQ و SmoothQuant با <۱٪ quality degradation به INT4 میرسند. در بعضی موارد quantization حتی quality را improve میکند (regularization effect). secret این است که activation-aware quantization و careful calibration data انجام دهید.
vLLM و TensorRT-LLM یکی هستند
نه. vLLM open-source و general است (Berkeley)، TensorRT-LLM proprietary NVIDIA است. vLLM در flexibility بهتر و در hardware NVIDIA-only، TensorRT-LLM ~۲۰-۳۰٪ سریعتر است. choice بر اساس needs و team capability فرق میکند.
بزرگترین optimization در training است، نه inference
اشتباه از نظر اقتصادی. training یکبار است (هرچند گران)، اما inference با هر request hour خرج میبرد. برای model deployed، inference total cost over lifecycle میتواند ۱۰-۲۰x training cost باشد. به همین دلیل inference optimization اولویت بالاتری در most production deployments دارد.
PyTorch خودش optimize میکند، نیاز به Inference Engineer نیست
نه. PyTorch eager mode بسیار slow است (به دلیل kernel launch overhead). torch.compile کمک میکند اما هنوز ۲-۳x slower از TensorRT-LLM یا vLLM است. برای production در scale، Inference Engineer ضروری است که این gap را پر کند.
یک روز کاری واقعی
در هر سطح روز کاری چه شکلی است؟
جونیور (۰–۲ سال)
بیشتر روز را روی tuning existing kernel، tracking benchmark، یادگیری CUDA و profiling tool میگذرانید. شروع به فهمیدن GPU architecture و LLM serving stack.
- ◆صبح: مرور benchmark night-run که benchmark suite شب قبل اجرا کرد
- ◆بلاک اول: بهینهسازی یک kernel ساده با Triton — تغییر tile size و measure throughput
- ◆بعد از ناهار: profiling یک مدل با Nsight Compute و identify bottleneck
- ◆عصر: pairing با senior روی debug کردن یک numerical accuracy issue در quantization
- ◆پایان روز: مطالعه یک paper recent (Mamba، Hyena، یا مشابه)
Mid-Level Inference Engineer (۲–۵ سال)
ownership از یک optimization area (e.g. quantization، attention، scheduling). نوشتن RFC کوچک، contribution به open-source، و mentor کردن junior ها.
- ◆صبح: مرور metric های production — هر regression در latency یا quality را diagnose کنید
- ◆بلاک کدنویسی: implement یک Triton kernel جدید برای attention variant
- ◆جلسه: review PR یک ML engineer که میخواهد inference path جدید را propose کند
- ◆بعد از ناهار: review paper recent و prototype کردن یک technique جدید (e.g. EAGLE)
- ◆عصر: نوشتن benchmark report برای presentation هفتگی team
Senior / Staff Inference Engineer (۵+ سال)
owner architecture inference یک organization. تصمیمگیری strategic، نوشتن RFC org-wide، influence cross-team و کار با hardware partners.
- ◆صبح: مرور roadmap quarter و حضور در leadership sync با VP of ML
- ◆جلسه با NVIDIA: discuss روی feature های Blackwell جدید و co-design opportunity
- ◆تصمیم: cut کردن یک optimization initiative که cost-benefit بدی دارد
- ◆بعد از ناهار: interview یک staff candidate — focus روی system design و GPU expertise
- ◆عصر: نوشتن RFC برای migration به MoE inference در ۶ ماه آینده
مسئولیتها و وظایف
مسئولیتهای اصلی
وظایف روزانه و مهارتهای مورد نیاز در این شغل
- ◈بهینهسازی throughput و latency inference با techniques مختلف (quantization، kernel fusion)
- ◈نوشتن و tune کردن CUDA kernel یا Triton kernel custom برای operation های critical
- ◈profiling مدل با Nsight و discovery bottleneck های GPU
- ◈پیادهسازی quantization (GPTQ، AWQ، SmoothQuant) و trade-off با quality
- ◈deploy و scale stack inference (vLLM، TensorRT-LLM) در production
- ◈بررسی paper جدید (speculative decoding، MoE) و prototype کردن آنها
- ◈همکاری با ML researcher برای understanding model behavior و quality regression
- ◈نوشتن technical report و benchmark publication برای community
مهارتهای مورد نیاز
مهارتهای فنی، نرم و حوزهای که یک متخصص بهینهسازی عملکرد مدل موفق به آنها نیاز دارد
GPU Programming و Systems
زبان غالب GPU programming — kernel، memory، launch config
Python-like DSL برای نوشتن GPU kernel — سادهتر از CUDA
HBM، L2، Shared memory، register — coalescing و access pattern
WMMA، MMA، tensor core architecture برای FP16/BF16/FP8
All-reduce، scatter، gather برای multi-GPU
Nsight Systems، Nsight Compute، PyTorch Profiler
Template، RAII، concurrency — برای CUDA و host code
ML Inference Specific
attention، FFN، layer norm، rotary embedding
PagedAttention، continuous batching، scheduler
graph optimization، plugin، quantization workflow
PTQ، QAT، GPTQ، AWQ، calibration methodology
tiling، fused softmax، backward pass
Medusa، EAGLE، Lookahead
expert routing، load balancing، fused MoE
Software Engineering و Soft Skills
advanced Python، typing، asyncio، C-extension
autograd، JIT، torch.compile، dispatcher
controlled benchmark، statistical rigor، avoiding misleading numbers
submit PR به vLLM، PyTorch، TensorRT-LLM — visibility در community
خواندن سریع و critical paper های MLSys و arXiv
نوشتن RFC، benchmark report، blog post
نقشه راه و مسیر آموزشی
نقشه راه تبدیل شدن به متخصص بهینهسازی عملکرد مدل
این مسیر گام به گام شما را از صفر تا حرفهای هدایت میکند.
ML پایه و Deep Learning
پایه قوی deep learning — Transformer architecture، attention mechanism، training از inside out
GPU Programming و CUDA
تخصص اصلی Inference Engineer — CUDA kernel، memory hierarchy، warp scheduling، tensor cores
Quantization و Model Compression
هنر کوچک کردن مدل بدون از دست دادن quality — quantization، sparsity، pruning، distillation
Inference Frameworks و Serving
تسلط بر inference framework های production — vLLM، TensorRT-LLM، SGLang و architecture آنها
Advanced Optimization و Production
techniques پیشرفته — speculative decoding، MoE inference، distributed serving، compiler optimization
ابزارها و استک فنی
ابزارهایی که هر مهندس AI باید بشناسد، دستهبندیشده بر اساس اولویت
GPU Programming و Kernels
Inference Frameworks
Quantization و Compression
Profiling و Debugging
مسیر پیشرفت شغلی
از جونیور تا Staff Engineer — چه مهارتهایی نیاز دارید و چه درآمدی انتظار داشته باشید
Junior Inference Engineer
۰ تا ۲ سال
~$165K
میانگین سالانه (آمریکا)
tuning existing kernels، اولین پروژههای quantization، یادگیری CUDA و profiling
Mid-Level Inference Engineer
۲ تا ۵ سال
~$270K
میانگین سالانه (آمریکا)
نوشتن CUDA kernel custom، ownership از یک optimization (quantization، caching)، contribution به vLLM/TGI
Senior Inference Engineer / Staff
۵ تا ۹ سال
~$480K
میانگین سالانه (آمریکا)
طراحی architecture inference stack، رهبری optimization initiative، mentor و influence
Principal / Distinguished Inference Engineer
۹+ سال
~$850K
میانگین سالانه (آمریکا)
تعیین استراتژی inference در سطح سازمان، نوشتن paper و RFC influential، نمایندگی نزد C-suite
چالشها و جنبههای منفی
واقعیتهایی که کمتر در آگهیهای شغلی میبینید — قبل از ورود بدانید
Quality vs Performance Trade-off
تحقیقاتیهر optimization (quantization، speculation، routing) میتواند quality را قربانی کند. هدف Inference Engineer این است که maximum performance با minimum quality regression به دست آورد. این نیاز به measurement framework دقیق دارد (MMLU، HumanEval، LMSYS arena) که بسیاری از candidates آن را underestimate میکنند.
Rapid Hardware Evolution
شرکت بزرگهر ۱۸-۲۴ ماه NVIDIA generation جدید GPU release میکند (V100 → A100 → H100 → Blackwell). هر generation feature های جدید (FP8، FP4، Transformer Engine، NVLink 5) که نیاز به re-optimization دارد. Inference Engineer باید روی این evolution سوار بماند.
Framework Fragmentation
عمومیاکوسیستم با چندین framework رقیب (vLLM، TensorRT-LLM، SGLang، TGI، LMI) که هر کدام trade-off خود را دارند. choosing framework درست برای یک use case نیاز به knowledge عمیق هر کدام دارد، که زمان قابل توجهی میبرد.
Numerical Accuracy Debug
تحقیقاتیوقتی quantization یا fused kernel جدید میسازید، میتوانید numerical bug ایجاد کنید که فقط در certain prompt های rare ظاهر میشود. این bug ها debug کردن آنها بسیار سخت است — نیاز به test suite دقیق و mindset systematic.
Talent Pool محدود
عمومیتخصص ترکیبی ML + GPU + compiler نادر است. اکثر Inference Engineer ها سالها در academia یا NVIDIA کار کردهاند. recruiting برای این نقش بسیار سخت و expensive است. اگر استخدام شدید، expectation ها بالاست.
Black-Box Vendor Tools
شرکت بزرگTensorRT-LLM و cuBLAS و cuDNN closed-source هستند. اگر یک bug یا performance issue پیدا کنید، باید با NVIDIA همکار کنید که گاهی ماهها طول میکشد. open-source alternative ها (vLLM، Triton) آن قدر mature نیستند برای همه use case ها.
حقوق و بازار کار جهانی
حقوق جهانی متخصص بهینهسازی عملکرد مدل
میانگین حقوق سالانه بر اساس تجربه در کشورهای مختلف
| کشور | میانه | ارز |
|---|---|---|
🇯🇵ژاپن | ¥25,000,000 | JPY |
🇮🇳هند | ₹8,500,000 | INR |
🇦🇪امارات | AED 800,000 | AED |
🇺🇸آمریکا | $480,000 | USD |
🇸🇬سنگاپور | SGD 320,000 | SGD |
🇨🇦کانادا | CA$310,000 | CAD |
🇬🇧انگلستان | £220,000 | GBP |
🇩🇪آلمان | €180,000 | EUR |
* ارقام سالانه و تقریبی هستند و بر اساس میانگین بازار در سال ۲۰۲۵ محاسبه شدهاند.
چگونه از صفر شروع کنیم
برنامه گامبهگام برای ورود به مهندسی هوش مصنوعی
ماه ۱: GPU Architecture & CUDA Basics
خواندن PMPP، تمرین CUDA با matrix multiply و reduction. setup cloud GPU (Lambda، Vast.ai).
ماه ۲: Triton & First Kernel
Triton tutorial OpenAI، نوشتن یک GEMM و softmax kernel با Triton.
ماه ۳: vLLM & Serving
deploy vLLM با مدل ۷B، profiling با Nsight، understanding PagedAttention.
ماه ۴: Quantization Hands-On
AutoAWQ و AutoGPTQ روی Mistral-7B. اندازهگیری throughput و quality.
ماه ۵: FlashAttention Triton Re-implementation
پیادهسازی FlashAttention با Triton — یکی از پروژههای classic.
ماه ۶: Apply و Portfolio
GitHub portfolio با ۳ پروژه strong، blog post technical، apply به Inference Engineer positions.
پروژههای پیشنهادی برای رزومه
اولین CUDA Kernel — Matrix Multiplication
متوسطیک GEMM kernel CUDA از صفر بنویسید (naive → tiled → tensor core). performance با cuBLAS مقایسه کنید و در GitHub README روند optimization را document کنید.
Quantization یک LLM با AWQ
متوسطیک مدل ۷B (Mistral، Llama 3.1) را با AutoAWQ به INT4 quantize کنید. throughput، latency و quality (MMLU score) را قبل و بعد اندازهگیری کنید. در blog post متد، نتایج و trade-off ها را گزارش کنید.
FlashAttention پیادهسازی در Triton
پیشرفتهFlashAttention version سادهای را با Triton lang پیاده کنید — شامل tiling، softmax fused و backward pass. با implementation رسمی Tri Dao مقایسه کنید و gap ها را توضیح دهید.
Speculative Decoding با Medusa Head
پیشرفتهروی یک مدل ۷B، Medusa head training کنید (extra LM head برای پیشبینی چند token جلوتر) و throughput speculative decoding را با baseline مقایسه کنید. این پروژه عمق publication-level دارد.
MoE Inference Optimization
پیشرفتهیک مدل MoE (Mixtral 8x7B یا DeepSeek-MoE) را deploy کنید با expert parallelism روی ۴+ GPU. expert routing efficiency، load balancing و throughput را اندازهگیری کنید.
مثالهای واقعی و Case Studies
داستانهای واقعی از مهندسانی که در این حوزه تأثیرگذار بودهاند
PhD از Stanford زیر نظر Christopher Ré، Chief Scientist و co-founder Together AI، Assistant Professor در Princeton CS. متخصص ML systems و architecture efficient.
Tri Dao در ۲۰۲۲ FlashAttention را معرفی کرد — یک algorithm که attention را در on-chip SRAM tiles compute میکند، throughput را ۲-۳x بالا برد و memory را linear scaling کرد. این paper revolution در LLM inference بود — حالا default در vLLM، PyTorch، Hugging Face، و همه stack های production. در ۲۰۲۳ FlashAttention 2 با improvement های بیشتر، در ۲۰۲۴ FlashAttention 3 با Hopper-specific optimization (TMA، WGMMA). علاوه بر FlashAttention، Tri Dao co-author paper Mamba (state-space models) است که architecture جدید جایگزین Transformer برای long-context را معرفی کرد. در ۲۰۲۴، Together AI را با Vipul Ved Prakash و دیگران co-found کرد که حالا یکی از top inference-as-a-service companies است.
ترکیب deep ML knowledge با systems thinking بسیار rare و valuable است. Tri Dao نشان میدهد که با focus روی fundamental algorithmic improvement (نه فقط engineering tuning)، یک نفر میتواند کل صنعت را تغییر دهد. توصیه برای Inference Engineer جوان: FlashAttention paper را خط به خط بفهمید و سعی کنید آن را در Triton re-implement کنید — این یکی از بهترین ways یادگیری GPU programming است.
PhD candidate در UC Berkeley زیر نظر Ion Stoica، lead developer و co-creator vLLM. متخصص LLM serving و GPU memory management.
Kwon در ۲۰۲۳ paper Efficient Memory Management for LLM Serving with PagedAttention را با Zhuohan Li و دیگران نوشت. این paper concept PagedAttention را معرفی کرد — یک schema حافظه inspired by virtual memory در OS که KV-cache را در page های discrete مدیریت میکند. این innovation throughput vLLM را ۲۴x نسبت به HuggingFace Transformers بالا برد و حالا standard است. vLLM در ۲۰۲۴ بهسرعت popular شد و حالا در Anthropic، NVIDIA، AWS Bedrock و دیگر hyperscaler ها استفاده میشود. Kwon از وقت Berkeley به full-time روی vLLM و governance آن کار میکند. در ۲۰۲۵، vLLM به یک Linux Foundation project تبدیل شد با حمایت NVIDIA، AMD، Intel و دیگر vendor ها.
innovation در inference نیازمند knowledge عمیق OS، memory management و ML همزمان است. Kwon نشان میدهد که یک ایده ساده اما درست (virtual memory برای KV-cache) میتواند تحولآفرین باشد. درس برای Inference Engineer: source code vLLM را بخوانید، PR کوچک contribute کنید، و در community ظاهر شوید — این یک path سریع برای visibility است.
co-founder و CEO Together AI، former co-founder Cloudmark (acquired by ProofPoint 2017). متخصص distributed systems و large-scale infrastructure.
Prakash در ۲۰۲۲ Together AI را با Ce Zhang، Chris Re و Tri Dao co-found کرد. Together AI inference-as-a-service است که با focus روی performance و cost optimization، competitor مستقیم OpenAI، Anthropic و Replicate شد. در ۲۰۲۴، Together AI series B با $106M و valuation $1.25B از Salesforce Ventures راهاندازی شد. در ۲۰۲۵، series C با $305M و valuation $3.3B. Together AI همچنین RedPajama (open dataset)، StripedHyena (architecture جدید)، و چندین مدل open-weight منتشر کرده. Prakash strong advocate برای open AI ecosystem است و در talk های GTC و SXSW حضور دارد.
inference optimization میتواند یک business viable شود. Together AI نمیسازد foundation model — آنها فقط بهترین در inference بقیهاند. درس برای Inference Engineer: تخصص شما میتواند ارزش enterprise میلیارد دلاری بسازد. حتی اگر engineer هستید، startup founder شدن با focus روی inference یک masuk path possible است.
نمونه آگهی استخدام واقعی + تحلیل
یک آگهی واقعی از شرکت فعال در حال استخدام، با تحلیل هر بخش
Senior LLM Inference Engineer (TensorRT-LLM)
تحلیل نیازمندیها
MS or PhD in Computer Science, Computer Engineering, or related field
NVIDIA به education academic value میدهد، اما PhD ضروری نیست — MS با تجربه strong industry هم پذیرفته میشود. آن چه که مهم است demonstrate توانایی deep technical work است.
مهمStrong C++ and CUDA programming skills
TensorRT-LLM به C++ و CUDA نوشته میشود — تقریباً هیچ Python هستهای ندارد. اگر فقط Python مینویسید، این role مناسب شما نیست. باید modern C++17/20، template metaprogramming، و CUDA advanced (tensor cores، WMMA، CUTLASS) را بدانید.
ضروریExperience with deep learning frameworks (PyTorch, TensorRT)
knowledge PyTorch internals (نه فقط user-level API) مفید است. TensorRT را اگر در پروژه قبلی استفاده کردهاید، در interview ها discussion درباره engine building، plugin development و quantization توقع داشته باشید.
ضروریFamiliarity with LLM inference optimization techniques (FlashAttention, PagedAttention, speculative decoding)
NVIDIA انتظار دارد که paper های recent را خوانده باشید. در interview احتمالاً سؤال خواهد شد چطور FlashAttention کار میکند، PagedAttention چه trade-off دارد، یا Medusa چطور سرعت میگیرد.
ضروریStrong understanding of GPU architecture (memory hierarchy, tensor cores, NVLink)
NVIDIA انتظار دارد architecture chip های خودش (Hopper، Blackwell) را عمیق بدانید. این یعنی memory bandwidth، compute throughput، Tensor Memory Accelerator (TMA)، و NVLink topology باید برایتان آشنا باشد.
ضروریExperience with profiling tools (Nsight Systems, Nsight Compute)
Nsight tools برای NVIDIA Inference Engineer ضروری است. interview شامل profiling exercise است — یک kernel به شما داده میشود و باید bottleneck را با Nsight discover کنید.
ضروریتحلیل مسئولیتها
Develop and optimize LLM inference kernels for NVIDIA GPUs
این کار اصلی است. شما kernel جدید (attention variant، MoE routing، quantization) مینویسید برای TensorRT-LLM. ownership feature خود را خواهید داشت.
Collaborate with research teams to bring cutting-edge techniques to production
NVIDIA Research دایم paper publish میکند (FasterTransformer، NeMo). شما با آنها همکار میکنید برای productize کردن techniques جدید. dynamic بین research و engineering یک skill مهم.
Benchmark and profile inference performance across various models and hardware configurations
NVIDIA benchmark publish میکند که در marketing GPU استفاده میشود. شما این benchmark ها را میسازید و defend میکنید. دقت methodological حیاتی است — یک claim غلط در benchmark میتواند به reputation اثر بزند.
Contribute to TensorRT-LLM open-source project and engage with the community
TensorRT-LLM روی GitHub است (اگرچه با code closed-source هم). شما PR review میکنید، issue پاسخ میدهید، و در conference (GTC) ارائه میدهید. public visibility بخشی از job است.
نتیجهگیری کلی
NVIDIA یکی از top destination ها برای Inference Engineer است. compensation strong (Senior $350-550K total با NVDA stock که هر سال double میشود)، technical challenge فوقالعاده، و access به منحصر به فردترین hardware (Blackwell pre-release). bar فنی بسیار بالاست — اکثر candidates rejected میشوند. توصیه: GitHub portfolio با CUDA و Triton kernel، contribution به TensorRT-LLM یا vLLM، blog post technical عمیق، و آمادهسازی برای system design interview با focus روی GPU architecture. آماده شدن ۶-۱۲ ماه طول میکشد.
آینده و روندها
پیشبینی ۵–۱۰ ساله و مهارتهایی که باید یاد بگیرید
رشد ۳۵٪ سالانه (CAGR) تا ۲۰۳۰ — تقاضا برای Inference Engineer از ۲۰ هزار به ۹۰ هزار شغل در جهان میرسد
منبع: BLS Occupational Outlook 2024 / NVIDIA Industry Report 2025
مهارتهای نوظهور که باید یاد بگیرید
پیشبینیهای آینده
FP4 quantization به استاندارد میرسد با Blackwell — Inference Engineer های آشنا با FP4 quantization-aware training، demand بالا
MoE inference به default در production میشود — expert routing optimization یک niche پرحقوق
AMD ROCm و Apple MLX به maturity میرسند — Inference Engineer های cross-vendor با premium ۲۰-۳۰٪ paid
Inference compute بزرگتر از training compute در total budget میشود — Inference Engineer به سطح Compiler Engineer برای CPU در ۲۰۰۰s میرسد
ریسک اصلی commoditization در low-level optimization است — task های routine kernel tuning قابل automation با tool هایی مثل torch.compile و TorchInductor شدهاند. کسانی که فقط CUDA basics بلدند آسیبپذیرند. کسانی که در research-level optimization (نوشتن paper)، architecture جدید (Mamba، RWKV) و hardware co-design قوی هستند، demand بیشتر میشوند. ریسک دیگر: vendor lock-in در NVIDIA. اگر فقط CUDA بلدید و AMD ROCm نمیدانید، یا Apple MLX و Apple Silicon آشنا نیستید، در dynamic رقابتی hardware vulnerable هستید. توصیه: cross-vendor expertise و focus روی fundamental algorithm ها (که portable هستند).
ویدیوهای آموزشی
یک روز در زندگی یک Inference Engineer
ویدیوهای واقعی از متخصصان این حوزه که روزانه چه کارهایی انجام میدهند

M5 MacBook Pro after a week... developer's machine
Alex Ziskind

What is Monte Carlo Simulation?
IBM Technology

AWS Neuron: The Deep Learning-Accelerating SDK
Super Data Science: ML & AI Podcast with Jon Krohn

5070 Ti Laptops are Hiding A Secret.
Dave2D

Hypothesis Testing Explained with Solved Numerical in Hindi l Machine Learning Course
5 Minutes Engineering
