رتبه ۳۵ از ۱۰رشد ۳۵% سالانه

متخصص بهینه‌سازی عملکرد مدل

Inference Engineer

Inference Engineer (متخصص بهینه‌سازی عملکرد مدل) متخصصی است در تقاطع GPU programming، compiler engineering و ML systems که کارش تبدیل یک مدل training-time به یک سرویس production است که سریع، ارزان و scalable باشد. تفاوت کلیدی این نقش با ML engineer این است که شما با performance engineering در سطح کرنل CUDA، quantization (INT8/FP8/FP4)، speculative decoding و KV-cache management سر و کار دارید — یعنی هر میکروثانیه و هر مگابایت VRAM اهمیت دارد. در ۲۰۲۶ با هزینه inference به‌عنوان ۸۰٪+ بودجه AI شرکت‌ها و GPU shortage مداوم، Inference Engineer یکی از پرحقوق‌ترین نقش‌های تخصصی هوش مصنوعی شده — Senior position در NVIDIA، OpenAI، Anthropic، Meta و Together AI با total comp ۵۰۰هزار+ دلار، و talent pool بسیار محدود.

CUDA & GPU ProgrammingQuantization (INT8/FP8)vLLM/TensorRT-LLMSpeculative DecodingProfiling (Nsight)

مقدمه و تعریف شغل

Inference Engineer متخصصی است که با ترکیب knowledge GPU، ML و compiler، یک مدل training-time را به یک سرویس production تبدیل می‌کند که سریع، ارزان و scalable باشد. در دنیای GPT-4 و Claude، training یک مدل ممکن است $50M-$200M هزینه داشته باشد، اما inference آن طی یک سال می‌تواند ۱۰ تا ۲۰ برابر آن خرج بردارد — به همین دلیل صرفه‌جویی ۲۰٪ در inference cost می‌تواند صد میلیون دلار اثر داشته باشد. Inference Engineer این صرفه‌جویی را با techniques مختلف ممکن می‌کند: quantization (تبدیل FP16 به INT4)، speculative decoding (پیش‌بینی چند token جلوتر)، MoE routing optimization، KV-cache management، و در سطحی عمیق‌تر، نوشتن CUDA kernel custom برای operation های hot path. این نقش نیاز به ترکیبی نادر از مهارت‌ها دارد — knowledge ML deep، GPU programming، و systems thinking.

تاریخچه inference optimization به CUDA در ۲۰۰۷ برمی‌گردد، اما revolution اصلی در ۲۰۲۰ با paper Megatron-LM و در ۲۰۲۲ با FlashAttention از Tri Dao شروع شد. FlashAttention نشان داد که با تجمیع attention در on-chip SRAM، می‌توان ۲-۳ برابر سریع‌تر و با حافظه کمتر inference کرد. در ۲۰۲۳ paper PagedAttention از Berkeley vLLM را معرفی کرد — یک architecture بر اساس memory pagination که throughput را ۲۴x نسبت به baseline بالا برد. در ۲۰۲۴، quantization به سطح bit بسیار پایین رسید (Q3، Q2 با AQLM، QuIP#) و speculative decoding (Medusa، EAGLE) به production آمد. در ۲۰۲۵، MoE inference با DeepSeek-V3 و Mixtral به استاندارد تبدیل شد و چالش جدید expert routing efficiency بود. در ۲۰۲۶، با GPU Blackwell NVIDIA و FP4 native، یک wave جدید optimization شروع شد. companies مثل Together AI، Fireworks AI، Anyscale و Lepton AI بر اساس همین optimization ها business های ۱۰۰ میلیون دلاری ساختند. talent shortage جدی است — اکثر Inference Engineer ها از academia ML systems یا GPU programming می‌آیند و تعداد آن‌ها در دنیا چند هزار نفر است.

چه چیزی می‌سازید؟

مثال‌های واقعی از خروجی کار یک متخصص بهینه‌سازی عملکرد مدل

CUDA Kernel برای FlashAttention

Tri Dao در Stanford یک CUDA kernel نوشت که attention را با tiling در SRAM compute می‌کند. این کار latency LLM inference را ۲-۳x کاهش داد و حالا default در vLLM، PyTorch و همه LLM serving stack هاست.

📉

Quantization Workflow End-to-End

Hugging Face یک workflow طراحی می‌کند که هر مدل را با AWQ یا GPTQ به INT4 تبدیل کند، quality regression را measure کند، و فقط در صورت <۱٪ degradation deploy کند.

🎯

Speculative Decoding Engine

Together AI یک engine می‌سازد که با Medusa head ها، ۳-۵ token جلوتر را predict کند و فقط در صورت match accept کند — throughput ۲-۳x سریع‌تر بدون quality loss.

🧩

MoE Expert Routing Optimizer

DeepSeek یک MoE inference engine می‌سازد که با aware از expert load، routing کند تا hot expert ها OOM نشوند و throughput maximize شود.

🔀

Multi-GPU Tensor Parallelism Stack

NVIDIA TensorRT-LLM یک stack دارد که یک مدل ۷۰B را روی ۸ GPU با tensor parallelism + pipeline parallelism deploy می‌کند با NCCL all-reduce بهینه.

🔧

Compiler Optimization Pass

Meta torch.compile با TorchInductor یک optimization pass دارد که operator های PyTorch را در یک kernel فیوز می‌کند — کاهش kernel launch overhead و سرعت ۱.۵-۲x.

تخصص‌های مختلف متخصص بهینه‌سازی عملکرد مدل

این شغل یک عنوان واحد نیست — مسیرهای تخصصی متعددی دارد

🚀

LLM Inference Frameworks

LLM Inference Frameworks

تخصص در vLLM، TensorRT-LLM، SGLang — architecture و contribution. کارفرماهای اصلی: vLLM team UC Berkeley، NVIDIA، LMSYS.

📉

Quantization و Compression

Quantization & Compression

تخصص در GPTQ، AWQ، SmoothQuant، AQLM، sparsity. کارفرماهای اصلی: Hugging Face Optimum، Neural Magic، MosaicML.

GPU Kernel Engineering

GPU Kernel Engineering

تخصص در نوشتن CUDA/Triton kernel با performance maximum. کارفرماهای اصلی: NVIDIA، OpenAI، Tri Dao's group در Princeton.

🎯

Speculative و Parallel Decoding

Speculative & Parallel Decoding

تخصص در speculative decoding، Medusa، EAGLE و parallel sampling. کارفرماهای اصلی: Together AI، Anthropic، DeepMind.

📱

Edge و Mobile Inference

Edge & Mobile Inference

تخصص در inference روی edge device — llama.cpp، CoreML، MLX، ONNX Runtime. کارفرماهای اصلی: Apple، Qualcomm، Hugging Face Optimum.

تفاوت با شغل‌های مشابه

کجا این شغل تمام می‌شود و شغل دیگری شروع می‌شود؟

مهندس یادگیری ماشینML Engineer

ML Engineer روی training، data pipeline و model architecture کار می‌کند. Inference Engineer روی serving و optimization production. مهارت ML مشترک است، اما Inference Engineer عمق بیشتری در GPU، CUDA و compiler دارد. در شرکت‌های کوچک یک نفر هر دو نقش را دارد.

AI SREAI SRE

AI SRE focus روی uptime، incident response و reliability operation است. Inference Engineer focus روی performance و optimization. AI SRE با Inference Engineer همکار است — اما skill set متفاوت. Inference Engineer در سطح kernel و compiler عمیق می‌شود.

مهندس کامپایلرCompiler Engineer

Compiler Engineer روی frontend/backend compiler (LLVM، MLIR) کار می‌کند. Inference Engineer از compiler ها (torch.compile، TensorRT) استفاده می‌کند و گاهی به آن‌ها contribute می‌کند. overlap قابل توجه است در شرکت‌هایی مثل NVIDIA که هر دو نقش close work می‌کنند.

مهندس Kernel GPUGPU Kernel Engineer

GPU Kernel Engineer روی نوشتن کرنل برای task های گسترده (HPC، graphics، ML) کار می‌کند. Inference Engineer specialty خاص ML inference دارد — می‌داند چه چیزی برای Transformer مهم است. مهارت‌های پایه مشترک، اما deployment context متفاوت.

تأثیر در صنایع مختلف

متخصص بهینه‌سازی عملکرد مدل در همه صنایع مشغول به کار است — نه فقط شرکت‌های فناوری

🧠

Foundation Model Labs

OpenAI، Anthropic، Google DeepMind، Meta AI — بزرگ‌ترین استخدام‌کنندگان Inference Engineer. حقوق top of market، چالش‌های unique در scale.

🚀

Inference-as-a-Service

Together AI، Fireworks AI، Lepton AI، Anyscale، Modal — business model آن‌ها در gross margin بر اساس inference optimization دور می‌زند.

🔌

Hardware Vendors

NVIDIA، AMD، Intel، Cerebras، Groq، SambaNova — همه تیم‌های Inference Engineer دارند برای building SDK و showcase کردن hardware آن‌ها.

☁️

Cloud AI Platforms

AWS Bedrock، Azure OpenAI Service، GCP Vertex AI — هر یک تیم Inference Engineer دارند برای optimization deploy های managed.

💼

AI-First SaaS

Notion، Perplexity، Glean — برای رقابت با cost LLM، نیاز به Inference Engineer داخلی دارند که محصول را competitive نگه دارد.

🤖

Edge AI & Robotics

Tesla، Waymo، Skydio، Boston Dynamics — inference روی edge device با constraint های memory و power.

📱

Mobile AI

Apple Intelligence، Google Gemini Nano، Samsung Galaxy AI — inference روی device، نه cloud — challenge های unique optimization.

🌐

Open-Source AI Communities

Hugging Face، LMSYS، EleutherAI — community-driven، با تأثیر بزرگ روی direction industry.

تصورات غلط رایج

قبل از تصمیم‌گیری، این باورهای اشتباه را بشناسید

Inference Engineer فقط با hyperparameter بازی می‌کند

اشتباه. Inference Engineer واقعی در سطح CUDA kernel، GPU memory hierarchy و compiler graph کار می‌کند. hyperparameter tuning کاری است که data scientist می‌کند. Inference Engineer می‌نویسد kernel که آن hyperparameter ها روی آن اجرا می‌شوند.

quantization همیشه quality را قربانی می‌کند

نه. modern quantization techniques مثل AWQ و SmoothQuant با <۱٪ quality degradation به INT4 می‌رسند. در بعضی موارد quantization حتی quality را improve می‌کند (regularization effect). secret این است که activation-aware quantization و careful calibration data انجام دهید.

vLLM و TensorRT-LLM یکی هستند

نه. vLLM open-source و general است (Berkeley)، TensorRT-LLM proprietary NVIDIA است. vLLM در flexibility بهتر و در hardware NVIDIA-only، TensorRT-LLM ~۲۰-۳۰٪ سریع‌تر است. choice بر اساس needs و team capability فرق می‌کند.

بزرگ‌ترین optimization در training است، نه inference

اشتباه از نظر اقتصادی. training یک‌بار است (هرچند گران)، اما inference با هر request hour خرج می‌برد. برای model deployed، inference total cost over lifecycle می‌تواند ۱۰-۲۰x training cost باشد. به همین دلیل inference optimization اولویت بالاتری در most production deployments دارد.

PyTorch خودش optimize می‌کند، نیاز به Inference Engineer نیست

نه. PyTorch eager mode بسیار slow است (به دلیل kernel launch overhead). torch.compile کمک می‌کند اما هنوز ۲-۳x slower از TensorRT-LLM یا vLLM است. برای production در scale، Inference Engineer ضروری است که این gap را پر کند.

یک روز کاری واقعی

در هر سطح روز کاری چه شکلی است؟

جونیور (۰–۲ سال)

بیشتر روز را روی tuning existing kernel، tracking benchmark، یادگیری CUDA و profiling tool می‌گذرانید. شروع به فهمیدن GPU architecture و LLM serving stack.

  • صبح: مرور benchmark night-run که benchmark suite شب قبل اجرا کرد
  • بلاک اول: بهینه‌سازی یک kernel ساده با Triton — تغییر tile size و measure throughput
  • بعد از ناهار: profiling یک مدل با Nsight Compute و identify bottleneck
  • عصر: pairing با senior روی debug کردن یک numerical accuracy issue در quantization
  • پایان روز: مطالعه یک paper recent (Mamba، Hyena، یا مشابه)

Mid-Level Inference Engineer (۲–۵ سال)

ownership از یک optimization area (e.g. quantization، attention، scheduling). نوشتن RFC کوچک، contribution به open-source، و mentor کردن junior ها.

  • صبح: مرور metric های production — هر regression در latency یا quality را diagnose کنید
  • بلاک کدنویسی: implement یک Triton kernel جدید برای attention variant
  • جلسه: review PR یک ML engineer که می‌خواهد inference path جدید را propose کند
  • بعد از ناهار: review paper recent و prototype کردن یک technique جدید (e.g. EAGLE)
  • عصر: نوشتن benchmark report برای presentation هفتگی team

Senior / Staff Inference Engineer (۵+ سال)

owner architecture inference یک organization. تصمیم‌گیری strategic، نوشتن RFC org-wide، influence cross-team و کار با hardware partners.

  • صبح: مرور roadmap quarter و حضور در leadership sync با VP of ML
  • جلسه با NVIDIA: discuss روی feature های Blackwell جدید و co-design opportunity
  • تصمیم: cut کردن یک optimization initiative که cost-benefit بدی دارد
  • بعد از ناهار: interview یک staff candidate — focus روی system design و GPU expertise
  • عصر: نوشتن RFC برای migration به MoE inference در ۶ ماه آینده

مسئولیت‌ها و وظایف

مسئولیت‌های اصلی

وظایف روزانه و مهارت‌های مورد نیاز در این شغل

فنی
  • بهینه‌سازی throughput و latency inference با techniques مختلف (quantization، kernel fusion)
  • نوشتن و tune کردن CUDA kernel یا Triton kernel custom برای operation های critical
  • profiling مدل با Nsight و discovery bottleneck های GPU
  • پیاده‌سازی quantization (GPTQ، AWQ، SmoothQuant) و trade-off با quality
  • deploy و scale stack inference (vLLM، TensorRT-LLM) در production
  • بررسی paper جدید (speculative decoding، MoE) و prototype کردن آن‌ها
مهارت نرم
  • همکاری با ML researcher برای understanding model behavior و quality regression
  • نوشتن technical report و benchmark publication برای community

مهارت‌های مورد نیاز

مهارت‌های فنی، نرم و حوزه‌ای که یک متخصص بهینه‌سازی عملکرد مدل موفق به آن‌ها نیاز دارد

GPU Programming و Systems

CUDA C++ضروری

زبان غالب GPU programming — kernel، memory، launch config

Triton Langضروری

Python-like DSL برای نوشتن GPU kernel — ساده‌تر از CUDA

GPU Memory Hierarchyضروری

HBM، L2، Shared memory، register — coalescing و access pattern

Tensor Coresضروری

WMMA، MMA، tensor core architecture برای FP16/BF16/FP8

NCCL & Distributedمهم

All-reduce، scatter، gather برای multi-GPU

GPU Profilingضروری

Nsight Systems، Nsight Compute، PyTorch Profiler

C++ Modernمهم

Template، RAII، concurrency — برای CUDA و host code

ML Inference Specific

Transformer Internalsضروری

attention، FFN، layer norm، rotary embedding

vLLM Architectureضروری

PagedAttention، continuous batching، scheduler

TensorRT-LLMضروری

graph optimization، plugin، quantization workflow

Quantization Theoryضروری

PTQ، QAT، GPTQ، AWQ، calibration methodology

FlashAttentionضروری

tiling، fused softmax، backward pass

Speculative Decodingمهم

Medusa، EAGLE، Lookahead

MoE Inferenceمهم

expert routing، load balancing، fused MoE

Software Engineering و Soft Skills

Python Masteryضروری

advanced Python، typing، asyncio، C-extension

PyTorch Internalsضروری

autograd، JIT، torch.compile، dispatcher

Benchmarking Disciplineضروری

controlled benchmark، statistical rigor، avoiding misleading numbers

Open-Source Contributionمهم

submit PR به vLLM، PyTorch، TensorRT-LLM — visibility در community

Paper Readingضروری

خواندن سریع و critical paper های MLSys و arXiv

Technical Writingمهم

نوشتن RFC، benchmark report، blog post

ضروری — بدون آن نمی‌توان وارد بازار کار شدمهم — تفاوت بین جونیور و میانیمفید — مزیت رقابتی

نقشه راه و مسیر آموزشی

نقشه راه تبدیل شدن به متخصص بهینه‌سازی عملکرد مدل

این مسیر گام به گام شما را از صفر تا حرفه‌ای هدایت می‌کند.

1

ML پایه و Deep Learning

⏱️ ۳ تا ۴ ماه

پایه قوی deep learning — Transformer architecture، attention mechanism، training از inside out

Linear Algebra & CalculusPyTorch FundamentalsTransformer ArchitectureAttention MechanismBackprop & OptimizationMixed Precision Training
2

GPU Programming و CUDA

⏱️ ۴ تا ۶ ماه

تخصص اصلی Inference Engineer — CUDA kernel، memory hierarchy، warp scheduling، tensor cores

CUDA C++ ProgrammingGPU Memory Hierarchy (HBM, L2, Shared)Warp & Block SchedulingTensor Cores & WMMATriton LangCUTLASS Templates
3

Quantization و Model Compression

⏱️ ۲ تا ۳ ماه

هنر کوچک کردن مدل بدون از دست دادن quality — quantization، sparsity، pruning، distillation

INT8 / FP8 / FP4 QuantizationGPTQ، AWQ، SmoothQuantActivation-Aware QuantizationStructured Sparsity (2:4)Knowledge DistillationPTQ vs QAT Trade-offs
4

Inference Frameworks و Serving

⏱️ ۳ تا ۴ ماه

تسلط بر inference framework های production — vLLM، TensorRT-LLM، SGLang و architecture آن‌ها

vLLM & PagedAttentionTensorRT-LLMSGLang & RadixAttentionFlashAttention v2/v3Continuous BatchingKV-Cache Management
5

Advanced Optimization و Production

⏱️ مداوم

techniques پیشرفته — speculative decoding، MoE inference، distributed serving، compiler optimization

Speculative Decoding (Medusa, EAGLE)MoE Inference (DeepSeek, Mixtral)Tensor Parallelism (TP)Pipeline Parallelismtorch.compile / TorchInductorProfiling (Nsight, NCU)

ابزارها و استک فنی

ابزارهایی که هر مهندس AI باید بشناسد، دسته‌بندی‌شده بر اساس اولویت

GPU Programming و Kernels

CUDA

زبان اصلی برای نوشتن GPU kernel — NVIDIA's proprietary اما industry standard

ضروری
Triton (OpenAI)

زبان Python-like برای نوشتن GPU kernel — راحت‌تر از CUDA با performance مشابه

ضروری
CUTLASS

NVIDIA template library برای GEMM و convolution custom — performance بسیار بالا

مفید
ThunderKittens

library جدید Stanford برای نوشتن kernel در سطح بالا — ساده‌تر از CUDA

مفید

Inference Frameworks

vLLM

framework غالب open-source — PagedAttention، continuous batching، high throughput

ضروری
TensorRT-LLM

NVIDIA's official framework — حداکثر performance روی NVIDIA GPU، اما complex

ضروری
SGLang

framework جدید با RadixAttention — برتر در structured generation

مفید
llama.cpp

implementation CPU/Mac سبک — برای edge و local inference

مفید

Quantization و Compression

AutoGPTQ

library برای GPTQ quantization — استاندارد در open-source

ضروری
AutoAWQ

library برای AWQ quantization — کیفیت بهتر در پایین‌ترین bit

ضروری
bitsandbytes

library تبدیل به INT8 یا FP4 برای training و inference — integration راحت با HF

مفید
Optimum (HF)

ابزار Hugging Face برای optimization — ONNX، TensorRT، quantization

مفید

Profiling و Debugging

Nsight Systems

NVIDIA's tool برای system-wide profiling — کشف bottleneck

ضروری
Nsight Compute

NVIDIA's tool برای kernel-level profiling — analysis عمیق

ضروری
PyTorch Profiler

ابزار profiler داخلی PyTorch — برای model-level analysis

مفید
DCGM-Exporter

GPU metrics collector NVIDIA — برای continuous monitoring

مفید
ضروری — باید یاد بگیریدمفید — ارزش یادگیری داردپیشرفته — برای سطوح ارشد

مسیر پیشرفت شغلی

از جونیور تا Staff Engineer — چه مهارت‌هایی نیاز دارید و چه درآمدی انتظار داشته باشید

Junior Inference Engineer

۰ تا ۲ سال

~$165K

میانگین سالانه (آمریکا)

tuning existing kernels، اولین پروژه‌های quantization، یادگیری CUDA و profiling

PythonPyTorchCUDA BasicsvLLMLinux

Mid-Level Inference Engineer

۲ تا ۵ سال

~$270K

میانگین سالانه (آمریکا)

نوشتن CUDA kernel custom، ownership از یک optimization (quantization، caching)، contribution به vLLM/TGI

CUDA C++TritonQuantization TechniquesTensorRT-LLMProfiling

Senior Inference Engineer / Staff

۵ تا ۹ سال

~$480K

میانگین سالانه (آمریکا)

طراحی architecture inference stack، رهبری optimization initiative، mentor و influence

System DesignAdvanced GPU ProgrammingCompiler OptimizationMoE/Distributed InferenceTechnical Leadership

Principal / Distinguished Inference Engineer

۹+ سال

~$850K

میانگین سالانه (آمریکا)

تعیین استراتژی inference در سطح سازمان، نوشتن paper و RFC influential، نمایندگی نزد C-suite

Industry InfluenceArchitecture StrategyPaper PublicationCross-Org LeadershipHardware/Software Co-Design

چالش‌ها و جنبه‌های منفی

واقعیت‌هایی که کمتر در آگهی‌های شغلی می‌بینید — قبل از ورود بدانید

Quality vs Performance Trade-off

تحقیقاتی

هر optimization (quantization، speculation، routing) می‌تواند quality را قربانی کند. هدف Inference Engineer این است که maximum performance با minimum quality regression به دست آورد. این نیاز به measurement framework دقیق دارد (MMLU، HumanEval، LMSYS arena) که بسیاری از candidates آن را underestimate می‌کنند.

Rapid Hardware Evolution

شرکت بزرگ

هر ۱۸-۲۴ ماه NVIDIA generation جدید GPU release می‌کند (V100 → A100 → H100 → Blackwell). هر generation feature های جدید (FP8، FP4، Transformer Engine، NVLink 5) که نیاز به re-optimization دارد. Inference Engineer باید روی این evolution سوار بماند.

Framework Fragmentation

عمومی

اکوسیستم با چندین framework رقیب (vLLM، TensorRT-LLM، SGLang، TGI، LMI) که هر کدام trade-off خود را دارند. choosing framework درست برای یک use case نیاز به knowledge عمیق هر کدام دارد، که زمان قابل توجهی می‌برد.

Numerical Accuracy Debug

تحقیقاتی

وقتی quantization یا fused kernel جدید می‌سازید، می‌توانید numerical bug ایجاد کنید که فقط در certain prompt های rare ظاهر می‌شود. این bug ها debug کردن آن‌ها بسیار سخت است — نیاز به test suite دقیق و mindset systematic.

Talent Pool محدود

عمومی

تخصص ترکیبی ML + GPU + compiler نادر است. اکثر Inference Engineer ها سال‌ها در academia یا NVIDIA کار کرده‌اند. recruiting برای این نقش بسیار سخت و expensive است. اگر استخدام شدید، expectation ها بالاست.

Black-Box Vendor Tools

شرکت بزرگ

TensorRT-LLM و cuBLAS و cuDNN closed-source هستند. اگر یک bug یا performance issue پیدا کنید، باید با NVIDIA همکار کنید که گاهی ماه‌ها طول می‌کشد. open-source alternative ها (vLLM، Triton) آن قدر mature نیستند برای همه use case ها.

حقوق و بازار کار جهانی

حقوق جهانی متخصص بهینه‌سازی عملکرد مدل

میانگین حقوق سالانه بر اساس تجربه در کشورهای مختلف

کشورمیانهارز
🇯🇵ژاپن
¥25,000,000JPY
🇮🇳هند
₹8,500,000INR
🇦🇪امارات
AED 800,000AED
🇺🇸آمریکا
$480,000USD
🇸🇬سنگاپور
SGD 320,000SGD
🇨🇦کانادا
CA$310,000CAD
🇬🇧انگلستان
£220,000GBP
🇩🇪آلمان
€180,000EUR

* ارقام سالانه و تقریبی هستند و بر اساس میانگین بازار در سال ۲۰۲۵ محاسبه شده‌اند.

چگونه از صفر شروع کنیم

برنامه گام‌به‌گام برای ورود به مهندسی هوش مصنوعی

ماه ۱: GPU Architecture & CUDA Basics

خواندن PMPP، تمرین CUDA با matrix multiply و reduction. setup cloud GPU (Lambda، Vast.ai).

ماه ۲: Triton & First Kernel

Triton tutorial OpenAI، نوشتن یک GEMM و softmax kernel با Triton.

ماه ۳: vLLM & Serving

deploy vLLM با مدل ۷B، profiling با Nsight، understanding PagedAttention.

ماه ۴: Quantization Hands-On

AutoAWQ و AutoGPTQ روی Mistral-7B. اندازه‌گیری throughput و quality.

ماه ۵: FlashAttention Triton Re-implementation

پیاده‌سازی FlashAttention با Triton — یکی از پروژه‌های classic.

ماه ۶: Apply و Portfolio

GitHub portfolio با ۳ پروژه strong، blog post technical، apply به Inference Engineer positions.

پروژه‌های پیشنهادی برای رزومه

اولین CUDA Kernel — Matrix Multiplication

متوسط

یک GEMM kernel CUDA از صفر بنویسید (naive → tiled → tensor core). performance با cuBLAS مقایسه کنید و در GitHub README روند optimization را document کنید.

CUDA C++cuBLASNsight Compute
زمان تخمینی: ۴ هفته

Quantization یک LLM با AWQ

متوسط

یک مدل ۷B (Mistral، Llama 3.1) را با AutoAWQ به INT4 quantize کنید. throughput، latency و quality (MMLU score) را قبل و بعد اندازه‌گیری کنید. در blog post متد، نتایج و trade-off ها را گزارش کنید.

AutoAWQPyTorchlm-evaluation-harnessHugging Face
زمان تخمینی: ۳ هفته

FlashAttention پیاده‌سازی در Triton

پیشرفته

FlashAttention version ساده‌ای را با Triton lang پیاده کنید — شامل tiling، softmax fused و backward pass. با implementation رسمی Tri Dao مقایسه کنید و gap ها را توضیح دهید.

TritonPyTorchCUDAFlashAttention Paper
زمان تخمینی: ۸ هفته

Speculative Decoding با Medusa Head

پیشرفته

روی یک مدل ۷B، Medusa head training کنید (extra LM head برای پیش‌بینی چند token جلوتر) و throughput speculative decoding را با baseline مقایسه کنید. این پروژه عمق publication-level دارد.

PyTorchvLLMMedusa PaperGPU Profiling
زمان تخمینی: ۱۰ هفته

MoE Inference Optimization

پیشرفته

یک مدل MoE (Mixtral 8x7B یا DeepSeek-MoE) را deploy کنید با expert parallelism روی ۴+ GPU. expert routing efficiency، load balancing و throughput را اندازه‌گیری کنید.

vLLMDeepSpeed-MIIPyTorchNCCL
زمان تخمینی: ۱۲ هفته

مثال‌های واقعی و Case Studies

داستان‌های واقعی از مهندسانی که در این حوزه تأثیرگذار بوده‌اند

T

Tri Dao

پیشینه

PhD از Stanford زیر نظر Christopher Ré، Chief Scientist و co-founder Together AI، Assistant Professor در Princeton CS. متخصص ML systems و architecture efficient.

دستاورد

Tri Dao در ۲۰۲۲ FlashAttention را معرفی کرد — یک algorithm که attention را در on-chip SRAM tiles compute می‌کند، throughput را ۲-۳x بالا برد و memory را linear scaling کرد. این paper revolution در LLM inference بود — حالا default در vLLM، PyTorch، Hugging Face، و همه stack های production. در ۲۰۲۳ FlashAttention 2 با improvement های بیشتر، در ۲۰۲۴ FlashAttention 3 با Hopper-specific optimization (TMA، WGMMA). علاوه بر FlashAttention، Tri Dao co-author paper Mamba (state-space models) است که architecture جدید جایگزین Transformer برای long-context را معرفی کرد. در ۲۰۲۴، Together AI را با Vipul Ved Prakash و دیگران co-found کرد که حالا یکی از top inference-as-a-service companies است.

درس کلیدی

ترکیب deep ML knowledge با systems thinking بسیار rare و valuable است. Tri Dao نشان می‌دهد که با focus روی fundamental algorithmic improvement (نه فقط engineering tuning)، یک نفر می‌تواند کل صنعت را تغییر دهد. توصیه برای Inference Engineer جوان: FlashAttention paper را خط به خط بفهمید و سعی کنید آن را در Triton re-implement کنید — این یکی از بهترین ways یادگیری GPU programming است.

W

Woosuk Kwon

پیشینه

PhD candidate در UC Berkeley زیر نظر Ion Stoica، lead developer و co-creator vLLM. متخصص LLM serving و GPU memory management.

دستاورد

Kwon در ۲۰۲۳ paper Efficient Memory Management for LLM Serving with PagedAttention را با Zhuohan Li و دیگران نوشت. این paper concept PagedAttention را معرفی کرد — یک schema حافظه inspired by virtual memory در OS که KV-cache را در page های discrete مدیریت می‌کند. این innovation throughput vLLM را ۲۴x نسبت به HuggingFace Transformers بالا برد و حالا standard است. vLLM در ۲۰۲۴ به‌سرعت popular شد و حالا در Anthropic، NVIDIA، AWS Bedrock و دیگر hyperscaler ها استفاده می‌شود. Kwon از وقت Berkeley به full-time روی vLLM و governance آن کار می‌کند. در ۲۰۲۵، vLLM به یک Linux Foundation project تبدیل شد با حمایت NVIDIA، AMD، Intel و دیگر vendor ها.

درس کلیدی

innovation در inference نیازمند knowledge عمیق OS، memory management و ML همزمان است. Kwon نشان می‌دهد که یک ایده ساده اما درست (virtual memory برای KV-cache) می‌تواند تحول‌آفرین باشد. درس برای Inference Engineer: source code vLLM را بخوانید، PR کوچک contribute کنید، و در community ظاهر شوید — این یک path سریع برای visibility است.

V

Vipul Ved Prakash

پیشینه

co-founder و CEO Together AI، former co-founder Cloudmark (acquired by ProofPoint 2017). متخصص distributed systems و large-scale infrastructure.

دستاورد

Prakash در ۲۰۲۲ Together AI را با Ce Zhang، Chris Re و Tri Dao co-found کرد. Together AI inference-as-a-service است که با focus روی performance و cost optimization، competitor مستقیم OpenAI، Anthropic و Replicate شد. در ۲۰۲۴، Together AI series B با $106M و valuation $1.25B از Salesforce Ventures راه‌اندازی شد. در ۲۰۲۵، series C با $305M و valuation $3.3B. Together AI همچنین RedPajama (open dataset)، StripedHyena (architecture جدید)، و چندین مدل open-weight منتشر کرده. Prakash strong advocate برای open AI ecosystem است و در talk های GTC و SXSW حضور دارد.

درس کلیدی

inference optimization می‌تواند یک business viable شود. Together AI نمی‌سازد foundation model — آن‌ها فقط بهترین در inference بقیه‌اند. درس برای Inference Engineer: تخصص شما می‌تواند ارزش enterprise میلیارد دلاری بسازد. حتی اگر engineer هستید، startup founder شدن با focus روی inference یک masuk path possible است.

نمونه آگهی استخدام واقعی + تحلیل

یک آگهی واقعی از شرکت فعال در حال استخدام، با تحلیل هر بخش

Senior LLM Inference Engineer (TensorRT-LLM)

NVIDIAسانتا کلارا / سیاتل / آستین / تل آویو / لندن2026-01
مشاهده آگهی اصلی

تحلیل نیازمندی‌ها

EN

MS or PhD in Computer Science, Computer Engineering, or related field

NVIDIA به education academic value می‌دهد، اما PhD ضروری نیست — MS با تجربه strong industry هم پذیرفته می‌شود. آن چه که مهم است demonstrate توانایی deep technical work است.

مهم
EN

Strong C++ and CUDA programming skills

TensorRT-LLM به C++ و CUDA نوشته می‌شود — تقریباً هیچ Python هسته‌ای ندارد. اگر فقط Python می‌نویسید، این role مناسب شما نیست. باید modern C++17/20، template metaprogramming، و CUDA advanced (tensor cores، WMMA، CUTLASS) را بدانید.

ضروری
EN

Experience with deep learning frameworks (PyTorch, TensorRT)

knowledge PyTorch internals (نه فقط user-level API) مفید است. TensorRT را اگر در پروژه قبلی استفاده کرده‌اید، در interview ها discussion درباره engine building، plugin development و quantization توقع داشته باشید.

ضروری
EN

Familiarity with LLM inference optimization techniques (FlashAttention, PagedAttention, speculative decoding)

NVIDIA انتظار دارد که paper های recent را خوانده باشید. در interview احتمالاً سؤال خواهد شد چطور FlashAttention کار می‌کند، PagedAttention چه trade-off دارد، یا Medusa چطور سرعت می‌گیرد.

ضروری
EN

Strong understanding of GPU architecture (memory hierarchy, tensor cores, NVLink)

NVIDIA انتظار دارد architecture chip های خودش (Hopper، Blackwell) را عمیق بدانید. این یعنی memory bandwidth، compute throughput، Tensor Memory Accelerator (TMA)، و NVLink topology باید برایتان آشنا باشد.

ضروری
EN

Experience with profiling tools (Nsight Systems, Nsight Compute)

Nsight tools برای NVIDIA Inference Engineer ضروری است. interview شامل profiling exercise است — یک kernel به شما داده می‌شود و باید bottleneck را با Nsight discover کنید.

ضروری

تحلیل مسئولیت‌ها

EN

Develop and optimize LLM inference kernels for NVIDIA GPUs

این کار اصلی است. شما kernel جدید (attention variant، MoE routing، quantization) می‌نویسید برای TensorRT-LLM. ownership feature خود را خواهید داشت.

EN

Collaborate with research teams to bring cutting-edge techniques to production

NVIDIA Research دایم paper publish می‌کند (FasterTransformer، NeMo). شما با آن‌ها همکار می‌کنید برای productize کردن techniques جدید. dynamic بین research و engineering یک skill مهم.

EN

Benchmark and profile inference performance across various models and hardware configurations

NVIDIA benchmark publish می‌کند که در marketing GPU استفاده می‌شود. شما این benchmark ها را می‌سازید و defend می‌کنید. دقت methodological حیاتی است — یک claim غلط در benchmark می‌تواند به reputation اثر بزند.

EN

Contribute to TensorRT-LLM open-source project and engage with the community

TensorRT-LLM روی GitHub است (اگرچه با code closed-source هم). شما PR review می‌کنید، issue پاسخ می‌دهید، و در conference (GTC) ارائه می‌دهید. public visibility بخشی از job است.

نتیجه‌گیری کلی

NVIDIA یکی از top destination ها برای Inference Engineer است. compensation strong (Senior $350-550K total با NVDA stock که هر سال double می‌شود)، technical challenge فوق‌العاده، و access به منحصر به فردترین hardware (Blackwell pre-release). bar فنی بسیار بالاست — اکثر candidates rejected می‌شوند. توصیه: GitHub portfolio با CUDA و Triton kernel، contribution به TensorRT-LLM یا vLLM، blog post technical عمیق، و آماده‌سازی برای system design interview با focus روی GPU architecture. آماده شدن ۶-۱۲ ماه طول می‌کشد.

آینده و روندها

پیش‌بینی ۵–۱۰ ساله و مهارت‌هایی که باید یاد بگیرید

رشد ۳۵٪ سالانه (CAGR) تا ۲۰۳۰ — تقاضا برای Inference Engineer از ۲۰ هزار به ۹۰ هزار شغل در جهان می‌رسد

منبع: BLS Occupational Outlook 2024 / NVIDIA Industry Report 2025

مهارت‌های نوظهور که باید یاد بگیرید

FP4 / Sub-4-bit Quantization (با hardware support Blackwell)MoE Inference Optimization (DeepSeek-V3 era)Speculative & Parallel Decoding (Medusa, EAGLE, Lookahead)Multi-Modal Inference (Vision-Language، Audio-Language)Long-Context Optimization (1M+ tokens with StreamingLLM)Disaggregated Serving (prefill vs decode separation)Hardware-Software Co-Design (با ASIC custom مثل Groq، Cerebras)

پیش‌بینی‌های آینده

2026

FP4 quantization به استاندارد می‌رسد با Blackwell — Inference Engineer های آشنا با FP4 quantization-aware training، demand بالا

2027

MoE inference به default در production می‌شود — expert routing optimization یک niche پرحقوق

2028

AMD ROCm و Apple MLX به maturity می‌رسند — Inference Engineer های cross-vendor با premium ۲۰-۳۰٪ paid

2030

Inference compute بزرگ‌تر از training compute در total budget می‌شود — Inference Engineer به سطح Compiler Engineer برای CPU در ۲۰۰۰s می‌رسد

ریسک‌های واقعی

ریسک اصلی commoditization در low-level optimization است — task های routine kernel tuning قابل automation با tool هایی مثل torch.compile و TorchInductor شده‌اند. کسانی که فقط CUDA basics بلدند آسیب‌پذیرند. کسانی که در research-level optimization (نوشتن paper)، architecture جدید (Mamba، RWKV) و hardware co-design قوی هستند، demand بیشتر می‌شوند. ریسک دیگر: vendor lock-in در NVIDIA. اگر فقط CUDA بلدید و AMD ROCm نمی‌دانید، یا Apple MLX و Apple Silicon آشنا نیستید، در dynamic رقابتی hardware vulnerable هستید. توصیه: cross-vendor expertise و focus روی fundamental algorithm ها (که portable هستند).

ویدیوهای آموزشی

برای راهنمایی شخصی‌سازی‌شده مشاوره بگیرید