🏗️

رتبه ۳۲ از ۱۰رشد ۴۱.۵% سالانه

معمار زیرساخت هوش مصنوعی

AI Infrastructure Architect

معمار زیرساخت هوش مصنوعی (AI Infrastructure Architect) متخصصی است که پشته کامل سخت‌افزار، شبکه، استوریج و نرم‌افزار را برای آموزش و serve کردن مدل‌های AI در مقیاس صنعتی طراحی می‌کند. از خوشه‌های GPU با ده‌ها هزار H100 که GPT-4 و Claude را آموزش دادند، تا inference clusterهایی که میلیاردها request روزانه پاسخ می‌دهند، تا شبکه‌های InfiniBand با پهنای باند ۳.۲ Tbps — این متخصصان موتور تمام انقلاب AI هستند. در ۲۰۲۶ با ظهور مدل‌های trillion-parameter و سرمایه‌گذاری ۵۰۰ میلیارد دلاری روی data centerهای AI، تقاضا برای این تخصص به اوج خود رسیده است.

GPU ClustersKubernetesNetworkingDistributed SystemsCloud Architecture

مقدمه و تعریف شغل

معمار زیرساخت هوش مصنوعی (AI Infrastructure Architect) متخصصی است که پشته کامل compute، شبکه، storage و نرم‌افزار را برای آموزش (training) و serve کردن (inference) مدل‌های AI در مقیاس صنعتی طراحی می‌کند. این نقش در تقاطع HPC کلاسیک، Cloud Engineering و ML Engineering قرار دارد — معمار باید هم بفهمد یک تنسور چگونه در InfiniBand جابه‌جا می‌شود، هم بداند یک مدل trillion-parameter چگونه آموزش می‌بیند، و هم بتواند با CFO درباره ROI یک قرارداد ۱۰۰ میلیون دلاری GPU صحبت کند.

تا سال ۲۰۲۰، زیرساخت AI تقریباً معادل با MLOps در یک hyperscaler بود. اما در ۲۰۲۲ با GPT-3 و سپس ChatGPT، روشن شد که آموزش مدل‌های frontier نیاز به سطح کاملاً جدیدی از زیرساخت دارد — هزاران GPU H100، شبکه‌های InfiniBand 400Gbps، خنک‌سازی liquid، و میلیون‌ها دلار هزینه روزانه. در ۲۰۲۴-۲۰۲۵، xAI کلاستر Colossus را با ۱۰۰هزار H100 ساخت، Meta کلاسترهای ۲۴ هزار H100 برای Llama 3 راه‌اندازی کرد، و OpenAI/Microsoft روی Stargate با هدف ۵۰۰ میلیارد دلار سرمایه‌گذاری توافق کردند. اکنون در ۲۰۲۶، با ظهور Blackwell B100/B200 و عرضه مدل‌های trillion-parameter، نیاز به این تخصص بیش از هر زمان دیگری است. حقوق ارشد در frontier labs می‌تواند به ۵۰۰ هزار تا ۸۰۰ هزار دلار کل compensation برسد و در برخی نقش‌های Distinguished، عدد به ۱ میلیون+ هم می‌رسد.

چه چیزی می‌سازید؟

مثال‌های واقعی از خروجی کار یک معمار زیرساخت هوش مصنوعی

🏗️

خوشه‌های آموزش frontier model

Meta می‌خواهد Llama 4 را روی ۳۲ هزار H200 آموزش دهد. شما کل پشته را طراحی می‌کنید: rack layout، InfiniBand topology، storage tier ها، scheduling، monitoring و disaster recovery.

🚀

Inference platform مقیاس صنعتی

OpenAI به ۱۰۰ میلیون req/day روی ChatGPT جواب می‌دهد. شما platform serving را طراحی می‌کنید: load balancing، caching، autoscaling، multi-region failover.

🔗

شبکه‌های پرسرعت AI

یک آموزش ۲۰هزار GPU بدون شبکه مناسب impossible است. شما fabric InfiniBand یا RoCE با bandwidth ۳.۲Tbps طراحی می‌کنید که collective ها <۱ms طول بکشند.

💾

استراتژی Storage AI

دیتاست‌های pretraining حالا چندین پتابایت هستند. شما tier‌بندی storage (NVMe، parallel filesystem، object store) طراحی می‌کنید که bandwidth بالا و هزینه پایین داشته باشد.

💰

FinOps و کنترل بودجه AI

GPU گران است و مصرف به‌سرعت رشد می‌کند. شما dashboards، quota policies و forecasting طراحی می‌کنید که جلوی over-provisioning و waste را بگیرد.

🌐

Multi-cloud و Reference Architectures

یک enterprise بزرگ نمی‌خواهد lock-in به یک vendor شود. شما reference architecture می‌سازید که در AWS، Azure، GCP و یک on-prem cluster یکسان کار کند.

تخصص‌های مختلف معمار زیرساخت هوش مصنوعی

این شغل یک عنوان واحد نیست — مسیرهای تخصصی متعددی دارد

🏗️

طراحی کلاستر آموزش

Training Cluster Design

تخصص در طراحی خوشه‌های ۱۰۰۰+ GPU برای foundation model training — کارفرماهای اصلی: Meta، Microsoft، xAI، Anthropic.

🚀

Inference Platform

تمرکز روی low-latency, high-throughput serving — کارفرماهای اصلی: OpenAI، Anthropic، Together AI، Fireworks.

☁️

GPU Cloud و Bare Metal

GPU Cloud & Bare Metal

ساخت GPU cloud (مثل CoreWeave، Lambda) یا on-prem clusters برای enterprise — رشد ۵۰٪ سالانه.

📡

Edge AI Infrastructure

زیرساخت برای model serving در edge — automotive (Tesla)، telco (Verizon)، retail. کاربر متفاوت اما رشد بالا.

🛡️

Sovereign AI و Compliance

Sovereign AI / Compliance

ساخت AI infra برای دولت‌ها و صنایع regulated (سلامت، مالی، دفاع) — رشد در امارات، عربستان، اروپا و هند.

تفاوت با شغل‌های مشابه

کجا این شغل تمام می‌شود و شغل دیگری شروع می‌شود؟

مهندس MLOpsMLOps Engineer

MLOps Engineer روی pipeline، CI/CD و lifecycle مدل تمرکز می‌کند. AI Infrastructure Architect یک‌ سطح پایین‌تر می‌رود: hardware، networking، capacity planning. در شرکت‌های کوچک یک نفر هر دو نقش را دارد؛ در شرکت‌های بزرگ این دو تیم جدا هستند و با هم همکاری می‌کنند.

معمار ابرCloud Architect

Cloud Architect generalist است و در workload های متنوع کار می‌کند. AI Infrastructure Architect specialized روی AI workload ها است — GPU، collective operations، RDMA، training pipeline. تخصص AI معمولاً حقوق ۲۰-۴۰٪ بالاتر می‌گیرد.

مهندس قابلیت اطمینان سایتSite Reliability Engineer (SRE)

SRE روی reliability سرویس‌های در حال اجرا تمرکز می‌کند. AI Infrastructure Architect روی طراحی اولیه سیستم و انتخاب‌های strategic. در عمل این دو نقش با هم همپوشانی زیادی دارند — یک معمار خوب باید SRE thinking هم داشته باشد.

مهندس سخت‌افزارHardware Engineer

Hardware Engineer (در NVIDIA، Google TPU team، AWS Trainium) تراشه و سخت‌افزار را طراحی می‌کند. AI Infrastructure Architect مصرف‌کننده این سخت‌افزار است — می‌داند چگونه ترکیب کند، deploy کند و بهینه کند. اما باید عمیقاً hardware را بفهمد.

تأثیر در صنایع مختلف

معمار زیرساخت هوش مصنوعی در همه صنایع مشغول به کار است — نه فقط شرکت‌های فناوری

🤖

Frontier AI Labs

OpenAI، Anthropic، Google DeepMind، xAI، Meta FAIR — همه به معمارهای ارشد infra نیاز دارند. حقوق ۴۰۰هزار+ معمول است.

☁️

Hyperscaler Clouds

AWS، Azure، GCP، Oracle — همه در حال ساخت AI-specific data center هستند. تیم‌های ۱۰۰+ نفری روی این بخش کار می‌کنند.

🎯

GPU Cloud Specialists

CoreWeave، Lambda Labs، RunPod، Crusoe — رشد ۲۰۰٪+ در ۲۰۲۴-۲۰۲۵. مدل کسب‌وکار: ارزان‌تر و سریع‌تر از hyperscaler.

💹

Financial Services

JPMorgan، Goldman، Two Sigma — همه AI clusterهای داخلی برای trading و risk می‌سازند. compliance بسیار سخت‌گیر.

💊

Pharma و Healthcare

Roche، Pfizer، Genentech — drug discovery با AlphaFold و مدل‌های protein. زیرساخت HIPAA-compliant.

🚗

Automotive (Self-Driving)

Tesla Dojo، Waymo، Mobileye — clusterهای exabyte-scale data و آموزش روزانه مدل‌های perception.

🌍

Sovereign AI

G42 (امارات)، Saudi Aramco، Mistral (فرانسه)، LG AI (کره) — دولت‌ها سرمایه‌گذاری ده‌میلیارد دلاری برای استقلال AI.

🛡️

Defense & Intelligence

Palantir، Anduril، Lockheed، DoD — رشد سریع contract های AI با نیاز به infrastructure highly-secure و air-gapped.

تصورات غلط رایج

قبل از تصمیم‌گیری، این باورهای اشتباه را بشناسید

فقط باید Kubernetes را بلد باشید

K8s ابزار است نه معماری. معمار باید درک عمیقی از GPU، شبکه، storage، compute economics و power داشته باشد. خیلی از k8s expertها وقتی به سراغ AI infra می‌آیند گم می‌شوند.

Cloud همه چیز را حل کرده

برای آموزش frontier model، cloud اغلب ۲-۳ برابر گران‌تر از on-prem است. شرکت‌های جدی AI ترکیبی از hyperscaler، GPU cloud و on-prem دارند. این تصمیم‌ها میلیون‌ها دلار اثر دارند.

حتماً باید CS از MIT داشته باشید

بسیاری از بهترین معمارهای infra از مسیرهای غیرمستقیم آمده‌اند: HPC، نظامی، startup سال‌ها قبل. مهم: تجربه عملی با scale، عمق فنی و communication خوب با stakeholders.

GPU گران است پس بهینه‌سازی همه چیز است

بهینه‌سازی مهم است اما delivery time مهم‌تر است. یک training job که ۲ هفته زودتر تمام شود، ممکن است ۱۰ میلیون دلار ارزش داشته باشد — حتی اگر ۲۰٪ inefficient باشد. balance حیاتی است.

Networking یک detail است

در آموزش توزیع‌شده، networking بزرگ‌ترین bottleneck است. ۳۰-۵۰٪ زمان GPU می‌تواند صرف communication شود. یک معمار خوب InfiniBand topology و collective ops را به همان عمق GPU بلد است.

یک روز کاری واقعی

در هر سطح روز کاری چه شکلی است؟

جونیور (۰–۲ سال)

بیشتر روز را روی troubleshoot، اجرای Terraform و response به alerts می‌گذرانید. هر هفته چیز جدیدی یاد می‌گیرید چون دامنه بسیار وسیع است.

◆صبح: بررسی dashboard های Grafana — کلاستر شب چطور کار کرد؟ کدام jobs fail شدند؟
◆بلاک اول: اضافه کردن node group جدید به cluster با Terraform و Helm chart
◆بعد از ناهار: troubleshoot یک ML engineer که می‌گوید training کند شده — اغلب مسئله I/O یا NCCL است
◆عصر: کار روی یک ticket: migrate یک سرویس از manual deployment به ArgoCD
◆پایان روز: on-call handoff و یادداشت برداری از incidents

Senior (۲–۵ سال)

طراحی subsystem های مهم به شما واگذار می‌شود. مرز بین delivery و architecture را tradeoff می‌کنید. شروع به نمایندگی تیم در جلسات cross-functional.

◆صبح: مرور design proposal خود برای migration storage از NFS به VAST
◆جلسه با تیم ML: ترجمه نیاز scientific (مثلاً ۵۰هزار checkpoint per day) به نیاز infra
◆بلاک کدنویسی: نوشتن custom controller برای auto-detection و quarantine GPU های problematic
◆بعد از ناهار: review کردن PR یک جونیور روی module Terraform و mentorship
◆عصر: مذاکره با AWS account team درباره capacity reservation برای کوارتر بعدی

Staff/Principal (۵+ سال)

تمرکز روی استراتژی، vendor relations و رهبری چند تیم. کمتر کد می‌نویسید اما تصمیم‌هایتان روی بودجه‌های ۱۰ میلیون دلاری+ اثر دارد.

◆صبح: مرور capacity plan ۳ ساله و ارائه به CTO
◆جلسه با NVIDIA: مذاکره درباره allocation Blackwell و timeline تحویل
◆تصمیم strategic: انتخاب بین ساخت data center اختصاصی یا استفاده از GPU cloud — مدل اقتصادی ۵۰ میلیون دلاری
◆بعد از ناهار: نوشتن RFC برای reference architecture جدید — توزیع به ۳ تیم infra
◆عصر: keynote prep برای GTC یا KubeCon + ۱:۱ با Director یکی از تیم‌های infra

مسئولیت‌ها و وظایف

مسئولیت‌های اصلی

وظایف روزانه و مهارت‌های مورد نیاز در این شغل

فنی

◈طراحی reference architecture برای training و inference در مقیاس صنعتی
◈ارزیابی و انتخاب vendor (NVIDIA، AMD، Cerebras، Groq، hyperscalers، GPU clouds)
◈Capacity planning چند‌ساله شامل GPU، شبکه، storage و power
◈طراحی شبکه‌های پرسرعت با InfiniBand یا RoCE برای آموزش توزیع‌شده
◈طراحی استراتژی multi-region/multi-cloud با disaster recovery

مهارت نرم

◈مدیریت هزینه و FinOps — اغلب کنترل بودجه‌های ۱۰ تا ۵۰۰ میلیون دلاری
◈همکاری با تیم‌های ML برای ترجمه نیاز scientific به نیاز infra
◈نمایندگی شرکت در مذاکره با NVIDIA، AWS، GCP و دیگر vendorها

مهارت‌های مورد نیاز

مهارت‌های فنی، نرم و حوزه‌ای که یک معمار زیرساخت هوش مصنوعی موفق به آن‌ها نیاز دارد

مهارت‌های فنی زیرساخت

Linux Internalsضروری

درک عمیق kernel، scheduling، NUMA، cgroups — پایه هر سیستم infra

Kubernetesضروری

CKA-level: scheduling، CNI، CSI، operator pattern، troubleshooting

Terraform / IaCضروری

نوشتن ماژول‌های reusable، state management، multi-cloud abstraction

GPU & CUDAضروری

درک architecture H100/B100، CUDA basics، NCCL، profiling با NSight

High-Performance Networkingضروری

InfiniBand، RoCE، RDMA، topology های Fat-Tree و Dragonfly

Distributed Trainingضروری

Data/Tensor/Pipeline parallelism، DeepSpeed، Megatron-LM، FSDP

Inference Enginesضروری

vLLM، Triton، TensorRT-LLM، continuous batching، speculative decoding

Cloud Platformsضروری

تسلط عمیق بر حداقل یک hyperscaler + آشنایی با GPU cloud های specialized

Storage Systemsمهم

Parallel filesystems (Lustre، GPFS، WEKA)، object storage، caching strategies

Observabilityمهم

Prometheus، Grafana، DCGM، tracing distributed، SLI/SLO design

مهارت‌های مالی و معماری

Capacity Planningضروری

Forecasting چند‌ساله، Monte Carlo simulation، buffer strategy

FinOpsضروری

Showback/Chargeback، cost allocation، rightsizing، reserved instances

Vendor Evaluationضروری

ارزیابی NVIDIA vs AMD vs custom silicon — TCO modeling

Reference Architectureمهم

طراحی architecture قابل reuse برای کل سازمان

Disaster Recoveryمهم

RPO/RTO، multi-region failover، backup strategy

Complianceمفید

SOC 2، ISO 27001، HIPAA، GDPR — به‌خصوص در enterprise

مهارت‌های نرم و رهبری

Executive Communicationضروری

ارائه decision های ۱۰میلیون دلاری به CTO/CFO با clarity

Cross-functional Collaborationضروری

کار با ML، product، finance، legal — هر تیم زبان خود را دارد

Vendor Negotiationمهم

مذاکره با NVIDIA، AWS، GCP — اغلب درباره millions در سال

Mentorshipمهم

ساخت تیم infra — استخدام، آموزش، حفظ engineer های scarce

ضروری — بدون آن نمی‌توان وارد بازار کار شدمهم — تفاوت بین جونیور و میانیمفید — مزیت رقابتی

نقشه راه و مسیر آموزشی

نقشه راه تبدیل شدن به معمار زیرساخت هوش مصنوعی

این مسیر گام به گام شما را از صفر تا حرفه‌ای هدایت می‌کند.

پایه سیستم‌های توزیع‌شده و شبکه

⏱️ ۴ تا ۶ ماه

تسلط بر اصول سیستم‌های توزیع‌شده، شبکه‌های پیشرفته، Linux performance و حافظه — پایه برای هر معمار زیرساخت

Linux InternalsTCP/IP & RDMADistributed Systems ConceptsBash & Python ScriptingSystem Performance TuningStorage Fundamentals (NFS, S3, NVMe)

منابع پیشنهادی

Designing Data-Intensive Applications - Martin Kleppmann Linux Performance - Brendan Gregg Computer Networking: A Top-Down Approach

Kubernetes، Cloud و IaC

⏱️ ۳ تا ۴ ماه

تسلط بر Kubernetes، یک hyperscaler (AWS/GCP/Azure) و ابزارهای IaC مانند Terraform — زبان مشترک زیرساخت مدرن

Kubernetes (CKA-level)TerraformAWS / GCP / AzureHelmGitOps (ArgoCD/Flux)Container Networking (CNI)Service Mesh (Istio/Linkerd)

منابع پیشنهادی

Kubernetes the Hard Way - Kelsey Hightower AWS Solutions Architect Professional Terraform Up & Running - Yevgeniy Brikman

GPU، NCCL و آموزش توزیع‌شده

⏱️ ۴ تا ۶ ماه

درک عمیق GPUها (H100/H200/B100/B200)، NCCL، NVLink، InfiniBand و توپولوژی‌های آموزش توزیع‌شده — هسته هر زیرساخت AI

NVIDIA GPU Architecture (Hopper/Blackwell)CUDA FundamentalsNCCL & MPIInfiniBand & RoCENVLink & NVSwitchData/Tensor/Pipeline ParallelismDeepSpeed & Megatron-LM

منابع پیشنهادی

NVIDIA Deep Learning Institute How to Build a Distributed Training Cluster - NVIDIA Megatron-LM GitHub

Inference، Serving و بهینه‌سازی هزینه

⏱️ ۳ تا ۴ ماه

طراحی inference platform مقیاس‌پذیر، تسلط بر vLLM، TensorRT-LLM، autoscaling و FinOps — جایی که ۸۰٪ هزینه AI در ۲۰۲۶ صرف می‌شود

vLLM & TensorRT-LLMTriton Inference ServerKServe / Ray ServeGPU AutoscalingSpot/Preemptible StrategiesMulti-region RoutingCost Modeling & FinOps

منابع پیشنهادی

vLLM Documentation Triton Inference Server Tutorial FinOps Foundation Resources

Reference Architecture، Capacity Planning و رهبری

⏱️ مداوم

طراحی reference architecture برای سازمان، capacity planning چند‌ساله، انتخاب vendor، و رهبری تیم‌های infra — مهارت‌های یک معمار ارشد

Reference Architecture DesignCapacity PlanningVendor Evaluation (NVIDIA/AMD/Hyperscalers)Disaster RecoveryCompliance (SOC 2, ISO 27001, HIPAA)Technical LeadershipExecutive Communication

منابع پیشنهادی

Google SRE Books (Free)AWS Well-Architected Framework Meta AI Infrastructure Blog

ابزارها و استک فنی

ابزارهایی که هر مهندس AI باید بشناسد، دسته‌بندی‌شده بر اساس اولویت

ارکستراسیون و پلتفرم

Kubernetes

سیستم استاندارد ارکستراسیون container ها — قلب هر زیرساخت AI مدرن

ضروری

Kubeflow

پلتفرم ML بر پایه Kubernetes — pipeline، training، serving در یک سیستم

مفید

Ray

فریم‌ورک distributed computing برای AI — استفاده توسط OpenAI و Anthropic

ضروری

Slurm

scheduler غالب در HPC و خوشه‌های GPU بزرگ — هنوز در labs استفاده می‌شود

مفید

GPU، Networking و Storage

NVIDIA H100/H200/B200

GPUهای پرچم‌دار آموزش و inference — استاندارد صنعت برای frontier models

ضروری

InfiniBand NDR (400 Gbps)

شبکه پشتیبان آموزش توزیع‌شده — Mellanox/NVIDIA ConnectX-7

ضروری

WEKA / VAST Data

استوریج موازی با throughput بسیار بالا — مورد استفاده در labs مثل Stability AI

پیشرفته

NCCL

کتابخانه NVIDIA برای ارتباط collective بین GPUها — قلب آموزش توزیع‌شده

ضروری

Cloud و IaC

Terraform / OpenTofu

ابزار غالب Infrastructure-as-Code — زیرساخت multi-cloud

ضروری

AWS SageMaker HyperPod

سرویس مدیریت‌شده AWS برای foundation model training روی هزاران GPU

مفید

GCP Vertex AI Training

پلتفرم Google با دسترسی به TPU v5e/v5p — بهترین برای علاقه‌مندان JAX

مفید

CoreWeave / Lambda Labs

Specialized GPU cloud — اغلب 30-50٪ ارزان‌تر از hyperscalerها

مفید

Inference، Observability و FinOps

vLLM

موتور inference پیشرفته برای LLMها — استاندارد open-source صنعت در ۲۰۲۶

ضروری

Triton Inference Server

Production-grade serving از NVIDIA — multi-model و multi-framework

ضروری

Prometheus + Grafana + DCGM

پشته استاندارد مانیتورینگ + DCGM برای متریک‌های GPU

ضروری

CAST AI / Vantage

ابزارهای FinOps برای کنترل هزینه AI cluster — حیاتی در دوران GPU گران

مفید

ضروری — باید یاد بگیریدمفید — ارزش یادگیری داردپیشرفته — برای سطوح ارشد

مسیر پیشرفت شغلی

از جونیور تا Staff Engineer — چه مهارت‌هایی نیاز دارید و چه درآمدی انتظار داشته باشید

Infrastructure Engineer جونیور

۰ تا ۲ سال

~$125K

میانگین سالانه (آمریکا)

نگهداری cluster های موجود، اجرای Terraform، troubleshooting روزانه، on-call rotation

LinuxKubernetes basicsTerraformBash/PythonCloud (AWS/GCP)

Senior Infrastructure Engineer

۲ تا ۵ سال

~$195K

میانگین سالانه (آمریکا)

طراحی subsystem مهم (storage، networking)، رهبری migration ها، menormship جونیورها، on-call architectural

GPU Cluster OpsNCCL/InfiniBandHelm/ArgoCDCost OptimizationIncident Response

Staff / Principal Architect

۵ تا ۹ سال

~$320K

میانگین سالانه (آمریکا)

طراحی reference architecture برای کل شرکت، capacity planning چند‌ساله، انتخاب vendor، رهبری ۲-۵ تیم

Reference ArchitectureMulti-region DesignVendor StrategyExecutive CommsCompliance

Distinguished Engineer / Director of Infra

۹+ سال

~$525K

میانگین سالانه (آمریکا)

تعریف استراتژی infra سازمان، مذاکره ۱۰۰ میلیون دلار+ contract با NVIDIA، نمایندگی شرکت در جامعه فنی

Org StrategyVendor Negotiation ($100M+)Public SpeakingIndustry InfluenceTalent Acquisition

چالش‌ها و جنبه‌های منفی

واقعیت‌هایی که کمتر در آگهی‌های شغلی می‌بینید — قبل از ورود بدانید

Scale نهفته در هر تصمیم

عمومی

یک decision کوچک می‌تواند در scale میلیون‌ها دلار اثر بگذارد. مثلاً انتخاب network topology اشتباه می‌تواند ۲۰٪ throughput cluster را از بین ببرد — معادل ۲۰ میلیون دلار از سرمایه‌گذاری ۱۰۰ میلیون دلاری.

Supply Chain GPU

شرکت بزرگ

از ۲۰۲۳، GPUها به‌شدت محدود هستند. lead time برای H100 می‌تواند ۶-۱۲ ماه باشد. معمار باید order ها را سال‌ها از پیش planning کند و با NVIDIA رابطه قوی داشته باشد.

Heat و Power Density

تحقیقاتی

یک rack H100 می‌تواند ۴۰-۸۰ کیلووات power مصرف کند. data center های قدیمی این density را پشتیبانی نمی‌کنند. معمار باید بداند liquid cooling چگونه کار می‌کند و چه data center هایی آن را پشتیبانی می‌کنند.

تغییر سریع تکنولوژی

عمومی

هر ۱۸ ماه یک نسل GPU جدید عرضه می‌شود (V100 → A100 → H100 → B100). معماری که برای H100 بهینه شده، روی B100 ممکن است suboptimal باشد. باید مدام refactor کنید.

تعادل cost vs delivery

استارتاپ

اغلب فشار برای deliver سریع وجود دارد، حتی به قیمت inefficiency. باید بتوانید نشان دهید کی worth-it است که زمان بیشتری روی optimization صرف شود.

Talent Scarcity

عمومی

افراد با تجربه ۱۰هزار+ GPU clusters در کل دنیا شاید ۵۰۰ نفر باشند. recruiting بسیار سخت است و معمار اغلب باید خودش junior های promising را آموزش دهد.

حقوق و بازار کار جهانی

حقوق جهانی معمار زیرساخت هوش مصنوعی

میانگین حقوق سالانه بر اساس تجربه در کشورهای مختلف

کشور	حداقل	میانه	حداکثر	ارز
🇯🇵ژاپنبالاترین	¥15,000,000	¥21,000,000	¥30,000,000	JPY
🇮🇳هند	₹4,000,000	₹6,500,000	₹10,000,000	INR
🇦🇪امارات	AED 280,000	AED 360,000	AED 480,000	AED
🇺🇸آمریکا	$240,000	$340,000	$520,000	USD
🇨🇦کانادا	CA$175,000	CA$220,000	CA$300,000	CAD
🇨🇭سوئیس	CHF 170,000	CHF 210,000	CHF 270,000	CHF
🇸🇬سنگاپور	SGD 160,000	SGD 210,000	SGD 290,000	SGD
🇦🇺استرالیا	A$160,000	A$200,000	A$260,000	AUD
🇬🇧انگلستان	£130,000	£175,000	£240,000	GBP
🇩🇪آلمان	€110,000	€140,000	€195,000	EUR

* ارقام سالانه و تقریبی هستند و بر اساس میانگین بازار در سال ۲۰۲۵ محاسبه شده‌اند.

چگونه از صفر شروع کنیم

برنامه گام‌به‌گام برای ورود به مهندسی هوش مصنوعی

ماه ۱: Kubernetes Deep Dive

تسلط عمیق بر Kubernetes از CNI تا scheduler. حل Kubernetes the Hard Way. آماده‌سازی برای CKA.

Kubernetes the Hard Way

ماه ۲: GPU Fundamentals + NCCL

آموزش NVIDIA DLI، NCCL basics، اجرای multi-GPU training job ساده روی AWS p4d.

NVIDIA DLI

ماه ۳: AI-specific Cloud Services

تسلط بر AWS SageMaker HyperPod، GCP Vertex AI، Azure AI Foundry. مقایسه قیمت و capability.

ماه ۴: Inference Engines

Deploy کردن vLLM و Triton. benchmark در برابر HF TGI. autoscaling روی k8s.

vLLM Docs

ماه ۵: Reference Architectures

مطالعه deep معماری Meta، xAI، OpenAI از blog های engineering. نوشتن مقایسه فنی.

ماه ۶: Portfolio و Apply

یک Terraform module کامل برای GPU cluster در GitHub. شروع به apply برای AI infra positions.

پروژه‌های پیشنهادی برای رزومه

ساخت multi-node GPU cluster در home lab

مبتدی

با ۲-۴ کارت GPU مصرفی (RTX 4090) یک خوشه کوچک بسازید. Kubernetes، NCCL و یک training job توزیع‌شده روی PyTorch FSDP اجرا کنید.

KubernetesDockerNCCLPyTorch FSDP

زمان تخمینی: ۴ هفته

Terraform module برای GPU cluster در AWS

متوسط

ماژول کامل Terraform برای راه‌اندازی EKS با node group های GPU (p4d/p5)، EFA networking، FSx for Lustre و monitoring stack.

TerraformAWS EKSEFAFSx LustrePrometheus

زمان تخمینی: ۶ هفته

Inference platform با vLLM و autoscaling

متوسط

platform serving برای LLMهای open-source (Llama 3.3، Qwen 3) با vLLM، KServe و autoscaling مبتنی بر queue depth. Benchmark در برابر TGI.

vLLMKServeKubernetes HPAPrometheusGrafana

زمان تخمینی: ۶ هفته

Reference architecture document برای startup AI

پیشرفته

یک سند ۳۰-۵۰ صفحه‌ای reference architecture برای یک startup فرضی که می‌خواهد ۱۰۰ میلیون دلار سرمایه‌گذاری روی GPU کند. شامل diagrams، cost model و ROI.

LucidchartExcalidrawCost ModelingArchitecture Documentation

زمان تخمینی: ۸ هفته

Open-source contribution به Ray یا vLLM

پیشرفته

یک PR معنادار به Ray، vLLM یا Kubeflow بفرستید. مثلاً بهبود scheduler، اضافه کردن backend جدید یا fix یک performance bug.

PythonC++/CUDAOpen-Source WorkflowPerformance Profiling

زمان تخمینی: ۸ هفته

مثال‌های واقعی و Case Studies

داستان‌های واقعی از مهندسانی که در این حوزه تأثیرگذار بوده‌اند

Jensen Huang

پیشینه

بنیان‌گذار و CEO NVIDIA از ۱۹۹۳. کارشناسی مهندسی برق Oregon State، ارشد Stanford. قبل از NVIDIA در LSI Logic و AMD کار می‌کرد.

دستاورد

NVIDIA را از یک تولیدکننده gaming GPU به ستون فقرات تمام صنعت AI تبدیل کرد. شخصاً تصمیم استراتژیک به سرمایه‌گذاری روی CUDA در ۲۰۰۶ را گرفت — تصمیمی که ۲۰ سال بعد به مزیت رقابتی بی‌رقیب تبدیل شد. اکنون NVIDIA با ارزش بازار بیش از ۴ تریلیون دلار، یکی از باارزش‌ترین شرکت‌های جهان است و معماری GPU و شبکه‌های آن، رنگ تمام زیرساخت AI را شکل می‌دهد.

درس کلیدی

سرمایه‌گذاری بلندمدت روی platform — حتی وقتی بازار آن هنوز وجود ندارد — می‌تواند مزیت رقابتی نسلی ایجاد کند. Huang در ۲۰۱۲ گفت 'CUDA in ten years would be everywhere' — وقتی deep learning تازه شروع شده بود. این vision بلندمدت چیزی است که هر معمار باید بیاموزد.

Urs Hölzle

پیشینه

دکترای علوم کامپیوتر Stanford. اولین VP of Engineering گوگل (employee #8) از ۱۹۹۹. در ۲۰۱۸ به‌عنوان SVP Technical Infrastructure بازنشسته شد اما همچنان مشاور فنی است.

دستاورد

معمار اصلی زیرساخت گوگل که از یک ساختمان کوچک به یکی از بزرگ‌ترین شبکه‌های data center جهان رسید. در طراحی TPU (Tensor Processing Unit) که اولین custom AI chip در مقیاس صنعتی بود نقش کلیدی داشت. کتاب 'The Datacenter as a Computer' او همچنان مرجع کلاسیک طراحی hyperscale infrastructure است.

درس کلیدی

تخصصی‌سازی hardware برای workload خاص (مثل TPU برای neural networks) می‌تواند مزیت اقتصادی بزرگی ایجاد کند. اما این نیازمند سرمایه‌گذاری چند‌ساله و باور به vision است. Hölzle نشان داد که معمار infra می‌تواند تأثیری به اندازه scientist هایی که الگوریتم می‌سازند داشته باشد.

Brian Venturo

پیشینه

بنیان‌گذار و CTO CoreWeave. قبل از CoreWeave در صنعت hedge fund و سپس crypto mining فعال بود. تخصص: تبدیل تجربه crypto mining به یکی از بزرگ‌ترین specialized GPU clouds جهان.

دستاورد

CoreWeave را در ۲۰۱۷ بنیان گذاشت — اول برای crypto mining، اما در ۲۰۲۰ pivot کرد به GPU cloud برای AI. در ۲۰۲۴ به ارزش‌گذاری ۲۳ میلیارد دلار رسید و یکی از کلیدی‌ترین تامین‌کنندگان GPU برای OpenAI، Microsoft و Stability AI شد. در ۲۰۲۵ IPO کرد. moat اصلی او: سرعت deployment و قیمت پایین‌تر در مقایسه با hyperscalerها.

درس کلیدی

Domain expertise در یک حوزه (crypto mining در این مورد) می‌تواند به مزیت رقابتی در حوزه‌ای کاملاً متفاوت ترجمه شود. Venturo می‌دانست چگونه GPU clusters را در مقیاس و با هزینه پایین اجرا کند — همان مهارت‌هایی که در عصر AI به طلا تبدیل شدند.

نمونه آگهی استخدام واقعی + تحلیل

یک آگهی واقعی از شرکت فعال در حال استخدام، با تحلیل هر بخش

AI Infrastructure Engineer / Architect

xAIبِی اریا یا ممفیس (حضوری ضروری)2025-09

مشاهده آگهی اصلی

تحلیل نیازمندی‌ها

Experience designing and operating GPU clusters at scale (10,000+ GPUs preferred)

این بالاترین bar در صنعت است — فقط در Meta، xAI، Microsoft، Google، OpenAI افراد چنین تجربه‌ای دارند. اگر چنین تجربه‌ای ندارید، باید نشان دهید که با مفاهیم scale آشنا هستید و می‌توانید سریع به آنجا برسید.

ضروری

Deep knowledge of NVIDIA GPU architecture, CUDA, NCCL, and InfiniBand networking

هسته فنی این نقش. باید بتوانید درباره H100 vs B100 trade-offs، NCCL collective algorithms (ring vs tree)، InfiniBand routing مفصل صحبت کنید. در مصاحبه روی این تمرکز می‌شود.

ضروری

Hands-on experience with Kubernetes, Slurm, or similar orchestration systems

xAI ترکیبی از Kubernetes و Slurm استفاده می‌کند. اگر فقط k8s را می‌شناسید، حداقل با Slurm آشنا شوید. مفاهیم scheduling، gang scheduling، fair-share scheduling مهم هستند.

ضروری

Proficiency with Linux internals, networking (RDMA), and storage systems

system-level skills حیاتی هستند. باید بتوانید perf و sar را برای troubleshoot استفاده کنید، RDMA verbs را بفهمید و parallel filesystem tuning کنید.

ضروری

Strong programming skills in Python, Go, or C++

خیلی از کارها automation و tooling است. Python برای IaC و monitoring، Go برای k8s controllers، C++ برای performance-critical code. حداقل یکی باید عمیق باشد.

ضروری

Ability to work in a fast-paced, hands-on environment with willingness to be on-site

xAI به‌خصوص cluster ممفیس (Colossus) یک عملیات بسیار physical است. توقع on-call، travel به data center و کار roll-up-your-sleeves وجود دارد. این برای همه مناسب نیست.

مهم

تحلیل مسئولیت‌ها

Design, build, and operate next-generation AI training clusters

این یعنی شما در طراحی Colossus نسل بعد (شاید ۲۰۰هزار یا ۵۰۰هزار GPU) نقش دارید. این فرصت تاریخی است اما فشار بسیار بالا هم دارد.

Optimize cluster utilization and training efficiency

هر ۱٪ بهبود utilization می‌تواند ده‌ها میلیون دلار صرفه‌جویی کند. تخصص در profiling (NSight)، scheduling و bottleneck analysis حیاتی است.

Develop tooling and automation for cluster management

xAI کوچک‌تر از Meta است اما scale مشابهی دارد. این یعنی automation حیاتی است — کارهایی که در Meta توسط ۵۰ نفر انجام می‌شود، شاید توسط ۵ نفر انجام شود.

Collaborate with ML researchers on hardware/software co-design

ارتباط مستقیم با researcher ها مزیت است. شما می‌توانید feedback مستقیم به طراحی الگوریتم بدهید (مثلاً 'این loss landscape برای ما expensive است').

نتیجه‌گیری کلی

xAI یکی از بالاترین bars را در صنعت دارد اما همچنین یکی از intense ترین environments. حقوق کل برای engineer ارشد می‌تواند به ۵۰۰-۸۰۰ هزار دلار برسد + equity قابل توجه. مهم: تجربه عملی با scale، توانایی hands-on و آمادگی برای on-site در Memphis یا Bay Area. اگر می‌خواهید در lifetime خود روی بزرگ‌ترین AI clusters جهان کار کنید، اینجا یکی از معدود مکان‌هاست.

آینده و روندها

پیش‌بینی ۵–۱۰ ساله و مهارت‌هایی که باید یاد بگیرید

رشد ۴۱.۵٪ سالانه (CAGR) تا ۲۰۳۰ — تقاضا برای AI Infrastructure Architects از ۱۲ هزار به ۹۰ هزار شغل در جهان می‌رسد

منبع: WEF Future of Jobs Report 2025 / Dell'Oro AI Networking Forecast 2025

مهارت‌های نوظهور که باید یاد بگیرید

Blackwell B100/B200 architecture و NVL72 systemsLiquid Cooling و طراحی data center با density بالاCustom Silicon Integration (TPU، Trainium، Maia، MI300)Multi-cluster orchestration برای training cross-regionAI-specific Networking (Ultra Ethernet Consortium)Sustainable AI و کارایی انرژی

پیش‌بینی‌های آینده

2026

اولین cluster ۱ میلیون GPU عرضه می‌شود (احتمالاً xAI، Meta یا Microsoft) — نیاز به معمارهای متخصص hyperscale

2027

Ultra Ethernet Consortium جایگزین جدی برای InfiniBand در AI clusters می‌شود — مهارت‌ها reset می‌شوند

2028

Sovereign AI به یک trillion-dollar industry تبدیل می‌شود — هر کشور G20 cluster خودش را می‌سازد

2030

حقوق Distinguished AI Infrastructure Architect در frontier labs به ۱-۲ میلیون دلار کل compensation می‌رسد — کم‌یاب‌ترین تخصص فنی دنیا

ریسک‌های واقعی

ریسک اصلی این نیست که AI خود معمار را جایگزین کند — بلکه این است که حوزه به‌سرعت تغییر می‌کند و دانش هر ۲-۳ سال نیاز به refresh بزرگ دارد. کسانی که فقط روی نسل کنونی hardware متمرکز می‌مانند آسیب‌پذیر هستند. ریسک دیگر: تمرکز شدید بازار — اگر فقط ۱۰ شرکت در دنیا frontier training cluster بسازند، نقش‌های top-tier محدود می‌شوند. حل: تخصصی‌سازی در یک niche (inference، edge، sovereign AI) که فضای رشد بزرگ‌تری دارد.

ویدیوهای آموزشی

یک روز در زندگی یک AI Infrastructure Architect

ویدیوهای واقعی از متخصصان این حوزه که روزانه چه کارهایی انجام می‌دهند

Inside the World's Largest AI Supercluster xAI Colossus

ServeTheHome

Inside the Modern Data Center! SuperClusters at Applied Digital

Level1Techs

Dwarkesh Goes Inside Jane Street's Latest AI Data Center

Jane Street

How Data Centers Actually Work

MEP Academy

What’s Inside a Data Center? Key Components Explained!

DES Technologies

AI Infrastructure Landscape

Telnyx

برای راهنمایی شخصی‌سازی‌شده مشاوره بگیرید

معمار زیرساخت هوش مصنوعی

مقدمه و تعریف شغل

چه چیزی می‌سازید؟

تخصص‌های مختلف معمار زیرساخت هوش مصنوعی

تفاوت با شغل‌های مشابه

تأثیر در صنایع مختلف

تصورات غلط رایج

یک روز کاری واقعی

مسئولیت‌ها و وظایف

مسئولیت‌های اصلی

مهارت‌های مورد نیاز

مهارت‌های فنی زیرساخت

مهارت‌های مالی و معماری

مهارت‌های نرم و رهبری

نقشه راه و مسیر آموزشی

نقشه راه تبدیل شدن به معمار زیرساخت هوش مصنوعی

پایه سیستم‌های توزیع‌شده و شبکه

Kubernetes، Cloud و IaC

GPU، NCCL و آموزش توزیع‌شده

Inference، Serving و بهینه‌سازی هزینه

Reference Architecture، Capacity Planning و رهبری

ابزارها و استک فنی

ارکستراسیون و پلتفرم

GPU، Networking و Storage

Cloud و IaC

Inference، Observability و FinOps

مسیر پیشرفت شغلی

Infrastructure Engineer جونیور

Senior Infrastructure Engineer

Staff / Principal Architect

Distinguished Engineer / Director of Infra

چالش‌ها و جنبه‌های منفی

Scale نهفته در هر تصمیم

Supply Chain GPU

Heat و Power Density

تغییر سریع تکنولوژی

تعادل cost vs delivery

Talent Scarcity

حقوق و بازار کار جهانی

حقوق جهانی معمار زیرساخت هوش مصنوعی

چگونه از صفر شروع کنیم

ماه ۱: Kubernetes Deep Dive

ماه ۲: GPU Fundamentals + NCCL

ماه ۳: AI-specific Cloud Services

ماه ۴: Inference Engines

ماه ۵: Reference Architectures

ماه ۶: Portfolio و Apply

پروژه‌های پیشنهادی برای رزومه

ساخت multi-node GPU cluster در home lab

Terraform module برای GPU cluster در AWS

Inference platform با vLLM و autoscaling

Reference architecture document برای startup AI

Open-source contribution به Ray یا vLLM

مثال‌های واقعی و Case Studies

Jensen Huang

Urs Hölzle

Brian Venturo

نمونه آگهی استخدام واقعی + تحلیل

AI Infrastructure Engineer / Architect

تحلیل نیازمندی‌ها

تحلیل مسئولیت‌ها

آینده و روندها

مهارت‌های نوظهور که باید یاد بگیرید

پیش‌بینی‌های آینده

ویدیوهای آموزشی

یک روز در زندگی یک AI Infrastructure Architect

Inside the World&#39;s Largest AI Supercluster xAI Colossus

Inside the Modern Data Center! SuperClusters at Applied Digital

Dwarkesh Goes Inside Jane Street&#39;s Latest AI Data Center

How Data Centers Actually Work

What’s Inside a Data Center? Key Components Explained!

AI Infrastructure Landscape

Inside the World's Largest AI Supercluster xAI Colossus

Dwarkesh Goes Inside Jane Street's Latest AI Data Center