معمار زیرساخت هوش مصنوعی
AI Infrastructure Architect
معمار زیرساخت هوش مصنوعی (AI Infrastructure Architect) متخصصی است که پشته کامل سختافزار، شبکه، استوریج و نرمافزار را برای آموزش و serve کردن مدلهای AI در مقیاس صنعتی طراحی میکند. از خوشههای GPU با دهها هزار H100 که GPT-4 و Claude را آموزش دادند، تا inference clusterهایی که میلیاردها request روزانه پاسخ میدهند، تا شبکههای InfiniBand با پهنای باند ۳.۲ Tbps — این متخصصان موتور تمام انقلاب AI هستند. در ۲۰۲۶ با ظهور مدلهای trillion-parameter و سرمایهگذاری ۵۰۰ میلیارد دلاری روی data centerهای AI، تقاضا برای این تخصص به اوج خود رسیده است.
مقدمه و تعریف شغل
معمار زیرساخت هوش مصنوعی (AI Infrastructure Architect) متخصصی است که پشته کامل compute، شبکه، storage و نرمافزار را برای آموزش (training) و serve کردن (inference) مدلهای AI در مقیاس صنعتی طراحی میکند. این نقش در تقاطع HPC کلاسیک، Cloud Engineering و ML Engineering قرار دارد — معمار باید هم بفهمد یک تنسور چگونه در InfiniBand جابهجا میشود، هم بداند یک مدل trillion-parameter چگونه آموزش میبیند، و هم بتواند با CFO درباره ROI یک قرارداد ۱۰۰ میلیون دلاری GPU صحبت کند.
تا سال ۲۰۲۰، زیرساخت AI تقریباً معادل با MLOps در یک hyperscaler بود. اما در ۲۰۲۲ با GPT-3 و سپس ChatGPT، روشن شد که آموزش مدلهای frontier نیاز به سطح کاملاً جدیدی از زیرساخت دارد — هزاران GPU H100، شبکههای InfiniBand 400Gbps، خنکسازی liquid، و میلیونها دلار هزینه روزانه. در ۲۰۲۴-۲۰۲۵، xAI کلاستر Colossus را با ۱۰۰هزار H100 ساخت، Meta کلاسترهای ۲۴ هزار H100 برای Llama 3 راهاندازی کرد، و OpenAI/Microsoft روی Stargate با هدف ۵۰۰ میلیارد دلار سرمایهگذاری توافق کردند. اکنون در ۲۰۲۶، با ظهور Blackwell B100/B200 و عرضه مدلهای trillion-parameter، نیاز به این تخصص بیش از هر زمان دیگری است. حقوق ارشد در frontier labs میتواند به ۵۰۰ هزار تا ۸۰۰ هزار دلار کل compensation برسد و در برخی نقشهای Distinguished، عدد به ۱ میلیون+ هم میرسد.
چه چیزی میسازید؟
مثالهای واقعی از خروجی کار یک معمار زیرساخت هوش مصنوعی
خوشههای آموزش frontier model
Meta میخواهد Llama 4 را روی ۳۲ هزار H200 آموزش دهد. شما کل پشته را طراحی میکنید: rack layout، InfiniBand topology، storage tier ها، scheduling، monitoring و disaster recovery.
Inference platform مقیاس صنعتی
OpenAI به ۱۰۰ میلیون req/day روی ChatGPT جواب میدهد. شما platform serving را طراحی میکنید: load balancing، caching، autoscaling، multi-region failover.
شبکههای پرسرعت AI
یک آموزش ۲۰هزار GPU بدون شبکه مناسب impossible است. شما fabric InfiniBand یا RoCE با bandwidth ۳.۲Tbps طراحی میکنید که collective ها <۱ms طول بکشند.
استراتژی Storage AI
دیتاستهای pretraining حالا چندین پتابایت هستند. شما tierبندی storage (NVMe، parallel filesystem، object store) طراحی میکنید که bandwidth بالا و هزینه پایین داشته باشد.
FinOps و کنترل بودجه AI
GPU گران است و مصرف بهسرعت رشد میکند. شما dashboards، quota policies و forecasting طراحی میکنید که جلوی over-provisioning و waste را بگیرد.
Multi-cloud و Reference Architectures
یک enterprise بزرگ نمیخواهد lock-in به یک vendor شود. شما reference architecture میسازید که در AWS، Azure، GCP و یک on-prem cluster یکسان کار کند.
تخصصهای مختلف معمار زیرساخت هوش مصنوعی
این شغل یک عنوان واحد نیست — مسیرهای تخصصی متعددی دارد
طراحی کلاستر آموزش
Training Cluster Design
تخصص در طراحی خوشههای ۱۰۰۰+ GPU برای foundation model training — کارفرماهای اصلی: Meta، Microsoft، xAI، Anthropic.
Inference Platform
Inference Platform
تمرکز روی low-latency, high-throughput serving — کارفرماهای اصلی: OpenAI، Anthropic، Together AI، Fireworks.
GPU Cloud و Bare Metal
GPU Cloud & Bare Metal
ساخت GPU cloud (مثل CoreWeave، Lambda) یا on-prem clusters برای enterprise — رشد ۵۰٪ سالانه.
Edge AI Infrastructure
Edge AI Infrastructure
زیرساخت برای model serving در edge — automotive (Tesla)، telco (Verizon)، retail. کاربر متفاوت اما رشد بالا.
Sovereign AI و Compliance
Sovereign AI / Compliance
ساخت AI infra برای دولتها و صنایع regulated (سلامت، مالی، دفاع) — رشد در امارات، عربستان، اروپا و هند.
تفاوت با شغلهای مشابه
کجا این شغل تمام میشود و شغل دیگری شروع میشود؟
MLOps Engineer روی pipeline، CI/CD و lifecycle مدل تمرکز میکند. AI Infrastructure Architect یک سطح پایینتر میرود: hardware، networking، capacity planning. در شرکتهای کوچک یک نفر هر دو نقش را دارد؛ در شرکتهای بزرگ این دو تیم جدا هستند و با هم همکاری میکنند.
Cloud Architect generalist است و در workload های متنوع کار میکند. AI Infrastructure Architect specialized روی AI workload ها است — GPU، collective operations، RDMA، training pipeline. تخصص AI معمولاً حقوق ۲۰-۴۰٪ بالاتر میگیرد.
SRE روی reliability سرویسهای در حال اجرا تمرکز میکند. AI Infrastructure Architect روی طراحی اولیه سیستم و انتخابهای strategic. در عمل این دو نقش با هم همپوشانی زیادی دارند — یک معمار خوب باید SRE thinking هم داشته باشد.
Hardware Engineer (در NVIDIA، Google TPU team، AWS Trainium) تراشه و سختافزار را طراحی میکند. AI Infrastructure Architect مصرفکننده این سختافزار است — میداند چگونه ترکیب کند، deploy کند و بهینه کند. اما باید عمیقاً hardware را بفهمد.
تأثیر در صنایع مختلف
معمار زیرساخت هوش مصنوعی در همه صنایع مشغول به کار است — نه فقط شرکتهای فناوری
Frontier AI Labs
OpenAI، Anthropic، Google DeepMind، xAI، Meta FAIR — همه به معمارهای ارشد infra نیاز دارند. حقوق ۴۰۰هزار+ معمول است.
Hyperscaler Clouds
AWS، Azure، GCP، Oracle — همه در حال ساخت AI-specific data center هستند. تیمهای ۱۰۰+ نفری روی این بخش کار میکنند.
GPU Cloud Specialists
CoreWeave، Lambda Labs، RunPod، Crusoe — رشد ۲۰۰٪+ در ۲۰۲۴-۲۰۲۵. مدل کسبوکار: ارزانتر و سریعتر از hyperscaler.
Financial Services
JPMorgan، Goldman، Two Sigma — همه AI clusterهای داخلی برای trading و risk میسازند. compliance بسیار سختگیر.
Pharma و Healthcare
Roche، Pfizer، Genentech — drug discovery با AlphaFold و مدلهای protein. زیرساخت HIPAA-compliant.
Automotive (Self-Driving)
Tesla Dojo، Waymo، Mobileye — clusterهای exabyte-scale data و آموزش روزانه مدلهای perception.
Sovereign AI
G42 (امارات)، Saudi Aramco، Mistral (فرانسه)، LG AI (کره) — دولتها سرمایهگذاری دهمیلیارد دلاری برای استقلال AI.
Defense & Intelligence
Palantir، Anduril، Lockheed، DoD — رشد سریع contract های AI با نیاز به infrastructure highly-secure و air-gapped.
تصورات غلط رایج
قبل از تصمیمگیری، این باورهای اشتباه را بشناسید
فقط باید Kubernetes را بلد باشید
K8s ابزار است نه معماری. معمار باید درک عمیقی از GPU، شبکه، storage، compute economics و power داشته باشد. خیلی از k8s expertها وقتی به سراغ AI infra میآیند گم میشوند.
Cloud همه چیز را حل کرده
برای آموزش frontier model، cloud اغلب ۲-۳ برابر گرانتر از on-prem است. شرکتهای جدی AI ترکیبی از hyperscaler، GPU cloud و on-prem دارند. این تصمیمها میلیونها دلار اثر دارند.
حتماً باید CS از MIT داشته باشید
بسیاری از بهترین معمارهای infra از مسیرهای غیرمستقیم آمدهاند: HPC، نظامی، startup سالها قبل. مهم: تجربه عملی با scale، عمق فنی و communication خوب با stakeholders.
GPU گران است پس بهینهسازی همه چیز است
بهینهسازی مهم است اما delivery time مهمتر است. یک training job که ۲ هفته زودتر تمام شود، ممکن است ۱۰ میلیون دلار ارزش داشته باشد — حتی اگر ۲۰٪ inefficient باشد. balance حیاتی است.
Networking یک detail است
در آموزش توزیعشده، networking بزرگترین bottleneck است. ۳۰-۵۰٪ زمان GPU میتواند صرف communication شود. یک معمار خوب InfiniBand topology و collective ops را به همان عمق GPU بلد است.
یک روز کاری واقعی
در هر سطح روز کاری چه شکلی است؟
جونیور (۰–۲ سال)
بیشتر روز را روی troubleshoot، اجرای Terraform و response به alerts میگذرانید. هر هفته چیز جدیدی یاد میگیرید چون دامنه بسیار وسیع است.
- ◆صبح: بررسی dashboard های Grafana — کلاستر شب چطور کار کرد؟ کدام jobs fail شدند؟
- ◆بلاک اول: اضافه کردن node group جدید به cluster با Terraform و Helm chart
- ◆بعد از ناهار: troubleshoot یک ML engineer که میگوید training کند شده — اغلب مسئله I/O یا NCCL است
- ◆عصر: کار روی یک ticket: migrate یک سرویس از manual deployment به ArgoCD
- ◆پایان روز: on-call handoff و یادداشت برداری از incidents
Senior (۲–۵ سال)
طراحی subsystem های مهم به شما واگذار میشود. مرز بین delivery و architecture را tradeoff میکنید. شروع به نمایندگی تیم در جلسات cross-functional.
- ◆صبح: مرور design proposal خود برای migration storage از NFS به VAST
- ◆جلسه با تیم ML: ترجمه نیاز scientific (مثلاً ۵۰هزار checkpoint per day) به نیاز infra
- ◆بلاک کدنویسی: نوشتن custom controller برای auto-detection و quarantine GPU های problematic
- ◆بعد از ناهار: review کردن PR یک جونیور روی module Terraform و mentorship
- ◆عصر: مذاکره با AWS account team درباره capacity reservation برای کوارتر بعدی
Staff/Principal (۵+ سال)
تمرکز روی استراتژی، vendor relations و رهبری چند تیم. کمتر کد مینویسید اما تصمیمهایتان روی بودجههای ۱۰ میلیون دلاری+ اثر دارد.
- ◆صبح: مرور capacity plan ۳ ساله و ارائه به CTO
- ◆جلسه با NVIDIA: مذاکره درباره allocation Blackwell و timeline تحویل
- ◆تصمیم strategic: انتخاب بین ساخت data center اختصاصی یا استفاده از GPU cloud — مدل اقتصادی ۵۰ میلیون دلاری
- ◆بعد از ناهار: نوشتن RFC برای reference architecture جدید — توزیع به ۳ تیم infra
- ◆عصر: keynote prep برای GTC یا KubeCon + ۱:۱ با Director یکی از تیمهای infra
مسئولیتها و وظایف
مسئولیتهای اصلی
وظایف روزانه و مهارتهای مورد نیاز در این شغل
- ◈طراحی reference architecture برای training و inference در مقیاس صنعتی
- ◈ارزیابی و انتخاب vendor (NVIDIA، AMD، Cerebras، Groq، hyperscalers، GPU clouds)
- ◈Capacity planning چندساله شامل GPU، شبکه، storage و power
- ◈طراحی شبکههای پرسرعت با InfiniBand یا RoCE برای آموزش توزیعشده
- ◈طراحی استراتژی multi-region/multi-cloud با disaster recovery
- ◈مدیریت هزینه و FinOps — اغلب کنترل بودجههای ۱۰ تا ۵۰۰ میلیون دلاری
- ◈همکاری با تیمهای ML برای ترجمه نیاز scientific به نیاز infra
- ◈نمایندگی شرکت در مذاکره با NVIDIA، AWS، GCP و دیگر vendorها
مهارتهای مورد نیاز
مهارتهای فنی، نرم و حوزهای که یک معمار زیرساخت هوش مصنوعی موفق به آنها نیاز دارد
مهارتهای فنی زیرساخت
درک عمیق kernel، scheduling، NUMA، cgroups — پایه هر سیستم infra
CKA-level: scheduling، CNI، CSI، operator pattern، troubleshooting
نوشتن ماژولهای reusable، state management، multi-cloud abstraction
درک architecture H100/B100، CUDA basics، NCCL، profiling با NSight
InfiniBand، RoCE، RDMA، topology های Fat-Tree و Dragonfly
Data/Tensor/Pipeline parallelism، DeepSpeed، Megatron-LM، FSDP
vLLM، Triton، TensorRT-LLM، continuous batching، speculative decoding
تسلط عمیق بر حداقل یک hyperscaler + آشنایی با GPU cloud های specialized
Parallel filesystems (Lustre، GPFS، WEKA)، object storage، caching strategies
Prometheus، Grafana، DCGM، tracing distributed، SLI/SLO design
مهارتهای مالی و معماری
Forecasting چندساله، Monte Carlo simulation، buffer strategy
Showback/Chargeback، cost allocation، rightsizing، reserved instances
ارزیابی NVIDIA vs AMD vs custom silicon — TCO modeling
طراحی architecture قابل reuse برای کل سازمان
RPO/RTO، multi-region failover، backup strategy
SOC 2، ISO 27001، HIPAA، GDPR — بهخصوص در enterprise
مهارتهای نرم و رهبری
ارائه decision های ۱۰میلیون دلاری به CTO/CFO با clarity
کار با ML، product، finance، legal — هر تیم زبان خود را دارد
مذاکره با NVIDIA، AWS، GCP — اغلب درباره millions در سال
ساخت تیم infra — استخدام، آموزش، حفظ engineer های scarce
نقشه راه و مسیر آموزشی
نقشه راه تبدیل شدن به معمار زیرساخت هوش مصنوعی
این مسیر گام به گام شما را از صفر تا حرفهای هدایت میکند.
پایه سیستمهای توزیعشده و شبکه
تسلط بر اصول سیستمهای توزیعشده، شبکههای پیشرفته، Linux performance و حافظه — پایه برای هر معمار زیرساخت
Kubernetes، Cloud و IaC
تسلط بر Kubernetes، یک hyperscaler (AWS/GCP/Azure) و ابزارهای IaC مانند Terraform — زبان مشترک زیرساخت مدرن
GPU، NCCL و آموزش توزیعشده
درک عمیق GPUها (H100/H200/B100/B200)، NCCL، NVLink، InfiniBand و توپولوژیهای آموزش توزیعشده — هسته هر زیرساخت AI
Inference، Serving و بهینهسازی هزینه
طراحی inference platform مقیاسپذیر، تسلط بر vLLM، TensorRT-LLM، autoscaling و FinOps — جایی که ۸۰٪ هزینه AI در ۲۰۲۶ صرف میشود
Reference Architecture، Capacity Planning و رهبری
طراحی reference architecture برای سازمان، capacity planning چندساله، انتخاب vendor، و رهبری تیمهای infra — مهارتهای یک معمار ارشد
ابزارها و استک فنی
ابزارهایی که هر مهندس AI باید بشناسد، دستهبندیشده بر اساس اولویت
ارکستراسیون و پلتفرم
GPU، Networking و Storage
Cloud و IaC
Inference، Observability و FinOps
مسیر پیشرفت شغلی
از جونیور تا Staff Engineer — چه مهارتهایی نیاز دارید و چه درآمدی انتظار داشته باشید
Infrastructure Engineer جونیور
۰ تا ۲ سال
~$125K
میانگین سالانه (آمریکا)
نگهداری cluster های موجود، اجرای Terraform، troubleshooting روزانه، on-call rotation
Senior Infrastructure Engineer
۲ تا ۵ سال
~$195K
میانگین سالانه (آمریکا)
طراحی subsystem مهم (storage، networking)، رهبری migration ها، menormship جونیورها، on-call architectural
Staff / Principal Architect
۵ تا ۹ سال
~$320K
میانگین سالانه (آمریکا)
طراحی reference architecture برای کل شرکت، capacity planning چندساله، انتخاب vendor، رهبری ۲-۵ تیم
Distinguished Engineer / Director of Infra
۹+ سال
~$525K
میانگین سالانه (آمریکا)
تعریف استراتژی infra سازمان، مذاکره ۱۰۰ میلیون دلار+ contract با NVIDIA، نمایندگی شرکت در جامعه فنی
چالشها و جنبههای منفی
واقعیتهایی که کمتر در آگهیهای شغلی میبینید — قبل از ورود بدانید
Scale نهفته در هر تصمیم
عمومییک decision کوچک میتواند در scale میلیونها دلار اثر بگذارد. مثلاً انتخاب network topology اشتباه میتواند ۲۰٪ throughput cluster را از بین ببرد — معادل ۲۰ میلیون دلار از سرمایهگذاری ۱۰۰ میلیون دلاری.
Supply Chain GPU
شرکت بزرگاز ۲۰۲۳، GPUها بهشدت محدود هستند. lead time برای H100 میتواند ۶-۱۲ ماه باشد. معمار باید order ها را سالها از پیش planning کند و با NVIDIA رابطه قوی داشته باشد.
Heat و Power Density
تحقیقاتییک rack H100 میتواند ۴۰-۸۰ کیلووات power مصرف کند. data center های قدیمی این density را پشتیبانی نمیکنند. معمار باید بداند liquid cooling چگونه کار میکند و چه data center هایی آن را پشتیبانی میکنند.
تغییر سریع تکنولوژی
عمومیهر ۱۸ ماه یک نسل GPU جدید عرضه میشود (V100 → A100 → H100 → B100). معماری که برای H100 بهینه شده، روی B100 ممکن است suboptimal باشد. باید مدام refactor کنید.
تعادل cost vs delivery
استارتاپاغلب فشار برای deliver سریع وجود دارد، حتی به قیمت inefficiency. باید بتوانید نشان دهید کی worth-it است که زمان بیشتری روی optimization صرف شود.
Talent Scarcity
عمومیافراد با تجربه ۱۰هزار+ GPU clusters در کل دنیا شاید ۵۰۰ نفر باشند. recruiting بسیار سخت است و معمار اغلب باید خودش junior های promising را آموزش دهد.
حقوق و بازار کار جهانی
حقوق جهانی معمار زیرساخت هوش مصنوعی
میانگین حقوق سالانه بر اساس تجربه در کشورهای مختلف
| کشور | میانه | ارز |
|---|---|---|
🇯🇵ژاپن | ¥21,000,000 | JPY |
🇮🇳هند | ₹6,500,000 | INR |
🇦🇪امارات | AED 360,000 | AED |
🇺🇸آمریکا | $340,000 | USD |
🇨🇦کانادا | CA$220,000 | CAD |
🇨🇭سوئیس | CHF 210,000 | CHF |
🇸🇬سنگاپور | SGD 210,000 | SGD |
🇦🇺استرالیا | A$200,000 | AUD |
🇬🇧انگلستان | £175,000 | GBP |
🇩🇪آلمان | €140,000 | EUR |
* ارقام سالانه و تقریبی هستند و بر اساس میانگین بازار در سال ۲۰۲۵ محاسبه شدهاند.
چگونه از صفر شروع کنیم
برنامه گامبهگام برای ورود به مهندسی هوش مصنوعی
ماه ۱: Kubernetes Deep Dive
تسلط عمیق بر Kubernetes از CNI تا scheduler. حل Kubernetes the Hard Way. آمادهسازی برای CKA.
ماه ۲: GPU Fundamentals + NCCL
آموزش NVIDIA DLI، NCCL basics، اجرای multi-GPU training job ساده روی AWS p4d.
ماه ۳: AI-specific Cloud Services
تسلط بر AWS SageMaker HyperPod، GCP Vertex AI، Azure AI Foundry. مقایسه قیمت و capability.
ماه ۴: Inference Engines
Deploy کردن vLLM و Triton. benchmark در برابر HF TGI. autoscaling روی k8s.
ماه ۵: Reference Architectures
مطالعه deep معماری Meta، xAI، OpenAI از blog های engineering. نوشتن مقایسه فنی.
ماه ۶: Portfolio و Apply
یک Terraform module کامل برای GPU cluster در GitHub. شروع به apply برای AI infra positions.
پروژههای پیشنهادی برای رزومه
ساخت multi-node GPU cluster در home lab
مبتدیبا ۲-۴ کارت GPU مصرفی (RTX 4090) یک خوشه کوچک بسازید. Kubernetes، NCCL و یک training job توزیعشده روی PyTorch FSDP اجرا کنید.
Terraform module برای GPU cluster در AWS
متوسطماژول کامل Terraform برای راهاندازی EKS با node group های GPU (p4d/p5)، EFA networking، FSx for Lustre و monitoring stack.
Inference platform با vLLM و autoscaling
متوسطplatform serving برای LLMهای open-source (Llama 3.3، Qwen 3) با vLLM، KServe و autoscaling مبتنی بر queue depth. Benchmark در برابر TGI.
Reference architecture document برای startup AI
پیشرفتهیک سند ۳۰-۵۰ صفحهای reference architecture برای یک startup فرضی که میخواهد ۱۰۰ میلیون دلار سرمایهگذاری روی GPU کند. شامل diagrams، cost model و ROI.
Open-source contribution به Ray یا vLLM
پیشرفتهیک PR معنادار به Ray، vLLM یا Kubeflow بفرستید. مثلاً بهبود scheduler، اضافه کردن backend جدید یا fix یک performance bug.
مثالهای واقعی و Case Studies
داستانهای واقعی از مهندسانی که در این حوزه تأثیرگذار بودهاند
بنیانگذار و CEO NVIDIA از ۱۹۹۳. کارشناسی مهندسی برق Oregon State، ارشد Stanford. قبل از NVIDIA در LSI Logic و AMD کار میکرد.
NVIDIA را از یک تولیدکننده gaming GPU به ستون فقرات تمام صنعت AI تبدیل کرد. شخصاً تصمیم استراتژیک به سرمایهگذاری روی CUDA در ۲۰۰۶ را گرفت — تصمیمی که ۲۰ سال بعد به مزیت رقابتی بیرقیب تبدیل شد. اکنون NVIDIA با ارزش بازار بیش از ۴ تریلیون دلار، یکی از باارزشترین شرکتهای جهان است و معماری GPU و شبکههای آن، رنگ تمام زیرساخت AI را شکل میدهد.
سرمایهگذاری بلندمدت روی platform — حتی وقتی بازار آن هنوز وجود ندارد — میتواند مزیت رقابتی نسلی ایجاد کند. Huang در ۲۰۱۲ گفت 'CUDA in ten years would be everywhere' — وقتی deep learning تازه شروع شده بود. این vision بلندمدت چیزی است که هر معمار باید بیاموزد.
دکترای علوم کامپیوتر Stanford. اولین VP of Engineering گوگل (employee #8) از ۱۹۹۹. در ۲۰۱۸ بهعنوان SVP Technical Infrastructure بازنشسته شد اما همچنان مشاور فنی است.
معمار اصلی زیرساخت گوگل که از یک ساختمان کوچک به یکی از بزرگترین شبکههای data center جهان رسید. در طراحی TPU (Tensor Processing Unit) که اولین custom AI chip در مقیاس صنعتی بود نقش کلیدی داشت. کتاب 'The Datacenter as a Computer' او همچنان مرجع کلاسیک طراحی hyperscale infrastructure است.
تخصصیسازی hardware برای workload خاص (مثل TPU برای neural networks) میتواند مزیت اقتصادی بزرگی ایجاد کند. اما این نیازمند سرمایهگذاری چندساله و باور به vision است. Hölzle نشان داد که معمار infra میتواند تأثیری به اندازه scientist هایی که الگوریتم میسازند داشته باشد.
بنیانگذار و CTO CoreWeave. قبل از CoreWeave در صنعت hedge fund و سپس crypto mining فعال بود. تخصص: تبدیل تجربه crypto mining به یکی از بزرگترین specialized GPU clouds جهان.
CoreWeave را در ۲۰۱۷ بنیان گذاشت — اول برای crypto mining، اما در ۲۰۲۰ pivot کرد به GPU cloud برای AI. در ۲۰۲۴ به ارزشگذاری ۲۳ میلیارد دلار رسید و یکی از کلیدیترین تامینکنندگان GPU برای OpenAI، Microsoft و Stability AI شد. در ۲۰۲۵ IPO کرد. moat اصلی او: سرعت deployment و قیمت پایینتر در مقایسه با hyperscalerها.
Domain expertise در یک حوزه (crypto mining در این مورد) میتواند به مزیت رقابتی در حوزهای کاملاً متفاوت ترجمه شود. Venturo میدانست چگونه GPU clusters را در مقیاس و با هزینه پایین اجرا کند — همان مهارتهایی که در عصر AI به طلا تبدیل شدند.
نمونه آگهی استخدام واقعی + تحلیل
یک آگهی واقعی از شرکت فعال در حال استخدام، با تحلیل هر بخش
AI Infrastructure Engineer / Architect
تحلیل نیازمندیها
Experience designing and operating GPU clusters at scale (10,000+ GPUs preferred)
این بالاترین bar در صنعت است — فقط در Meta، xAI، Microsoft، Google، OpenAI افراد چنین تجربهای دارند. اگر چنین تجربهای ندارید، باید نشان دهید که با مفاهیم scale آشنا هستید و میتوانید سریع به آنجا برسید.
ضروریDeep knowledge of NVIDIA GPU architecture, CUDA, NCCL, and InfiniBand networking
هسته فنی این نقش. باید بتوانید درباره H100 vs B100 trade-offs، NCCL collective algorithms (ring vs tree)، InfiniBand routing مفصل صحبت کنید. در مصاحبه روی این تمرکز میشود.
ضروریHands-on experience with Kubernetes, Slurm, or similar orchestration systems
xAI ترکیبی از Kubernetes و Slurm استفاده میکند. اگر فقط k8s را میشناسید، حداقل با Slurm آشنا شوید. مفاهیم scheduling، gang scheduling، fair-share scheduling مهم هستند.
ضروریProficiency with Linux internals, networking (RDMA), and storage systems
system-level skills حیاتی هستند. باید بتوانید perf و sar را برای troubleshoot استفاده کنید، RDMA verbs را بفهمید و parallel filesystem tuning کنید.
ضروریStrong programming skills in Python, Go, or C++
خیلی از کارها automation و tooling است. Python برای IaC و monitoring، Go برای k8s controllers، C++ برای performance-critical code. حداقل یکی باید عمیق باشد.
ضروریAbility to work in a fast-paced, hands-on environment with willingness to be on-site
xAI بهخصوص cluster ممفیس (Colossus) یک عملیات بسیار physical است. توقع on-call، travel به data center و کار roll-up-your-sleeves وجود دارد. این برای همه مناسب نیست.
مهمتحلیل مسئولیتها
Design, build, and operate next-generation AI training clusters
این یعنی شما در طراحی Colossus نسل بعد (شاید ۲۰۰هزار یا ۵۰۰هزار GPU) نقش دارید. این فرصت تاریخی است اما فشار بسیار بالا هم دارد.
Optimize cluster utilization and training efficiency
هر ۱٪ بهبود utilization میتواند دهها میلیون دلار صرفهجویی کند. تخصص در profiling (NSight)، scheduling و bottleneck analysis حیاتی است.
Develop tooling and automation for cluster management
xAI کوچکتر از Meta است اما scale مشابهی دارد. این یعنی automation حیاتی است — کارهایی که در Meta توسط ۵۰ نفر انجام میشود، شاید توسط ۵ نفر انجام شود.
Collaborate with ML researchers on hardware/software co-design
ارتباط مستقیم با researcher ها مزیت است. شما میتوانید feedback مستقیم به طراحی الگوریتم بدهید (مثلاً 'این loss landscape برای ما expensive است').
نتیجهگیری کلی
xAI یکی از بالاترین bars را در صنعت دارد اما همچنین یکی از intense ترین environments. حقوق کل برای engineer ارشد میتواند به ۵۰۰-۸۰۰ هزار دلار برسد + equity قابل توجه. مهم: تجربه عملی با scale، توانایی hands-on و آمادگی برای on-site در Memphis یا Bay Area. اگر میخواهید در lifetime خود روی بزرگترین AI clusters جهان کار کنید، اینجا یکی از معدود مکانهاست.
آینده و روندها
پیشبینی ۵–۱۰ ساله و مهارتهایی که باید یاد بگیرید
رشد ۴۱.۵٪ سالانه (CAGR) تا ۲۰۳۰ — تقاضا برای AI Infrastructure Architects از ۱۲ هزار به ۹۰ هزار شغل در جهان میرسد
منبع: WEF Future of Jobs Report 2025 / Dell'Oro AI Networking Forecast 2025
مهارتهای نوظهور که باید یاد بگیرید
پیشبینیهای آینده
اولین cluster ۱ میلیون GPU عرضه میشود (احتمالاً xAI، Meta یا Microsoft) — نیاز به معمارهای متخصص hyperscale
Ultra Ethernet Consortium جایگزین جدی برای InfiniBand در AI clusters میشود — مهارتها reset میشوند
Sovereign AI به یک trillion-dollar industry تبدیل میشود — هر کشور G20 cluster خودش را میسازد
حقوق Distinguished AI Infrastructure Architect در frontier labs به ۱-۲ میلیون دلار کل compensation میرسد — کمیابترین تخصص فنی دنیا
ریسک اصلی این نیست که AI خود معمار را جایگزین کند — بلکه این است که حوزه بهسرعت تغییر میکند و دانش هر ۲-۳ سال نیاز به refresh بزرگ دارد. کسانی که فقط روی نسل کنونی hardware متمرکز میمانند آسیبپذیر هستند. ریسک دیگر: تمرکز شدید بازار — اگر فقط ۱۰ شرکت در دنیا frontier training cluster بسازند، نقشهای top-tier محدود میشوند. حل: تخصصیسازی در یک niche (inference، edge، sovereign AI) که فضای رشد بزرگتری دارد.
ویدیوهای آموزشی
یک روز در زندگی یک AI Infrastructure Architect
ویدیوهای واقعی از متخصصان این حوزه که روزانه چه کارهایی انجام میدهند

The Infrastructure Behind AI Explained | AI Factory Insider Ep. 1
NVIDIA

How Data Centers Actually Work
MEP Academy

Inside the Modern Data Center! SuperClusters at Applied Digital
Level1Techs

Dwarkesh Goes Inside Jane Street's Latest AI Data Center
Jane Street

Spine and Leaf network architecture explained | ccna 200-301
NETWORKING WITH H

What’s Inside a Data Center? Key Components Explained!
DES Technologies
