🛡️
رتبه ۴۱ از ۱۰رشد ۳۲.۵% سالانه

مهندس قابلیت اطمینان هوش مصنوعی

AI SRE

AI SRE (مهندس قابلیت اطمینان هوش مصنوعی) متخصصی است در تقاطع SRE کلاسیک، MLOps و observability که مسئولیت uptime، latency و reliability سرویس‌های AI در production را بر عهده دارد. تفاوت کلیدی این نقش با SRE معمولی این است که AI workload ها رفتار غیر deterministic دارند — یک مدل می‌تواند کند شود، hallucinate کند، یا cost را بی‌دلیل ۱۰ برابر کند بدون اینکه infrastructure قدیمی از آن خبر داشته باشد. در ۲۰۲۶ با گسترش serving LLM در scale (OpenAI ۲۰۰ میلیون weekly user، Anthropic رشد ۳x سالانه)، AI SRE یکی از پرتقاضاترین نقش‌های infra شده — Senior position در Anthropic، OpenAI، Google DeepMind، Meta و Databricks با total comp ۴۰۰هزار+ دلار، و talent shortage جدی در tier-2 firms.

KubernetesObservability (Prometheus/Grafana)GPU OpsIncident ResponseSLO/SLI Design

مقدمه و تعریف شغل

AI SRE (مهندس قابلیت اطمینان هوش مصنوعی) متخصصی است که اصول Site Reliability Engineering که Google در دهه ۲۰۰۰ بنا کرد را با challenge های منحصر به فرد production AI ترکیب می‌کند. SRE کلاسیک روی سرویس‌های deterministic (DB، web server، API) کار می‌کرد. اما در AI، latency، cost و quality همگی stochastic هستند — یک prompt می‌تواند ۱۰ تا ۱۰۰ برابر token تولید کند، GPU memory می‌تواند ناگهان OOM شود، و quality response می‌تواند بدون تغییر در code regression بدهد. AI SRE با ابزارهای جدید (vLLM، Triton، KServe)، metric های جدید (token/sec، KV-cache hit rate، GPU utilization) و mindset جدید (نه فقط uptime، بلکه quality و cost) این چالش را حل می‌کند.

ریشه‌های SRE به Ben Treynor در Google در ۲۰۰۳ برمی‌گردد. کتاب SRE Book (۲۰۱۶) و SRE Workbook (۲۰۱۸) discipline را به جهان معرفی کردند. مفاهیمی مثل SLI/SLO/SLA، error budget و postmortem culture استاندارد شدند. در ۲۰۱۵-۲۰۲۰ با ظهور Kubernetes و observability stack مدرن (Prometheus، Grafana، OpenTelemetry)، SRE به یک حرفه mainstream تبدیل شد. در ۲۰۲۲ با launch ChatGPT و خطای GPU shortage، صنعت متوجه شد که AI workload challenge های منحصر به فرد دارند. OpenAI و Anthropic اولین کسانی بودند که تیم‌های 'AI SRE' یا 'Production Reliability' اختصاصی ساختند. در ۲۰۲۴، Anthropic، OpenAI و Meta هر کدام بیش از ۵۰ AI SRE استخدام کردند. در ۲۰۲۶، تقاضا از عرضه بسیار بیشتر است — تخصص ترکیبی Kubernetes + LLM serving + observability کمیاب و گران است. صنعت GPU shortage و cost optimization fight هم به اهمیت AI SRE افزوده‌اند.

چه چیزی می‌سازید؟

مثال‌های واقعی از خروجی کار یک مهندس قابلیت اطمینان هوش مصنوعی

🎯

SLO Framework برای LLM API

Anthropic SLO تعریف می‌کند: p99 latency < 5s برای Claude، availability 99.95٪، tail latency < 30s. برای هر SLO error budget tracking و alert بر اساس burn rate (Google method).

🌍

Multi-Region LLM Serving Architecture

OpenAI ChatGPT را در ۵+ region (us-east، us-west، eu، asia) deploy می‌کند. AI SRE traffic routing با Anycast، failover automatic، و capacity balancing بین region را طراحی می‌کند.

🎛️

GPU Cluster Operations Stack

Cohere یک cluster ۲۰۰۰ GPU H100 دارد. AI SRE با Run:ai و Kueue scheduling طراحی می‌کند، DCGM-Exporter برای GPU health، و failure detection automatic برای node های بد.

🔍

Observability Pipeline برای LLM

Mistral یک OpenTelemetry pipeline می‌سازد که trace هر request از API gateway → router → model → response را با metadata کامل (model، latency، tokens، quality score) ذخیره می‌کند.

🤖

Auto-Remediation Runbook

Databricks یک سیستم می‌سازد که وقتی یک GPU node failure dot می‌کند، automatically drain می‌کند، replacement را schedule می‌کند، و alert فقط در صورت failure secondary می‌فرستد — کاهش ۷۰٪ pager fatigue.

💰

FinOps Dashboard برای AI

Hugging Face dashboard می‌سازد که cost per million tokens، cost per customer، و GPU utilization waste را track می‌کند. discovery می‌کند که ۳۰٪ GPU idle است و save می‌کند $2M/سال.

تخصص‌های مختلف مهندس قابلیت اطمینان هوش مصنوعی

این شغل یک عنوان واحد نیست — مسیرهای تخصصی متعددی دارد

🤖

LLM Serving Reliability

LLM Serving Reliability

تخصص در reliability سرویس‌های LLM — vLLM، Triton، streaming، token quotas. کارفرماهای اصلی: OpenAI، Anthropic، Cohere، Mistral.

🎛️

GPU Cluster Operations

GPU Cluster Operations

تخصص در مدیریت large GPU cluster — scheduling، health، failure detection. کارفرماهای اصلی: Meta، Google، Microsoft Azure AI، CoreWeave.

🔍

AI Observability

AI Observability

تخصص در ساخت observability stack برای AI — model performance، quality drift، cost tracking. کارفرماهای اصلی: Datadog AI، New Relic، Arize، WhyLabs.

🏋️

Training Infrastructure

Training Infrastructure

تخصص در reliability training runs — checkpoint، failure recovery، multi-node coordination. کارفرماهای اصلی: OpenAI، Anthropic، DeepMind، NVIDIA.

💰

AI FinOps

AI FinOps

تخصص در cost optimization GPU و inference — quantization، routing، caching، autoscaling. کارفرماهای اصلی: Hugging Face، Together AI، Anyscale، Modal.

تفاوت با شغل‌های مشابه

کجا این شغل تمام می‌شود و شغل دیگری شروع می‌شود؟

مهندس DevOpsDevOps Engineer

DevOps Engineer focus روی CI/CD، deployment automation و dev productivity دارد. AI SRE focus روی reliability production. در شرکت‌های کوچک یک نفر هر دو نقش را دارد؛ در شرکت‌های بزرگ تخصص جدا شده — SRE on-call دارد و owner production است، DevOps owner CI/CD pipeline.

مهندس MLOpsMLOps Engineer

MLOps Engineer focus روی training pipeline، model registry، experiment tracking و reproducibility. AI SRE focus روی serving production، uptime و incident response. overlap وجود دارد در deployment، اما mindset متفاوت — MLOps روی data scientist productivity، AI SRE روی end-user experience.

SRE کلاسیکClassical SRE

SRE کلاسیک روی stateless web service، database، caching layer کار می‌کند. AI SRE علاوه بر آن، باید GPU، CUDA، vLLM، quantization و stochastic behavior مدل را بفهمد. حدود ۶۰٪ مهارت‌ها مشترک است؛ ۴۰٪ تخصصی AI.

Platform EngineerPlatform Engineer

Platform Engineer روی ساخت ابزار داخلی برای dev productivity (internal developer platform، Backstage، self-service infrastructure) تمرکز می‌کند. AI SRE روی operations production. مرز این دو در شرکت‌های مدرن fuzzy است.

تأثیر در صنایع مختلف

مهندس قابلیت اطمینان هوش مصنوعی در همه صنایع مشغول به کار است — نه فقط شرکت‌های فناوری

🧠

Foundation Model Labs

OpenAI، Anthropic، Google DeepMind، Meta AI، Mistral — بزرگ‌ترین استخدام‌کنندگان AI SRE. حقوق top of market، چالش‌های unique.

☁️

Cloud AI Platforms

AWS Bedrock، Azure AI، GCP Vertex، Oracle OCI AI — managing AI workload در hyperscale برای میلیون‌ها customer.

🏗️

AI Infrastructure Companies

CoreWeave، Lambda Labs، Together AI، Anyscale، Modal — provider GPU و AI serving، AI SRE هسته business آن‌ها است.

🏢

Enterprise AI Adoption

JPMorgan، Walmart، Pfizer، Boeing — همه در حال ساخت internal AI platform هستند با تیم‌های AI SRE اختصاصی.

🚀

AI-First SaaS

Notion AI، Glean، Perplexity، Harvey — startup هایی که محصول‌شان روی AI دور می‌زند و reliability حیاتی است.

🏥

Healthcare AI

Tempus، Komodo Health، PathAI — workload AI با HIPAA و compliance حساس، نیاز به AI SRE با تخصص regulatory.

🚗

Autonomous Systems

Tesla AI، Waymo، Cruise، Aurora — inference روی edge با latency constraint سخت، نیاز به AI SRE با تخصص embedded.

💳

Fintech AI

Stripe Radar، Plaid، PayPal — model serving با high transaction volume و low-latency requirement، نیاز به AI SRE.

تصورات غلط رایج

قبل از تصمیم‌گیری، این باورهای اشتباه را بشناسید

AI SRE فقط SRE معمولی است که با ML کار می‌کند

اشتباه. AI workload رفتار stochastic و non-deterministic دارد که SRE کلاسیک با آن مواجه نشده. مثلاً یک LLM request می‌تواند ۱۰x latency بدون تغییر در input بدهد. مهارت‌های GPU، CUDA، quantization، KV-cache و LLM serving تخصصی هستند که SRE معمولی ندارد.

AI SRE فقط شغل کسانی است که PhD AI دارند

برعکس — اکثر AI SRE های موفق از background SRE/DevOps می‌آیند، نه ML researcher. مهم‌تر این است که Linux، Kubernetes و observability قوی داشته باشید و سپس LLM serving بیاموزید. background ML research کمک می‌کند اما ضروری نیست.

ابزار AI همه چیز را خودکار می‌کند

ابزار به سرعت در حال تکامل است (KServe، Run:ai، DCGM)، اما در ۲۰۲۶ AI workload هنوز نیاز به human judgment زیادی دارد. incident response، capacity planning، و architecture decisions همگی human expertise نیاز دارند. ابزار ۸۰٪ کار را خودکار می‌کند اما ۲۰٪ critical است.

GPU شبیه CPU است، فقط سریع‌تر

اشتباه عمیق. GPU memory architecture کاملاً متفاوت است (HBM vs DDR)، interconnect (NVLink) ضروری است، و failure mode ها متفاوت (driver crash، XID errors، NVLink degradation). AI SRE باید nvidia-smi، DCGM، و NVIDIA driver stack را خوب بفهمد.

cost optimization فقط کار FinOps team است

در AI workload، cost و reliability به شدت همبسته‌اند. یک GPU underutilized هم expensive است و هم نشانه bottleneck جای دیگر. AI SRE باید FinOps mindset داشته باشد — هر incident postmortem باید cost impact هم بررسی کند.

یک روز کاری واقعی

در هر سطح روز کاری چه شکلی است؟

جونیور (۰–۲ سال)

بیشتر روز را روی triage alerts، یادگیری stack، نوشتن runbook ساده، و shadowing senior on-call ها می‌گذرانید. شروع به فهمیدن AI workload و GPU stack.

  • صبح: مرور alerts شب قبل و triage هر کدام
  • بلاک اول: نوشتن یک runbook برای incident تکراری که هفته قبل اتفاق افتاد
  • بعد از ناهار: pairing با senior SRE روی debug کردن یک memory leak در serving stack
  • عصر: یادگیری vLLM PagedAttention با مطالعه code و official docs
  • پایان روز: شرکت در weekly postmortem review

Mid-Level AI SRE (۲–۵ سال)

ownership یک stack کامل (serving، monitoring، یا training infrastructure). نوشتن RFC کوچک، on-call primary، و mentor کردن junior ها.

  • صبح: مرور SLO dashboard های هفته — هر violation را diagnose کنید
  • بلاک کدنویسی: implement یک Terraform module برای GPU node provisioning
  • جلسه: review RFC یک ML engineer برای deployment مدل جدید
  • بعد از ناهار: incident response یک latency spike — root cause یک memory fragmentation در vLLM
  • عصر: نوشتن postmortem و follow-up action item های آن

Senior / Staff AI SRE (۵+ سال)

owner reliability یک domain (e.g. inference، training، platform). نوشتن RFC های org-wide، نمایندگی technical نزد مدیریت، و influence cross-team.

  • صبح: مرور reliability metrics weekly و حضور در leadership sync
  • جلسه با CTO: ارائه proposal برای multi-region failover architecture
  • تصمیم: prioritize کردن سه initiative reliability برای quarter آینده
  • بعد از ناهار: interview یک staff candidate برای reliability team
  • عصر: review code/RFC از senior های دیگر team و mentor کردن tech lead جدید

مسئولیت‌ها و وظایف

مسئولیت‌های اصلی

وظایف روزانه و مهارت‌های مورد نیاز در این شغل

فنی
  • طراحی و تعریف SLI، SLO و error budget برای سرویس‌های AI
  • monitoring مداوم latency، throughput، GPU utilization و cost per request
  • on-call rotation و incident response برای production AI workload
  • capacity planning برای GPU cluster — پیش‌بینی نیاز، negotiate با cloud provider
  • automation کارهای تکراری ops با Python، Bash و Terraform
  • اجرای chaos engineering منظم برای validation سیستم در برابر failure
مهارت نرم
  • نوشتن postmortem دقیق و follow-up action item ها بعد از هر incident
  • همکاری با ML engineer برای مرور deployment plan و reliability review

مهارت‌های مورد نیاز

مهارت‌های فنی، نرم و حوزه‌ای که یک مهندس قابلیت اطمینان هوش مصنوعی موفق به آن‌ها نیاز دارد

زیرساخت و Kubernetes

Linux Systemsضروری

kernel، cgroup، namespace، systemd — foundation هر SRE

Kubernetes Productionضروری

Pod، Deployment، StatefulSet، Service، Ingress، NetworkPolicy

Terraform / IaCضروری

declarative provisioning، state management، module design

Networkingضروری

TCP/IP، DNS، load balancer، service mesh، CNI

Cloud Provider (AWS/GCP/Azure)ضروری

IAM، networking، storage، compute در حداقل یک cloud

GitOps (ArgoCD/Flux)مهم

sync state Kubernetes با Git repository

Service Meshمفید

Istio، Linkerd — traffic management، observability، security

Observability و Reliability

Prometheus & PromQLضروری

metrics database و query language

Grafana Dashboardingضروری

ساخت dashboard های actionable برای تیم

OpenTelemetryضروری

استاندارد cross-vendor instrumentation

Distributed Tracingضروری

Jaeger، Tempo، trace کردن request در multi-service

SLO/SLI Designضروری

تعریف معیار درست reliability و error budget

Incident Responseضروری

ICS، command structure، postmortem culture

Chaos Engineeringمهم

Chaos Mesh، Gremlin، fault injection

AI/ML Specific و Soft Skills

GPU Operationsضروری

CUDA، nvidia-smi، DCGM، NVLink، driver troubleshooting

LLM Serving Frameworksضروری

vLLM، Triton، TGI، TensorRT-LLM، KServe

Model Versioning & A/Bضروری

blue/green deployment، canary، traffic splitting

Python / Bash Automationضروری

نوشتن tooling و runbook automation

FinOps / Cost Awarenessمهم

GPU pricing، utilization tracking، optimization

RFC Writingمهم

نوشتن proposal فنی واضح برای cross-team alignment

ضروری — بدون آن نمی‌توان وارد بازار کار شدمهم — تفاوت بین جونیور و میانیمفید — مزیت رقابتی

نقشه راه و مسیر آموزشی

نقشه راه تبدیل شدن به مهندس قابلیت اطمینان هوش مصنوعی

این مسیر گام به گام شما را از صفر تا حرفه‌ای هدایت می‌کند.

1

پایه SRE و سیستم‌های توزیع‌شده

⏱️ ۴ تا ۶ ماه

ساخت پایه SRE — Linux، networking، distributed systems، و کتاب SRE Google

Linux Systems AdministrationTCP/IP & DNSDistributed Systems TheorySLI/SLO/SLA DesignError BudgetsPostmortem Culture
2

Containerization، Kubernetes و Cloud

⏱️ ۳ تا ۴ ماه

تسلط بر Docker، Kubernetes و یک cloud provider — اکثر AI workload روی K8s اجرا می‌شود

Docker & ContainersKubernetes (Pods, Deployments, Services)Helm ChartsAWS/GCP/AzureTerraform / IaCService Mesh (Istio/Linkerd)
3

Observability و Monitoring

⏱️ ۲ تا ۳ ماه

مهارت‌های observability — metrics، logs، traces — برای دیدن آنچه در production می‌گذرد

Prometheus & PromQLGrafana DashboardsOpenTelemetryLoki / Elasticsearch LogsDistributed Tracing (Jaeger, Tempo)Alerting (Alertmanager, PagerDuty)
4

ML Serving، GPU Ops و LLM Infrastructure

⏱️ ۴ تا ۶ ماه

تخصص در سرو کردن مدل — vLLM، TGI، Triton، KServe — و GPU ops که تفاوت اصلی AI SRE از SRE است

NVIDIA GPU Drivers & CUDAvLLM / TGI / TensorRT-LLMTriton Inference ServerKServe / SeldonModel Versioning & A/BGPU Scheduling (Run:ai, Volcano)
5

Incident Response، Chaos و Production Excellence

⏱️ مداوم

هنر واقعی SRE — incident response، chaos engineering، postmortem، و evolution سیستم در طول زمان

Incident Command (ICS)Chaos Engineering (Chaos Mesh, Gremlin)Postmortem WritingRunbook AutomationCapacity PlanningCost Optimization (FinOps)

ابزارها و استک فنی

ابزارهایی که هر مهندس AI باید بشناسد، دسته‌بندی‌شده بر اساس اولویت

Container Orchestration و IaC

Kubernetes

استاندارد industry برای orchestration — هر AI workload modern روی K8s است

ضروری
Terraform

IaC غالب — provisioning cloud resources به صورت declarative

ضروری
Helm

package manager Kubernetes — برای deploy کردن charts complex

ضروری
ArgoCD / Flux

GitOps tooling — sync کردن state Kubernetes با Git

مفید

Observability

Prometheus

metrics database غالب — pull-based، با PromQL قدرتمند

ضروری
Grafana

dashboard tool غالب — متصل به اکثر sources و alerting

ضروری
OpenTelemetry

استاندارد cross-vendor برای instrumentation — metrics، logs، traces

ضروری
Datadog

SaaS کامل observability — popular در شرکت‌های بزرگ که خود نخواهند چیزی build کنند

مفید

ML Serving و GPU

vLLM

framework inference غالب برای LLM — PagedAttention، high throughput

ضروری
Triton Inference Server

NVIDIA's standard برای سرو model در scale — multi-framework

ضروری
KServe

Kubernetes-native model serving — built on top of K8s و Knative

مفید
Run:ai

GPU orchestration و scheduling — popular در enterprise (acquired by NVIDIA 2024)

مفید

Incident Management و Chaos

PagerDuty

incident response platform غالب — on-call، escalation، runbook

ضروری
Chaos Mesh

chaos engineering platform open-source برای Kubernetes — failure injection

مفید
Sentry

error tracking — popular در application-layer monitoring

مفید
Incident.io

modern incident management — Slack-native، popular در startup ها

مفید
ضروری — باید یاد بگیریدمفید — ارزش یادگیری داردپیشرفته — برای سطوح ارشد

مسیر پیشرفت شغلی

از جونیور تا Staff Engineer — چه مهارت‌هایی نیاز دارید و چه درآمدی انتظار داشته باشید

Junior SRE / AI Platform Engineer

۰ تا ۲ سال

~$145K

میانگین سالانه (آمریکا)

on-call rotation، triage alerts، اولین runbook ها، یادگیری GPU stack

LinuxKubernetes BasicsPrometheusPython ScriptingBash

AI SRE / Mid-Level

۲ تا ۵ سال

~$230K

میانگین سالانه (آمریکا)

ownership از یک stack (serving، training، یا monitoring)، طراحی SLO، نوشتن postmortem

Kubernetes ProductionvLLM/TritonTerraformOpenTelemetryCapacity Planning

Senior AI SRE / Tech Lead

۵ تا ۹ سال

~$380K

میانگین سالانه (آمریکا)

رهبری incident response، طراحی reliability architecture، mentor کردن junior ها، تصمیم‌گیری cross-team

System DesignChaos EngineeringFinOpsCross-Team LeadershipGPU Cluster Ops

Principal SRE / Staff Engineer

۹+ سال

~$650K

میانگین سالانه (آمریکا)

تعیین استراتژی reliability برای کل سازمان، نوشتن RFC های زیرساختی، نمایندگی فنی نزد مدیریت ارشد

Reliability StrategyOrg-Wide ArchitectureExecutive CommunicationHiring & MentorshipIndustry Influence

چالش‌ها و جنبه‌های منفی

واقعیت‌هایی که کمتر در آگهی‌های شغلی می‌بینید — قبل از ورود بدانید

Non-Deterministic Behavior LLM

تحقیقاتی

بزرگ‌ترین تفاوت AI SRE از SRE کلاسیک. یک LLM می‌تواند بر اساس prompt یا temperature بسیار متفاوت رفتار کند — latency 10x، token 100x، quality drift. نیاز به metric های جدید (perplexity، quality score) دارید که در SRE کلاسیک وجود نداشت.

GPU Failure Mode های منحصر به فرد

شرکت بزرگ

GPU failure رفتار متفاوتی از CPU دارد — XID error، NVLink degradation، silent memory corruption. اکثر این failure ها automatic detect نمی‌شوند و نیاز به DCGM-Exporter و monitoring custom دارند.

Cost Optimization در مقیاس

عمومی

GPU گران است — یک H100 ساعتی $3-4. کاهش ۱۰٪ utilization می‌تواند میلیون‌ها دلار صرفه‌جویی کند. اما optimization می‌تواند به cost reliability ضربه بزند. balance این trade-off یکی از سخت‌ترین کارهای AI SRE است.

Multi-Tenant Isolation

شرکت بزرگ

اگر یک GPU بین چند customer share می‌شود (MIG، MPS)، یک customer می‌تواند روی experience customer دیگر اثر بگذارد (noisy neighbor). طراحی proper isolation، quota و SLO per-tenant یک challenge مداوم است.

Talent Shortage در GPU Stack

عمومی

تقاضا برای AI SRE با تخصص واقعی GPU بسیار بیشتر از عرضه است. شما باید team بسازید با ترکیبی از SRE های classic که می‌خواهند GPU بیاموزند و ML engineer هایی که می‌خواهند ops بفهمند. این hybrid team management خودش challenge است.

Rapid Pace of Framework Evolution

تحقیقاتی

vLLM، TGI، TensorRT-LLM همگی در ۲ سال اخیر متولد شدند و در حال تکامل سریع هستند. هر ۳ ماه version جدید با breaking change. AI SRE باید روی این evolution سوار بماند و یاد بگیرد چه زمان migrate کند.

حقوق و بازار کار جهانی

حقوق جهانی مهندس قابلیت اطمینان هوش مصنوعی

میانگین حقوق سالانه بر اساس تجربه در کشورهای مختلف

کشورمیانهارز
🇮🇳هند
₹6,800,000INR
🇦🇪امارات
AED 600,000AED
🇺🇸آمریکا
$380,000USD
🇨🇦کانادا
CA$250,000CAD
🇸🇬سنگاپور
SGD 250,000SGD
🇦🇺استرالیا
A$230,000AUD
🇬🇧انگلستان
£175,000GBP
🇩🇪آلمان
€145,000EUR

* ارقام سالانه و تقریبی هستند و بر اساس میانگین بازار در سال ۲۰۲۵ محاسبه شده‌اند.

چگونه از صفر شروع کنیم

برنامه گام‌به‌گام برای ورود به مهندسی هوش مصنوعی

ماه ۱: AI Infrastructure 101

خواندن SRE Book بخش‌های reliability، مرور Designing ML Systems Chip Huyen. یادگیری اصول vLLM و Triton.

ماه ۲: GPU & CUDA Basics

یادگیری nvidia-smi، DCGM، CUDA driver model. setup یک GPU local یا cloud (Lambda Labs).

ماه ۳: vLLM Deployment Project

deploy vLLM با Mistral-7B روی K8s، observability با Prometheus، dashboard Grafana.

ماه ۴: SLO و Incident Response

طراحی SLO برای پروژه vLLM، Alertmanager rules، simulate incident و نوشتن postmortem.

ماه ۵: Chaos و FinOps

اضافه کردن Chaos Mesh، اجرای failure injection، dashboard FinOps با GPU cost.

ماه ۶: Apply و Portfolio

GitHub portfolio با ۳ پروژه strong، apply به AI SRE positions، آماده‌سازی system design interview.

پروژه‌های پیشنهادی برای رزومه

vLLM Inference Stack روی Kubernetes

متوسط

یک cluster K8s محلی (kind یا minikube) راه‌اندازی کنید، vLLM با یک مدل کوچک (Mistral-7B) deploy کنید با autoscaling و Prometheus metrics. dashboard Grafana با latency، throughput و token/sec بسازید.

KubernetesvLLMPrometheusGrafanaHelm
زمان تخمینی: ۴ هفته

SLO Dashboard برای LLM API

متوسط

یک LLM API شبیه‌سازی کنید (FastAPI + vLLM)، SLO های latency p50/p95/p99 و availability تعریف کنید. Error budget و burn rate alerting در Grafana پیاده کنید بر اساس روش Google SRE.

FastAPIPrometheusGrafanaAlertmanager
زمان تخمینی: ۳ هفته

Chaos Engineering Suite برای ML Serving

پیشرفته

روی stack inference قبلی، با Chaos Mesh failure inject کنید — pod kill، network latency، GPU OOM. نشان دهید graceful degradation با circuit breaker و retry pattern چگونه کار می‌کند.

Chaos MeshKubernetesIstiovLLM
زمان تخمینی: ۶ هفته

GPU Utilization & FinOps Dashboard

پیشرفته

GPU metrics با DCGM-Exporter و nvidia-smi جمع‌آوری کنید، هزینه per token محاسبه کنید (بر اساس GPU hour rate)، و یک dashboard FinOps بسازید که cost per request را در طول زمان track کند.

DCGM-ExporterPrometheusGrafanaPythonAWS/GCP Pricing
زمان تخمینی: ۵ هفته

Production Incident Runbook Repository

متوسط

یک Git repository از runbook های Markdown بسازید برای incident های رایج LLM serving — OOM، token quota exhaustion، model corruption، latency spike. هر runbook با diagram، command های exact و escalation path.

MarkdownGitMermaid DiagramsPagerDuty
زمان تخمینی: ۴ هفته

مثال‌های واقعی و Case Studies

داستان‌های واقعی از مهندسانی که در این حوزه تأثیرگذار بوده‌اند

B

Ben Treynor Sloss

پیشینه

VP Engineering و co-founder Site Reliability Engineering در Google. کسی که SRE discipline را در ۲۰۰۳ اختراع کرد و ۲۰ سال SRE Google را رهبری کرد.

دستاورد

Treynor در ۲۰۰۳ به Google پیوست و دید team های operations سنتی scalability ندارند. ایده SRE را معرفی کرد: استخدام software engineer برای کار operations، با ۵۰٪ زمان development و ۵۰٪ ops. مفاهیمی مثل error budget، SLO، blameless postmortem و toil reduction از او شناخته شدند. کتاب SRE (۲۰۱۶) که Treynor preface آن را نوشت به‌سرعت به استاندارد industry تبدیل شد. در ۲۰۲۳ از Google بازنشسته شد. در ۲۰۲۴، Google SRE Conference گذاشت که ۵۰۰۰+ نفر شرکت کردند.

درس کلیدی

SRE یک shift فرهنگی است، نه فقط ابزار. Treynor با معرفی error budget، ابزاری مالی برای trade-off بین reliability و velocity فراهم کرد که فلسفه dev-vs-ops را تغییر داد. درس برای AI SRE: ابزار جدید مهم است اما mindset و culture مهم‌تر — هر AI SRE موفقی باید SRE Book را قبل از یادگیری vLLM بخواند.

C

Charity Majors

پیشینه

CTO و co-founder Honeycomb.io، یکی از پایه‌گذاران observability modern. سابقه staff engineer در Facebook (Parse acquisition) و sales engineer در Linden Lab.

دستاورد

Majors یکی از مهم‌ترین صداهای observability در صنعت است. در ۲۰۱۶ Honeycomb را با Christine Yen تأسیس کرد — اولین platform که 'observability' را به جای 'monitoring' محور کرد. کتاب Observability Engineering (۲۰۲۲) با Liz Fong-Jones و George Miranda به سرعت standard شد. مفاهیمی مثل high-cardinality observability، unknown unknowns و event-based debugging از او محبوب شدند. در Twitter/Mastodon با ۱۰۰هزار+ follower یکی از صداهای influential در SRE است. در ۲۰۲۳ keynote SREcon و KubeCon داده.

درس کلیدی

observability یک skill حیاتی AI SRE است. AI workload به دلیل non-determinism نیاز به high-cardinality observability دارد — نه فقط metric های aggregate، بلکه per-request tracing با full context. Majors و Honeycomb این فلسفه را popularize کردند. AI SRE های جوان باید Observability Engineering را بخوانند و OpenTelemetry را بفهمند.

T

Tammy Bryant Butow

پیشینه

Principal SRE Manager سابق Dropbox و Gremlin، Chaos Engineer شناخته شده در صنعت. در حال حاضر در حال ساخت یک startup chaos engineering جدید است.

دستاورد

Butow یکی از مهم‌ترین صداهای chaos engineering است. در Dropbox، یک Chaos Engineering practice ساخت که ۱۰۰+ engineer در آن participate کردند. در Gremlin، product chaos را به enterprise scale برد. سخنرانی‌های او در SREcon، KubeCon و Chaos Conf میلیون‌ها بار دیده شده. در ۲۰۲۲، یک program mentorship رایگان برای زنان SRE راه انداخت که صدها زن را به این حرفه آورد. در ۲۰۲۵ یک startup جدید با focus روی chaos engineering برای AI workload راه‌اندازی کرد.

درس کلیدی

chaos engineering در AI critical است. AI workload با rare failure mode هایی روبروست (GPU failure، NVLink degradation، silent corruption) که فقط با fault injection systematic discover می‌شوند. Butow نشان می‌دهد که با discipline و tooling مناسب، chaos را می‌توان bottom-up در یک organization scale کرد. برای AI SRE: یاد گرفتن Chaos Mesh و یک practice systematic chaos engineering یک differentiator حرفه‌ای است.

نمونه آگهی استخدام واقعی + تحلیل

یک آگهی واقعی از شرکت فعال در حال استخدام، با تحلیل هر بخش

Site Reliability Engineer (Production)

Anthropicسان فرانسیسکو / لندن / هیبرید2026-01
مشاهده آگهی اصلی

تحلیل نیازمندی‌ها

EN

5+ years experience operating production services at scale

Anthropic از Senior SRE با تجربه واقعی production انتظار دارد. ۵+ سال یعنی شما incident های واقعی، on-call rotation و postmortem culture را زندگی کرده‌اید. junior position های دیگری هم هست اما این posting برای senior است.

ضروری
EN

Strong experience with Kubernetes, Linux, and cloud platforms (AWS/GCP)

Anthropic روی AWS و GCP اجرا می‌شود. Kubernetes ستون فقرات stack است. عمق در K8s (نه فقط kubectl، بلکه CRD، operator، NetworkPolicy، PodSecurity) ضروری است. Linux کرنل برای debugging GPU و networking لازم است.

ضروری
EN

Experience with observability stacks (Prometheus, Grafana, OpenTelemetry)

stack observability Anthropic روی Prometheus، Grafana و OpenTelemetry build شده. توانایی نوشتن PromQL queries پیچیده، طراحی dashboard های actionable و instrumentation OpenTelemetry برای multi-service tracing ضروری.

ضروری
EN

Familiarity with ML infrastructure, GPU operations, or LLM serving

Anthropic می‌گوید 'familiarity' نه 'expertise' — یعنی اگر background SRE strong دارید اما هنوز ML infra را عمیق نمی‌دانید، می‌توانید apply کنید. در شش ماه اول on-the-job learning خواهید کرد. اما کسانی که AI stack را بلدند برتری دارند.

مهم
EN

Excellent incident response and on-call experience

Anthropic production-critical است (Claude API روزانه میلیون‌ها request). on-call serious است و expectation ها بالا. شما باید incident command را بلد باشید، blameless postmortem بنویسید و follow-up actions را track کنید.

ضروری
EN

Strong written and verbal communication skills

Anthropic فرهنگ writing-heavy دارد (مثل Stripe، Amazon). شما باید بتوانید RFC بنویسید، postmortem coherent، و in writing با cross-team align کنید. interview شامل writing exercise است.

ضروری

تحلیل مسئولیت‌ها

EN

Own the reliability of Claude API and Anthropic's production infrastructure

ownership واقعی — شما در on-call rotation هستید، SLO ها را شما تعریف می‌کنید، و success شما با uptime measured می‌شود. این یعنی pressure بالا اما autonomy و impact هم بالا.

EN

Design and implement systems for monitoring, alerting, and incident response

نه فقط استفاده از observability tools موجود، بلکه طراحی و ساخت آن. Anthropic stack داخلی custom زیادی دارد — توقع داشته باشید system های جدید بسازید، نه فقط Datadog config کنید.

EN

Collaborate with research and product teams to ship reliable AI services

Anthropic فرهنگ cross-functional قوی دارد. شما با ML researchers (که Claude را training می‌کنند) و product engineers (که app build می‌کنند) همکار می‌کنید. باید بتوانید با هر دو لایه تعامل کنید.

EN

Drive improvements in capacity planning, cost optimization, and operational excellence

Anthropic در حال scale سریع است. capacity planning critical است — GPU shortage یعنی شما باید ۶ ماه قبل planning کنید. cost optimization هم اهمیت دارد — حتی Anthropic که well-funded است، GPU cost را serious می‌گیرد.

نتیجه‌گیری کلی

Anthropic یکی از top destination ها برای AI SRE است. compensation strong (Senior $300-500K total با equity)، mission-driven culture (AI safety focus)، و challenge های منحصر به فرد (Claude در scale). bar بالاست — اکثر candidates rejected می‌شوند. توصیه: ۵+ سال SRE واقعی، tutorial vLLM، یک GitHub portfolio با AI infra projects، آماده‌سازی برای incident response interview و writing exercise. آماده شدن ۳-۶ ماه طول می‌کشد.

آینده و روندها

پیش‌بینی ۵–۱۰ ساله و مهارت‌هایی که باید یاد بگیرید

رشد ۳۲.۵٪ سالانه (CAGR) تا ۲۰۳۰ — تقاضا برای AI SRE از ۸۰ هزار به ۳۲۰ هزار شغل در جهان می‌رسد

منبع: BLS Occupational Outlook 2024 / Gartner AI Infrastructure Report 2025

مهارت‌های نوظهور که باید یاد بگیرید

LLM-Specific Observability (perplexity tracking، quality drift)GPU Cluster Federation (multi-cluster، multi-region GPU orchestration)AI FinOps (cost per token، utilization optimization)Edge AI Reliability (on-device model serving، sync)Multi-Tenant GPU Isolation (MIG، MPS، Run:ai)AI Safety & Compliance Operations (audit، red-team workflows)Sustainable AI Operations (carbon-aware scheduling، energy efficiency)

پیش‌بینی‌های آینده

2026

AI SRE به یک sub-discipline رسمی در SREcon و KubeCon تبدیل می‌شود — track های اختصاصی و certification path های جدید

2027

ابزار AIOps با LLM به‌طور قابل توجه noise alerts را کاهش می‌دهد — AI SRE روی architecture و chaos engineering تمرکز بیشتری می‌کند

2028

تخصص GPU cluster operations به یک niche پرحقوق تبدیل می‌شود — Senior position در hyperscaler ها به $500K+ می‌رسد

2030

AI SRE با تخصص edge inference و on-device reliability یک domain جدید می‌سازد — autonomous vehicle، robotics، AR/VR همگی نیاز دارند

ریسک‌های واقعی

ریسک اصلی commoditization در lower tier است — task های routine SRE (alert config، basic dashboard) قابل automation با LLM و AIOps tool هستند. کسانی که فقط Kubernetes basics و Prometheus بلدند آسیب‌پذیرند. کسانی که در incident response complex، system design و GPU stack قوی هستند، demand بیشتر می‌شوند. ریسک دیگر: vendor lock-in در platform های managed (AWS Bedrock، GCP Vertex) که می‌تواند ارزش skill های infrastructure مستقل را کاهش دهد. اما نیاز به custom infrastructure در top labs همیشه وجود خواهد داشت.

ویدیوهای آموزشی

برای راهنمایی شخصی‌سازی‌شده مشاوره بگیرید