مهندس قابلیت اطمینان هوش مصنوعی
AI SRE
AI SRE (مهندس قابلیت اطمینان هوش مصنوعی) متخصصی است در تقاطع SRE کلاسیک، MLOps و observability که مسئولیت uptime، latency و reliability سرویسهای AI در production را بر عهده دارد. تفاوت کلیدی این نقش با SRE معمولی این است که AI workload ها رفتار غیر deterministic دارند — یک مدل میتواند کند شود، hallucinate کند، یا cost را بیدلیل ۱۰ برابر کند بدون اینکه infrastructure قدیمی از آن خبر داشته باشد. در ۲۰۲۶ با گسترش serving LLM در scale (OpenAI ۲۰۰ میلیون weekly user، Anthropic رشد ۳x سالانه)، AI SRE یکی از پرتقاضاترین نقشهای infra شده — Senior position در Anthropic، OpenAI، Google DeepMind، Meta و Databricks با total comp ۴۰۰هزار+ دلار، و talent shortage جدی در tier-2 firms.
مقدمه و تعریف شغل
AI SRE (مهندس قابلیت اطمینان هوش مصنوعی) متخصصی است که اصول Site Reliability Engineering که Google در دهه ۲۰۰۰ بنا کرد را با challenge های منحصر به فرد production AI ترکیب میکند. SRE کلاسیک روی سرویسهای deterministic (DB، web server، API) کار میکرد. اما در AI، latency، cost و quality همگی stochastic هستند — یک prompt میتواند ۱۰ تا ۱۰۰ برابر token تولید کند، GPU memory میتواند ناگهان OOM شود، و quality response میتواند بدون تغییر در code regression بدهد. AI SRE با ابزارهای جدید (vLLM، Triton، KServe)، metric های جدید (token/sec، KV-cache hit rate، GPU utilization) و mindset جدید (نه فقط uptime، بلکه quality و cost) این چالش را حل میکند.
ریشههای SRE به Ben Treynor در Google در ۲۰۰۳ برمیگردد. کتاب SRE Book (۲۰۱۶) و SRE Workbook (۲۰۱۸) discipline را به جهان معرفی کردند. مفاهیمی مثل SLI/SLO/SLA، error budget و postmortem culture استاندارد شدند. در ۲۰۱۵-۲۰۲۰ با ظهور Kubernetes و observability stack مدرن (Prometheus، Grafana، OpenTelemetry)، SRE به یک حرفه mainstream تبدیل شد. در ۲۰۲۲ با launch ChatGPT و خطای GPU shortage، صنعت متوجه شد که AI workload challenge های منحصر به فرد دارند. OpenAI و Anthropic اولین کسانی بودند که تیمهای 'AI SRE' یا 'Production Reliability' اختصاصی ساختند. در ۲۰۲۴، Anthropic، OpenAI و Meta هر کدام بیش از ۵۰ AI SRE استخدام کردند. در ۲۰۲۶، تقاضا از عرضه بسیار بیشتر است — تخصص ترکیبی Kubernetes + LLM serving + observability کمیاب و گران است. صنعت GPU shortage و cost optimization fight هم به اهمیت AI SRE افزودهاند.
چه چیزی میسازید؟
مثالهای واقعی از خروجی کار یک مهندس قابلیت اطمینان هوش مصنوعی
SLO Framework برای LLM API
Anthropic SLO تعریف میکند: p99 latency < 5s برای Claude، availability 99.95٪، tail latency < 30s. برای هر SLO error budget tracking و alert بر اساس burn rate (Google method).
Multi-Region LLM Serving Architecture
OpenAI ChatGPT را در ۵+ region (us-east، us-west، eu، asia) deploy میکند. AI SRE traffic routing با Anycast، failover automatic، و capacity balancing بین region را طراحی میکند.
GPU Cluster Operations Stack
Cohere یک cluster ۲۰۰۰ GPU H100 دارد. AI SRE با Run:ai و Kueue scheduling طراحی میکند، DCGM-Exporter برای GPU health، و failure detection automatic برای node های بد.
Observability Pipeline برای LLM
Mistral یک OpenTelemetry pipeline میسازد که trace هر request از API gateway → router → model → response را با metadata کامل (model، latency، tokens، quality score) ذخیره میکند.
Auto-Remediation Runbook
Databricks یک سیستم میسازد که وقتی یک GPU node failure dot میکند، automatically drain میکند، replacement را schedule میکند، و alert فقط در صورت failure secondary میفرستد — کاهش ۷۰٪ pager fatigue.
FinOps Dashboard برای AI
Hugging Face dashboard میسازد که cost per million tokens، cost per customer، و GPU utilization waste را track میکند. discovery میکند که ۳۰٪ GPU idle است و save میکند $2M/سال.
تخصصهای مختلف مهندس قابلیت اطمینان هوش مصنوعی
این شغل یک عنوان واحد نیست — مسیرهای تخصصی متعددی دارد
LLM Serving Reliability
LLM Serving Reliability
تخصص در reliability سرویسهای LLM — vLLM، Triton، streaming، token quotas. کارفرماهای اصلی: OpenAI، Anthropic، Cohere، Mistral.
GPU Cluster Operations
GPU Cluster Operations
تخصص در مدیریت large GPU cluster — scheduling، health، failure detection. کارفرماهای اصلی: Meta، Google، Microsoft Azure AI، CoreWeave.
AI Observability
AI Observability
تخصص در ساخت observability stack برای AI — model performance، quality drift، cost tracking. کارفرماهای اصلی: Datadog AI، New Relic، Arize، WhyLabs.
Training Infrastructure
Training Infrastructure
تخصص در reliability training runs — checkpoint، failure recovery، multi-node coordination. کارفرماهای اصلی: OpenAI، Anthropic، DeepMind، NVIDIA.
AI FinOps
AI FinOps
تخصص در cost optimization GPU و inference — quantization، routing، caching، autoscaling. کارفرماهای اصلی: Hugging Face، Together AI، Anyscale، Modal.
تفاوت با شغلهای مشابه
کجا این شغل تمام میشود و شغل دیگری شروع میشود؟
DevOps Engineer focus روی CI/CD، deployment automation و dev productivity دارد. AI SRE focus روی reliability production. در شرکتهای کوچک یک نفر هر دو نقش را دارد؛ در شرکتهای بزرگ تخصص جدا شده — SRE on-call دارد و owner production است، DevOps owner CI/CD pipeline.
MLOps Engineer focus روی training pipeline، model registry، experiment tracking و reproducibility. AI SRE focus روی serving production، uptime و incident response. overlap وجود دارد در deployment، اما mindset متفاوت — MLOps روی data scientist productivity، AI SRE روی end-user experience.
SRE کلاسیک روی stateless web service، database، caching layer کار میکند. AI SRE علاوه بر آن، باید GPU، CUDA، vLLM، quantization و stochastic behavior مدل را بفهمد. حدود ۶۰٪ مهارتها مشترک است؛ ۴۰٪ تخصصی AI.
Platform Engineer روی ساخت ابزار داخلی برای dev productivity (internal developer platform، Backstage، self-service infrastructure) تمرکز میکند. AI SRE روی operations production. مرز این دو در شرکتهای مدرن fuzzy است.
تأثیر در صنایع مختلف
مهندس قابلیت اطمینان هوش مصنوعی در همه صنایع مشغول به کار است — نه فقط شرکتهای فناوری
Foundation Model Labs
OpenAI، Anthropic، Google DeepMind، Meta AI، Mistral — بزرگترین استخدامکنندگان AI SRE. حقوق top of market، چالشهای unique.
Cloud AI Platforms
AWS Bedrock، Azure AI، GCP Vertex، Oracle OCI AI — managing AI workload در hyperscale برای میلیونها customer.
AI Infrastructure Companies
CoreWeave، Lambda Labs، Together AI، Anyscale، Modal — provider GPU و AI serving، AI SRE هسته business آنها است.
Enterprise AI Adoption
JPMorgan، Walmart، Pfizer، Boeing — همه در حال ساخت internal AI platform هستند با تیمهای AI SRE اختصاصی.
AI-First SaaS
Notion AI، Glean، Perplexity، Harvey — startup هایی که محصولشان روی AI دور میزند و reliability حیاتی است.
Healthcare AI
Tempus، Komodo Health، PathAI — workload AI با HIPAA و compliance حساس، نیاز به AI SRE با تخصص regulatory.
Autonomous Systems
Tesla AI، Waymo، Cruise، Aurora — inference روی edge با latency constraint سخت، نیاز به AI SRE با تخصص embedded.
Fintech AI
Stripe Radar، Plaid، PayPal — model serving با high transaction volume و low-latency requirement، نیاز به AI SRE.
تصورات غلط رایج
قبل از تصمیمگیری، این باورهای اشتباه را بشناسید
AI SRE فقط SRE معمولی است که با ML کار میکند
اشتباه. AI workload رفتار stochastic و non-deterministic دارد که SRE کلاسیک با آن مواجه نشده. مثلاً یک LLM request میتواند ۱۰x latency بدون تغییر در input بدهد. مهارتهای GPU، CUDA، quantization، KV-cache و LLM serving تخصصی هستند که SRE معمولی ندارد.
AI SRE فقط شغل کسانی است که PhD AI دارند
برعکس — اکثر AI SRE های موفق از background SRE/DevOps میآیند، نه ML researcher. مهمتر این است که Linux، Kubernetes و observability قوی داشته باشید و سپس LLM serving بیاموزید. background ML research کمک میکند اما ضروری نیست.
ابزار AI همه چیز را خودکار میکند
ابزار به سرعت در حال تکامل است (KServe، Run:ai، DCGM)، اما در ۲۰۲۶ AI workload هنوز نیاز به human judgment زیادی دارد. incident response، capacity planning، و architecture decisions همگی human expertise نیاز دارند. ابزار ۸۰٪ کار را خودکار میکند اما ۲۰٪ critical است.
GPU شبیه CPU است، فقط سریعتر
اشتباه عمیق. GPU memory architecture کاملاً متفاوت است (HBM vs DDR)، interconnect (NVLink) ضروری است، و failure mode ها متفاوت (driver crash، XID errors، NVLink degradation). AI SRE باید nvidia-smi، DCGM، و NVIDIA driver stack را خوب بفهمد.
cost optimization فقط کار FinOps team است
در AI workload، cost و reliability به شدت همبستهاند. یک GPU underutilized هم expensive است و هم نشانه bottleneck جای دیگر. AI SRE باید FinOps mindset داشته باشد — هر incident postmortem باید cost impact هم بررسی کند.
یک روز کاری واقعی
در هر سطح روز کاری چه شکلی است؟
جونیور (۰–۲ سال)
بیشتر روز را روی triage alerts، یادگیری stack، نوشتن runbook ساده، و shadowing senior on-call ها میگذرانید. شروع به فهمیدن AI workload و GPU stack.
- ◆صبح: مرور alerts شب قبل و triage هر کدام
- ◆بلاک اول: نوشتن یک runbook برای incident تکراری که هفته قبل اتفاق افتاد
- ◆بعد از ناهار: pairing با senior SRE روی debug کردن یک memory leak در serving stack
- ◆عصر: یادگیری vLLM PagedAttention با مطالعه code و official docs
- ◆پایان روز: شرکت در weekly postmortem review
Mid-Level AI SRE (۲–۵ سال)
ownership یک stack کامل (serving، monitoring، یا training infrastructure). نوشتن RFC کوچک، on-call primary، و mentor کردن junior ها.
- ◆صبح: مرور SLO dashboard های هفته — هر violation را diagnose کنید
- ◆بلاک کدنویسی: implement یک Terraform module برای GPU node provisioning
- ◆جلسه: review RFC یک ML engineer برای deployment مدل جدید
- ◆بعد از ناهار: incident response یک latency spike — root cause یک memory fragmentation در vLLM
- ◆عصر: نوشتن postmortem و follow-up action item های آن
Senior / Staff AI SRE (۵+ سال)
owner reliability یک domain (e.g. inference، training، platform). نوشتن RFC های org-wide، نمایندگی technical نزد مدیریت، و influence cross-team.
- ◆صبح: مرور reliability metrics weekly و حضور در leadership sync
- ◆جلسه با CTO: ارائه proposal برای multi-region failover architecture
- ◆تصمیم: prioritize کردن سه initiative reliability برای quarter آینده
- ◆بعد از ناهار: interview یک staff candidate برای reliability team
- ◆عصر: review code/RFC از senior های دیگر team و mentor کردن tech lead جدید
مسئولیتها و وظایف
مسئولیتهای اصلی
وظایف روزانه و مهارتهای مورد نیاز در این شغل
- ◈طراحی و تعریف SLI، SLO و error budget برای سرویسهای AI
- ◈monitoring مداوم latency، throughput، GPU utilization و cost per request
- ◈on-call rotation و incident response برای production AI workload
- ◈capacity planning برای GPU cluster — پیشبینی نیاز، negotiate با cloud provider
- ◈automation کارهای تکراری ops با Python، Bash و Terraform
- ◈اجرای chaos engineering منظم برای validation سیستم در برابر failure
- ◈نوشتن postmortem دقیق و follow-up action item ها بعد از هر incident
- ◈همکاری با ML engineer برای مرور deployment plan و reliability review
مهارتهای مورد نیاز
مهارتهای فنی، نرم و حوزهای که یک مهندس قابلیت اطمینان هوش مصنوعی موفق به آنها نیاز دارد
زیرساخت و Kubernetes
kernel، cgroup، namespace، systemd — foundation هر SRE
Pod، Deployment، StatefulSet، Service، Ingress، NetworkPolicy
declarative provisioning، state management، module design
TCP/IP، DNS، load balancer، service mesh، CNI
IAM، networking، storage، compute در حداقل یک cloud
sync state Kubernetes با Git repository
Istio، Linkerd — traffic management، observability، security
Observability و Reliability
metrics database و query language
ساخت dashboard های actionable برای تیم
استاندارد cross-vendor instrumentation
Jaeger، Tempo، trace کردن request در multi-service
تعریف معیار درست reliability و error budget
ICS، command structure، postmortem culture
Chaos Mesh، Gremlin، fault injection
AI/ML Specific و Soft Skills
CUDA، nvidia-smi، DCGM، NVLink، driver troubleshooting
vLLM، Triton، TGI، TensorRT-LLM، KServe
blue/green deployment، canary، traffic splitting
نوشتن tooling و runbook automation
GPU pricing، utilization tracking، optimization
نوشتن proposal فنی واضح برای cross-team alignment
نقشه راه و مسیر آموزشی
نقشه راه تبدیل شدن به مهندس قابلیت اطمینان هوش مصنوعی
این مسیر گام به گام شما را از صفر تا حرفهای هدایت میکند.
پایه SRE و سیستمهای توزیعشده
ساخت پایه SRE — Linux، networking، distributed systems، و کتاب SRE Google
Containerization، Kubernetes و Cloud
تسلط بر Docker، Kubernetes و یک cloud provider — اکثر AI workload روی K8s اجرا میشود
Observability و Monitoring
مهارتهای observability — metrics، logs، traces — برای دیدن آنچه در production میگذرد
ML Serving، GPU Ops و LLM Infrastructure
تخصص در سرو کردن مدل — vLLM، TGI، Triton، KServe — و GPU ops که تفاوت اصلی AI SRE از SRE است
Incident Response، Chaos و Production Excellence
هنر واقعی SRE — incident response، chaos engineering، postmortem، و evolution سیستم در طول زمان
ابزارها و استک فنی
ابزارهایی که هر مهندس AI باید بشناسد، دستهبندیشده بر اساس اولویت
Container Orchestration و IaC
Observability
ML Serving و GPU
Incident Management و Chaos
مسیر پیشرفت شغلی
از جونیور تا Staff Engineer — چه مهارتهایی نیاز دارید و چه درآمدی انتظار داشته باشید
Junior SRE / AI Platform Engineer
۰ تا ۲ سال
~$145K
میانگین سالانه (آمریکا)
on-call rotation، triage alerts، اولین runbook ها، یادگیری GPU stack
AI SRE / Mid-Level
۲ تا ۵ سال
~$230K
میانگین سالانه (آمریکا)
ownership از یک stack (serving، training، یا monitoring)، طراحی SLO، نوشتن postmortem
Senior AI SRE / Tech Lead
۵ تا ۹ سال
~$380K
میانگین سالانه (آمریکا)
رهبری incident response، طراحی reliability architecture، mentor کردن junior ها، تصمیمگیری cross-team
Principal SRE / Staff Engineer
۹+ سال
~$650K
میانگین سالانه (آمریکا)
تعیین استراتژی reliability برای کل سازمان، نوشتن RFC های زیرساختی، نمایندگی فنی نزد مدیریت ارشد
چالشها و جنبههای منفی
واقعیتهایی که کمتر در آگهیهای شغلی میبینید — قبل از ورود بدانید
Non-Deterministic Behavior LLM
تحقیقاتیبزرگترین تفاوت AI SRE از SRE کلاسیک. یک LLM میتواند بر اساس prompt یا temperature بسیار متفاوت رفتار کند — latency 10x، token 100x، quality drift. نیاز به metric های جدید (perplexity، quality score) دارید که در SRE کلاسیک وجود نداشت.
GPU Failure Mode های منحصر به فرد
شرکت بزرگGPU failure رفتار متفاوتی از CPU دارد — XID error، NVLink degradation، silent memory corruption. اکثر این failure ها automatic detect نمیشوند و نیاز به DCGM-Exporter و monitoring custom دارند.
Cost Optimization در مقیاس
عمومیGPU گران است — یک H100 ساعتی $3-4. کاهش ۱۰٪ utilization میتواند میلیونها دلار صرفهجویی کند. اما optimization میتواند به cost reliability ضربه بزند. balance این trade-off یکی از سختترین کارهای AI SRE است.
Multi-Tenant Isolation
شرکت بزرگاگر یک GPU بین چند customer share میشود (MIG، MPS)، یک customer میتواند روی experience customer دیگر اثر بگذارد (noisy neighbor). طراحی proper isolation، quota و SLO per-tenant یک challenge مداوم است.
Talent Shortage در GPU Stack
عمومیتقاضا برای AI SRE با تخصص واقعی GPU بسیار بیشتر از عرضه است. شما باید team بسازید با ترکیبی از SRE های classic که میخواهند GPU بیاموزند و ML engineer هایی که میخواهند ops بفهمند. این hybrid team management خودش challenge است.
Rapid Pace of Framework Evolution
تحقیقاتیvLLM، TGI، TensorRT-LLM همگی در ۲ سال اخیر متولد شدند و در حال تکامل سریع هستند. هر ۳ ماه version جدید با breaking change. AI SRE باید روی این evolution سوار بماند و یاد بگیرد چه زمان migrate کند.
حقوق و بازار کار جهانی
حقوق جهانی مهندس قابلیت اطمینان هوش مصنوعی
میانگین حقوق سالانه بر اساس تجربه در کشورهای مختلف
| کشور | میانه | ارز |
|---|---|---|
🇮🇳هند | ₹6,800,000 | INR |
🇦🇪امارات | AED 600,000 | AED |
🇺🇸آمریکا | $380,000 | USD |
🇨🇦کانادا | CA$250,000 | CAD |
🇸🇬سنگاپور | SGD 250,000 | SGD |
🇦🇺استرالیا | A$230,000 | AUD |
🇬🇧انگلستان | £175,000 | GBP |
🇩🇪آلمان | €145,000 | EUR |
* ارقام سالانه و تقریبی هستند و بر اساس میانگین بازار در سال ۲۰۲۵ محاسبه شدهاند.
چگونه از صفر شروع کنیم
برنامه گامبهگام برای ورود به مهندسی هوش مصنوعی
ماه ۱: AI Infrastructure 101
خواندن SRE Book بخشهای reliability، مرور Designing ML Systems Chip Huyen. یادگیری اصول vLLM و Triton.
ماه ۲: GPU & CUDA Basics
یادگیری nvidia-smi، DCGM، CUDA driver model. setup یک GPU local یا cloud (Lambda Labs).
ماه ۳: vLLM Deployment Project
deploy vLLM با Mistral-7B روی K8s، observability با Prometheus، dashboard Grafana.
ماه ۴: SLO و Incident Response
طراحی SLO برای پروژه vLLM، Alertmanager rules، simulate incident و نوشتن postmortem.
ماه ۵: Chaos و FinOps
اضافه کردن Chaos Mesh، اجرای failure injection، dashboard FinOps با GPU cost.
ماه ۶: Apply و Portfolio
GitHub portfolio با ۳ پروژه strong، apply به AI SRE positions، آمادهسازی system design interview.
پروژههای پیشنهادی برای رزومه
vLLM Inference Stack روی Kubernetes
متوسطیک cluster K8s محلی (kind یا minikube) راهاندازی کنید، vLLM با یک مدل کوچک (Mistral-7B) deploy کنید با autoscaling و Prometheus metrics. dashboard Grafana با latency، throughput و token/sec بسازید.
SLO Dashboard برای LLM API
متوسطیک LLM API شبیهسازی کنید (FastAPI + vLLM)، SLO های latency p50/p95/p99 و availability تعریف کنید. Error budget و burn rate alerting در Grafana پیاده کنید بر اساس روش Google SRE.
Chaos Engineering Suite برای ML Serving
پیشرفتهروی stack inference قبلی، با Chaos Mesh failure inject کنید — pod kill، network latency، GPU OOM. نشان دهید graceful degradation با circuit breaker و retry pattern چگونه کار میکند.
GPU Utilization & FinOps Dashboard
پیشرفتهGPU metrics با DCGM-Exporter و nvidia-smi جمعآوری کنید، هزینه per token محاسبه کنید (بر اساس GPU hour rate)، و یک dashboard FinOps بسازید که cost per request را در طول زمان track کند.
Production Incident Runbook Repository
متوسطیک Git repository از runbook های Markdown بسازید برای incident های رایج LLM serving — OOM، token quota exhaustion، model corruption، latency spike. هر runbook با diagram، command های exact و escalation path.
مثالهای واقعی و Case Studies
داستانهای واقعی از مهندسانی که در این حوزه تأثیرگذار بودهاند
VP Engineering و co-founder Site Reliability Engineering در Google. کسی که SRE discipline را در ۲۰۰۳ اختراع کرد و ۲۰ سال SRE Google را رهبری کرد.
Treynor در ۲۰۰۳ به Google پیوست و دید team های operations سنتی scalability ندارند. ایده SRE را معرفی کرد: استخدام software engineer برای کار operations، با ۵۰٪ زمان development و ۵۰٪ ops. مفاهیمی مثل error budget، SLO، blameless postmortem و toil reduction از او شناخته شدند. کتاب SRE (۲۰۱۶) که Treynor preface آن را نوشت بهسرعت به استاندارد industry تبدیل شد. در ۲۰۲۳ از Google بازنشسته شد. در ۲۰۲۴، Google SRE Conference گذاشت که ۵۰۰۰+ نفر شرکت کردند.
SRE یک shift فرهنگی است، نه فقط ابزار. Treynor با معرفی error budget، ابزاری مالی برای trade-off بین reliability و velocity فراهم کرد که فلسفه dev-vs-ops را تغییر داد. درس برای AI SRE: ابزار جدید مهم است اما mindset و culture مهمتر — هر AI SRE موفقی باید SRE Book را قبل از یادگیری vLLM بخواند.
CTO و co-founder Honeycomb.io، یکی از پایهگذاران observability modern. سابقه staff engineer در Facebook (Parse acquisition) و sales engineer در Linden Lab.
Majors یکی از مهمترین صداهای observability در صنعت است. در ۲۰۱۶ Honeycomb را با Christine Yen تأسیس کرد — اولین platform که 'observability' را به جای 'monitoring' محور کرد. کتاب Observability Engineering (۲۰۲۲) با Liz Fong-Jones و George Miranda به سرعت standard شد. مفاهیمی مثل high-cardinality observability، unknown unknowns و event-based debugging از او محبوب شدند. در Twitter/Mastodon با ۱۰۰هزار+ follower یکی از صداهای influential در SRE است. در ۲۰۲۳ keynote SREcon و KubeCon داده.
observability یک skill حیاتی AI SRE است. AI workload به دلیل non-determinism نیاز به high-cardinality observability دارد — نه فقط metric های aggregate، بلکه per-request tracing با full context. Majors و Honeycomb این فلسفه را popularize کردند. AI SRE های جوان باید Observability Engineering را بخوانند و OpenTelemetry را بفهمند.
Principal SRE Manager سابق Dropbox و Gremlin، Chaos Engineer شناخته شده در صنعت. در حال حاضر در حال ساخت یک startup chaos engineering جدید است.
Butow یکی از مهمترین صداهای chaos engineering است. در Dropbox، یک Chaos Engineering practice ساخت که ۱۰۰+ engineer در آن participate کردند. در Gremlin، product chaos را به enterprise scale برد. سخنرانیهای او در SREcon، KubeCon و Chaos Conf میلیونها بار دیده شده. در ۲۰۲۲، یک program mentorship رایگان برای زنان SRE راه انداخت که صدها زن را به این حرفه آورد. در ۲۰۲۵ یک startup جدید با focus روی chaos engineering برای AI workload راهاندازی کرد.
chaos engineering در AI critical است. AI workload با rare failure mode هایی روبروست (GPU failure، NVLink degradation، silent corruption) که فقط با fault injection systematic discover میشوند. Butow نشان میدهد که با discipline و tooling مناسب، chaos را میتوان bottom-up در یک organization scale کرد. برای AI SRE: یاد گرفتن Chaos Mesh و یک practice systematic chaos engineering یک differentiator حرفهای است.
نمونه آگهی استخدام واقعی + تحلیل
یک آگهی واقعی از شرکت فعال در حال استخدام، با تحلیل هر بخش
Site Reliability Engineer (Production)
تحلیل نیازمندیها
5+ years experience operating production services at scale
Anthropic از Senior SRE با تجربه واقعی production انتظار دارد. ۵+ سال یعنی شما incident های واقعی، on-call rotation و postmortem culture را زندگی کردهاید. junior position های دیگری هم هست اما این posting برای senior است.
ضروریStrong experience with Kubernetes, Linux, and cloud platforms (AWS/GCP)
Anthropic روی AWS و GCP اجرا میشود. Kubernetes ستون فقرات stack است. عمق در K8s (نه فقط kubectl، بلکه CRD، operator، NetworkPolicy، PodSecurity) ضروری است. Linux کرنل برای debugging GPU و networking لازم است.
ضروریExperience with observability stacks (Prometheus, Grafana, OpenTelemetry)
stack observability Anthropic روی Prometheus، Grafana و OpenTelemetry build شده. توانایی نوشتن PromQL queries پیچیده، طراحی dashboard های actionable و instrumentation OpenTelemetry برای multi-service tracing ضروری.
ضروریFamiliarity with ML infrastructure, GPU operations, or LLM serving
Anthropic میگوید 'familiarity' نه 'expertise' — یعنی اگر background SRE strong دارید اما هنوز ML infra را عمیق نمیدانید، میتوانید apply کنید. در شش ماه اول on-the-job learning خواهید کرد. اما کسانی که AI stack را بلدند برتری دارند.
مهمExcellent incident response and on-call experience
Anthropic production-critical است (Claude API روزانه میلیونها request). on-call serious است و expectation ها بالا. شما باید incident command را بلد باشید، blameless postmortem بنویسید و follow-up actions را track کنید.
ضروریStrong written and verbal communication skills
Anthropic فرهنگ writing-heavy دارد (مثل Stripe، Amazon). شما باید بتوانید RFC بنویسید، postmortem coherent، و in writing با cross-team align کنید. interview شامل writing exercise است.
ضروریتحلیل مسئولیتها
Own the reliability of Claude API and Anthropic's production infrastructure
ownership واقعی — شما در on-call rotation هستید، SLO ها را شما تعریف میکنید، و success شما با uptime measured میشود. این یعنی pressure بالا اما autonomy و impact هم بالا.
Design and implement systems for monitoring, alerting, and incident response
نه فقط استفاده از observability tools موجود، بلکه طراحی و ساخت آن. Anthropic stack داخلی custom زیادی دارد — توقع داشته باشید system های جدید بسازید، نه فقط Datadog config کنید.
Collaborate with research and product teams to ship reliable AI services
Anthropic فرهنگ cross-functional قوی دارد. شما با ML researchers (که Claude را training میکنند) و product engineers (که app build میکنند) همکار میکنید. باید بتوانید با هر دو لایه تعامل کنید.
Drive improvements in capacity planning, cost optimization, and operational excellence
Anthropic در حال scale سریع است. capacity planning critical است — GPU shortage یعنی شما باید ۶ ماه قبل planning کنید. cost optimization هم اهمیت دارد — حتی Anthropic که well-funded است، GPU cost را serious میگیرد.
نتیجهگیری کلی
Anthropic یکی از top destination ها برای AI SRE است. compensation strong (Senior $300-500K total با equity)، mission-driven culture (AI safety focus)، و challenge های منحصر به فرد (Claude در scale). bar بالاست — اکثر candidates rejected میشوند. توصیه: ۵+ سال SRE واقعی، tutorial vLLM، یک GitHub portfolio با AI infra projects، آمادهسازی برای incident response interview و writing exercise. آماده شدن ۳-۶ ماه طول میکشد.
آینده و روندها
پیشبینی ۵–۱۰ ساله و مهارتهایی که باید یاد بگیرید
رشد ۳۲.۵٪ سالانه (CAGR) تا ۲۰۳۰ — تقاضا برای AI SRE از ۸۰ هزار به ۳۲۰ هزار شغل در جهان میرسد
منبع: BLS Occupational Outlook 2024 / Gartner AI Infrastructure Report 2025
مهارتهای نوظهور که باید یاد بگیرید
پیشبینیهای آینده
AI SRE به یک sub-discipline رسمی در SREcon و KubeCon تبدیل میشود — track های اختصاصی و certification path های جدید
ابزار AIOps با LLM بهطور قابل توجه noise alerts را کاهش میدهد — AI SRE روی architecture و chaos engineering تمرکز بیشتری میکند
تخصص GPU cluster operations به یک niche پرحقوق تبدیل میشود — Senior position در hyperscaler ها به $500K+ میرسد
AI SRE با تخصص edge inference و on-device reliability یک domain جدید میسازد — autonomous vehicle، robotics، AR/VR همگی نیاز دارند
ریسک اصلی commoditization در lower tier است — task های routine SRE (alert config، basic dashboard) قابل automation با LLM و AIOps tool هستند. کسانی که فقط Kubernetes basics و Prometheus بلدند آسیبپذیرند. کسانی که در incident response complex، system design و GPU stack قوی هستند، demand بیشتر میشوند. ریسک دیگر: vendor lock-in در platform های managed (AWS Bedrock، GCP Vertex) که میتواند ارزش skill های infrastructure مستقل را کاهش دهد. اما نیاز به custom infrastructure در top labs همیشه وجود خواهد داشت.
ویدیوهای آموزشی
یک روز در زندگی یک AI SRE
ویدیوهای واقعی از متخصصان این حوزه که روزانه چه کارهایی انجام میدهند

DevOps vs SRE vs Platform Engineering | Clear Big Misconceptions
ByteByteGo

What is Site Reliability Engineering (SRE)?
IBM Technology

DevOps Jobs Are Disappearing - Here's Why You Should Celebrate
Mischa van den Burg

DON'T Become a DevOps Engineer - Do THIS Instead
Tech With Soleyman

SLA vs SLO vs SLI | SRE Interview Questions | DevOps FAQ |#devopsinterviewquestions |#k8s|#devops
Abhishek.Veeramalla
![What is AIOps and How it works? [With Examples]](/_next/image?url=https%3A%2F%2Fi.ytimg.com%2Fvi%2Fyf0yCJOMtBY%2Fhqdefault.jpg&w=3840&q=75)
What is AIOps and How it works? [With Examples]
Cloud Champ
