مهندس پلتفرم داده
Data Platform Engineer
مهندس پلتفرم داده (Data Platform Engineer) متخصصی است که زیرساختهای مرکزی داده — از ingestion تا storage، processing و serving — را بهعنوان یک پلتفرم self-service برای کل سازمان طراحی، میسازد و نگه میدارد. در دنیایی که هر شرکت میخواهد data-driven شود، این متخصصان موتور پشت data lakehouse هایی مانند Databricks، warehouse هایی مثل Snowflake و pipeline های real-time مانند Kafka هستند. در ۲۰۲۶ با ظهور AI و نیاز به feed دادن مدلها با streaming data و vector stores، Data Platform Engineer به یکی از پرتقاضاترین و گرانترین نقشهای فنی تبدیل شده — حقوق ارشد در FAANG به ۴۰۰ هزار+ دلار میرسد.
مقدمه و تعریف شغل
مهندس پلتفرم داده (Data Platform Engineer) متخصصی است که سکوی مرکزی دادهها — شامل ingestion، storage، processing، transformation و serving — را بهعنوان یک پلتفرم self-service برای کل سازمان طراحی، میسازد و مدیریت میکند. تفاوت کلیدی با یک Data Engineer معمولی این است که Platform Engineer سیستمی میسازد که دیگر engineer ها، analyst ها و data scientist ها بدون وابستگی مستقیم به او بتوانند از داده استفاده کنند — یعنی او platform میسازد، نه فقط pipeline.
تا اواسط دهه ۲۰۱۰، اغلب شرکتها یک نقش 'Data Engineer' داشتند که هر کاری مربوط به داده میکرد — از ETL ساده تا BI dashboard. اما با ظهور cloud warehousing (Snowflake، BigQuery)، modern data stack (dbt، Fivetran)، lakehouse (Databricks، Iceberg) و حالا AI/RAG با vector databases، scope این نقش بهقدری گسترش یافت که در شرکتهای بالغ به چندین تخصص تقسیم شد: Analytics Engineer (transform-focused)، Data Engineer (pipeline-focused)، و Data Platform Engineer (infrastructure-focused). در ۲۰۲۶، با افزایش تقاضای AI برای داده تازه و باکیفیت، Data Platform Engineer یکی از critical-path نقشها در هر شرکت data-driven شده است. حقوق ارشد در FAANG، Databricks و Snowflake به ۳۵۰-۵۰۰ هزار دلار کل compensation میرسد و در نقشهای Principal، عدد به ۶۰۰ هزار+ هم میرسد.
چه چیزی میسازید؟
مثالهای واقعی از خروجی کار یک مهندس پلتفرم داده
Self-Service Data Platform
Spotify میخواهد ۱۰۰۰ analyst و data scientist بتوانند بدون کمک data engineer کار کنند. شما platform میسازید: ingestion templates، transformation framework (dbt)، catalog، notebook environment و monitoring.
Real-time Streaming Pipeline
Uber میخواهد قیمتها بر اساس supply و demand لحظهای تنظیم شوند. شما با Kafka و Flink، pipeline میسازید که event های millions-per-second را process و در ۱۰۰ms تحویل دهد.
Lakehouse Architecture
Netflix میخواهد روی ۲۰۰ پتابایت داده تاریخی هم analytics اجرا کند، هم ML بسازد. شما lakehouse با Iceberg، Spark و Trino طراحی میکنید که هر دو use case را پشتیبانی کند.
Data Quality و Contracts
تیم Marketing وقتی dashboard خراب میشود ناراحت میشود. شما data contracts بین producer ها و consumer ها میسازید، quality tests را در CI/CD اجرا میکنید و SLA تضمین میدهید.
ML Feature Platform
DoorDash میخواهد ML model ها در real-time به feature های consistent دسترسی داشته باشند. شما با Tecton/Feast feature platform میسازید که batch و online را یکی کند.
Cost Optimization و FinOps
صورتحساب Snowflake به ۲ میلیون دلار در ماه رسیده است. شما با clustering، query optimization، auto-suspend و reserved capacity در ۶ ماه ۴۰٪ صرفهجویی میکنید.
تخصصهای مختلف مهندس پلتفرم داده
این شغل یک عنوان واحد نیست — مسیرهای تخصصی متعددی دارد
Streaming و Real-Time
Streaming & Real-Time
تخصص در Kafka، Flink، event-driven architecture — کارفرماهای اصلی: Uber، DoorDash، Stripe، Shopify.
Lakehouse Architecture
Lakehouse Architecture
تمرکز روی Delta Lake، Iceberg، Hudi، Spark — برای بزرگترین dataset ها. کارفرماهای اصلی: Databricks، Netflix، Apple.
Data Governance و Quality
Data Governance & Quality
تمرکز روی catalog، lineage، quality، compliance — مخصوصاً در صنایع regulated. کارفرماهای اصلی: بانکها، healthcare، insurance.
ML Feature Platform
ML Feature Platform
ساخت feature store و serving infrastructure برای ML — یکی از داغترین تخصصها در ۲۰۲۶. کارفرماهای اصلی: شرکتهای ML-first.
زیرساخت داده Vector و AI
Vector & AI Data Infrastructure
vector databases، embedding pipelines، RAG infrastructure — جدیدترین specialization با رشد سریع.
تفاوت با شغلهای مشابه
کجا این شغل تمام میشود و شغل دیگری شروع میشود؟
Data Engineer روی pipeline های مشخص کار میکند (ingest از API X و load به table Y). Data Platform Engineer سیستم میسازد که Data Engineer ها بتوانند ۱۰ برابر بهرهور باشند. در شرکتهای کوچک یک نفر هر دو نقش را دارد؛ در شرکتهای بزرگ Platform team جدا است.
Analytics Engineer (نقش جدیدی که با dbt به وجود آمد) روی modeling و transformation در warehouse کار میکند. Data Platform Engineer زیرساختی که dbt روی آن میچرخد را میسازد. هر دو modern data stack را شکل میدهند اما در سطح متفاوت.
DevOps generalist است و در همه workload ها کار میکند. Data Platform Engineer specialized روی data systems است — Spark، Kafka، warehouse. آشنایی عمیق با data tooling و ML workloads، Platform Engineer را متمایز میکند.
ML Platform Engineer روی training، serving و experiment tracking تمرکز میکند. Data Platform Engineer روی data lifecycle قبل از ML. این دو نقش بسیار همکار هستند و اغلب در یک تیم بزرگتر 'Data & ML Platform' قرار میگیرند.
تأثیر در صنایع مختلف
مهندس پلتفرم داده در همه صنایع مشغول به کار است — نه فقط شرکتهای فناوری
Tech Giants (FAANG)
Meta، Google، Amazon، Netflix همگی Data Platform teams ۱۰۰+ نفری دارند. حقوق ارشد ۴۰۰هزار+ معمول است.
Financial Services
JPMorgan، Citi، Goldman، Visa — همه روی data platform های مدرن سرمایهگذاری میکنند. compliance بسیار سختگیر.
E-commerce & Retail
Shopify، Walmart، Target، Amazon — نیاز به real-time inventory، personalization و pricing.
Healthcare & Pharma
UnitedHealth، CVS، Roche، Pfizer — platform های HIPAA-compliant برای clinical data و drug discovery.
AdTech & Marketing
Trade Desk، Roku، Snap — حجم بزرگ event data، نیاز به streaming و low-latency analytics.
Logistics & Mobility
Uber، Lyft، DoorDash، FedEx، Maersk — real-time pipelines برای routing، pricing، supply.
Gaming
Epic Games، Activision، Riot، Roblox — حجم event بزرگ برای telemetry، A/B testing، anti-cheat.
AI & ML Companies
OpenAI، Anthropic، Hugging Face — نیاز به platform برای training data، RLHF data و evaluations.
تصورات غلط رایج
قبل از تصمیمگیری، این باورهای اشتباه را بشناسید
Data Engineering یعنی فقط نوشتن SQL و pipeline
این برای Junior درست است. Data Platform Engineer یک systems engineer است — باید Kubernetes، networking، Spark internals و distributed systems را عمیق بفهمد. کسانی که فقط dbt بلدند معمولاً نمیتوانند به senior برسند.
Cloud warehouse همه چیز را حل کرده
Snowflake/BigQuery مشکل storage و scale را حل میکنند، اما مشکلات اصلی (modeling، quality، governance، cost) همچنان وجود دارد. یک شرکت میتواند Snowflake داشته باشد و هنوز data mess داشته باشد.
Streaming بهتر از Batch است
Streaming پیچیدهتر، گرانتر و debug کردنش سختتر است. ۸۰٪ use case ها با batch کاملاً کار میکنند. تنها وقتی streaming را انتخاب کنید که نیاز business مشخص به latency کم وجود دارد.
تخصص یک ابزار خاص (مثل Snowflake) کافی است
ابزارها هر چند سال عوض میشوند. ۱۰ سال پیش Hadoop king بود، حالا کسی استفاده نمیکند. مهارت پایدار: درک architectural، modeling، distributed systems و SQL. ابزار فقط آن لحظه پیادهسازی است.
AI و LLMها Data Engineer ها را جایگزین میکنند
برعکس — AI بهشدت تقاضا را افزایش داده. هر مدل AI نیاز به data tازه، باکیفیت و well-governed دارد. شرکتهایی که میخواهند AI استفاده کنند، اول باید data platform شان مرتب باشد. این job security ایجاد میکند.
یک روز کاری واقعی
در هر سطح روز کاری چه شکلی است؟
جونیور (۰–۲ سال)
بیشتر روز را روی نوشتن pipeline، اضافه کردن dbt model و troubleshoot میگذرانید. هر هفته با تیمهای downstream meeting دارید برای فهمیدن نیازهایشان.
- ◆صبح: بررسی Airflow dashboard — کدام DAG ها fail شدهاند؟
- ◆بلاک اول: نوشتن dbt model جدید برای reporting team
- ◆بعد از ناهار: code review برای PR یک تیمی روی Airflow DAG
- ◆عصر: pairing با senior روی debug کردن Spark job که OOM میشود
- ◆پایان روز: نوشتن documentation برای model جدید در dbt docs
Senior (۲–۵ سال)
طراحی subsystem های مهم به شما واگذار میشود. شروع به نوشتن RFC و رهبری projects چند-هفتهای. mentor جونیورها در تیم.
- ◆صبح: مرور RFC خود برای migration از Redshift به Snowflake
- ◆جلسه با تیم Product Analytics: ترجمه نیاز business به data model
- ◆بلاک کدنویسی: optimization یک Spark job که ۲ ساعت طول میکشد
- ◆بعد از ناهار: review نسل بعدی dbt model framework برای کل شرکت
- ◆عصر: مذاکره با تیم vendor (Snowflake) درباره pricing کوارتر بعدی
Staff/Principal (۵+ سال)
تمرکز روی استراتژی، architecture و رهبری چند تیم. کمتر کد مینویسید اما تصمیمهایتان روی هزاران employee اثر دارد. نمایندگی شرکت در conference های صنعت.
- ◆صبح: مرور architecture proposal برای platform نسل بعد — توزیع به ۵ تیم
- ◆جلسه با CTO: مذاکره درباره budget داده برای سال آینده
- ◆تصمیم strategic: انتخاب بین Iceberg و Delta Lake برای organization — اثر چندمیلیون دلاری
- ◆بعد از ناهار: نوشتن یک blog post برای engineering blog شرکت درباره data mesh implementation
- ◆عصر: keynote prep برای Coalesce یا Data + AI Summit + ۱:۱ با Director یک تیم data
مسئولیتها و وظایف
مسئولیتهای اصلی
وظایف روزانه و مهارتهای مورد نیاز در این شغل
- ◈طراحی و ساخت ingestion pipelines از منابع متنوع (databases، APIs، events)
- ◈ساخت و نگهداری warehouse/lakehouse مرکزی و مدلسازی داده
- ◈طراحی orchestration layer با Airflow/Dagster برای پایداری pipeline ها
- ◈بهینهسازی هزینه warehouse — اغلب صرفهجویی صدهزار دلاری در سال
- ◈پیادهسازی data governance، quality و lineage در سطح سازمان
- ◈ساخت platform self-service که analyst ها و DS ها بدون وابستگی به DE کار کنند
- ◈همکاری با تیمهای downstream (Analytics، ML، Product) برای کشف نیازها
- ◈نوشتن documentation و آموزش تیمهای دیگر در استفاده از پلتفرم
مهارتهای مورد نیاز
مهارتهای فنی، نرم و حوزهای که یک مهندس پلتفرم داده موفق به آنها نیاز دارد
مهارتهای فنی پلتفرم داده
Window functions، CTEs، query optimization، EXPLAIN plans
Pandas، PySpark، asyncio، نوشتن package های reusable
PySpark، Scala، tuning، Catalyst، DataFrame vs RDD
Partitions، consumer groups، exactly-once، schema registry
Models، tests، macros، seeds، packages، deployment
تسلط عمیق بر Snowflake یا BigQuery یا Databricks SQL
Delta Lake، Iceberg، Hudi — schema evolution، time travel
Airflow، Dagster یا Prefect — DAG design، sensors، XCom
Spark on K8s، Helm charts، operator pattern برای data tools
نوشتن ماژولهای reusable برای data infrastructure
مهارتهای architectural و governance
Dimensional (Kimball)، Data Vault، One Big Table — انتخاب درست برای context
Catalog، lineage، PII handling، RBAC، column-level security
Great Expectations، Soda، contracts، SLA design
Query tuning، storage tiering، reserved capacity، auto-suspend
trade-off بین batch vs streaming، sync vs async، normalize vs denormalize
GDPR، HIPAA، PCI-DSS، SOC 2 — مخصوصاً در enterprise
مهارتهای نرم و رهبری
کار با Product، Marketing، Finance، Legal — هر کدام expectations متفاوت
نوشتن RFC، runbook، data dictionary به شکلی که maintainable باشد
آموزش جونیورها — حیاتی چون data engineering market گرم است
PoC طراحی، مقایسه objective، negotiation با Snowflake، Databricks، dbt Labs
نقشه راه و مسیر آموزشی
نقشه راه تبدیل شدن به مهندس پلتفرم داده
این مسیر گام به گام شما را از صفر تا حرفهای هدایت میکند.
پایه SQL، Python و Data Modeling
تسلط بر SQL پیشرفته، Python برای data، و اصول data modeling — پایهای ضروری برای هر نقش پلتفرم داده
Data Warehousing مدرن و dbt
یادگیری Snowflake/BigQuery/Redshift، اصول lakehouse، و dbt بهعنوان استاندارد transformation
Spark، Kafka و Distributed Processing
تسلط بر Apache Spark، Kafka و processing توزیعشده — هسته فنی هر پلتفرم بزرگ داده
Orchestration، Cloud و Infrastructure-as-Code
تسلط بر Airflow/Dagster/Prefect، تخصص در یک hyperscaler، Terraform و Kubernetes برای deploy کردن platform
Data Governance، Quality و Platform Building
تخصصیسازی روی governance، quality، lineage و طراحی پلتفرم self-service — مهارتهای یک Staff Engineer
ابزارها و استک فنی
ابزارهایی که هر مهندس AI باید بشناسد، دستهبندیشده بر اساس اولویت
Warehouse و Lakehouse
Processing و Streaming
Transformation و Orchestration
Governance، Quality و Catalog
مسیر پیشرفت شغلی
از جونیور تا Staff Engineer — چه مهارتهایی نیاز دارید و چه درآمدی انتظار داشته باشید
Data Engineer جونیور
۰ تا ۲ سال
~$110K
میانگین سالانه (آمریکا)
نوشتن pipeline های ETL، استفاده از dbt و Airflow، troubleshoot روزانه و bug fix
Senior Data Engineer
۲ تا ۵ سال
~$170K
میانگین سالانه (آمریکا)
طراحی subsystem ها (ingestion، transformation)، رهبری migration، mentor جونیورها
Staff Data Platform Engineer
۵ تا ۸ سال
~$270K
میانگین سالانه (آمریکا)
طراحی platform self-service برای کل شرکت، انتخاب tech stack، رهبری ۲-۳ تیم
Principal Engineer / Director of Data Platform
۸+ سال
~$425K
میانگین سالانه (آمریکا)
تعریف استراتژی داده شرکت، انتخاب vendor میلیون دلاری، نمایندگی فنی در C-level
چالشها و جنبههای منفی
واقعیتهایی که کمتر در آگهیهای شغلی میبینید — قبل از ورود بدانید
Scope Creep بدون Self-Service
عمومیهر تیم میخواهد report خودش را داشته باشد. اگر همه چیز به Data team بیاید، queue شما هیچگاه خالی نمیشود. هنر اصلی Data Platform Engineer ساخت سیستمی است که دیگران بدون شما کار کنند.
Cost Spiral در Cloud Warehouse
شرکت بزرگSnowflake/BigQuery هزینه per-query دارند. یک query بد میتواند هزاران دلار در یک ساعت خرج کند. باید مدام monitor کنید، quota بگذارید و کاربران را آموزش دهید — این sysadmin گذشته نیست.
Data Quality در Scale
شرکت بزرگوقتی هزار schema داری، صد producer و هزاران consumer، یک schema change ساده میتواند ۱۰ dashboard را بشکند. data contracts، schema registry و quality tests در CI/CD ضروری هستند.
Migration پروژههای چندساله
شرکت بزرگmigration از Hadoop به Snowflake یا از Redshift به Databricks میتواند ۱-۲ سال طول بکشد. باید coexistence را مدیریت کنید، تیمها را آموزش دهید و در عین حال دادههای فعلی را maintain کنید.
Streaming Complexity
تحقیقاتیStream processing exactly-once، late-arriving data، watermarks، state management — هر کدام sources of subtle bugs هستند. اغلب بهتر است batch بسازید مگر اینکه واقعاً real-time لازم باشد.
Recruiting و Retention
عمومیdata engineers گرمترین skill در ۲۰۲۶ هستند. بهترینها چندین offer در دست دارند. باید culture جذاب، ابزارهای modern و مسیر رشد روشن داشته باشید، وگرنه team را مدام از دست میدهید.
حقوق و بازار کار جهانی
حقوق جهانی مهندس پلتفرم داده
میانگین حقوق سالانه بر اساس تجربه در کشورهای مختلف
| کشور | میانه | ارز |
|---|---|---|
🇯🇵ژاپن | ¥16,500,000 | JPY |
🇮🇳هند | ₹5,000,000 | INR |
🇦🇪امارات | AED 320,000 | AED |
🇺🇸آمریکا | $285,000 | USD |
🇨🇦کانادا | CA$195,000 | CAD |
🇸🇬سنگاپور | SGD 180,000 | SGD |
🇦🇺استرالیا | A$175,000 | AUD |
🇬🇧انگلستان | £140,000 | GBP |
🇩🇪آلمان | €115,000 | EUR |
🇳🇱هلند | €110,000 | EUR |
* ارقام سالانه و تقریبی هستند و بر اساس میانگین بازار در سال ۲۰۲۵ محاسبه شدهاند.
چگونه از صفر شروع کنیم
برنامه گامبهگام برای ورود به مهندسی هوش مصنوعی
ماه ۱: SQL Mastery + Data Modeling
حل ۱۰۰+ مسئله SQL پیشرفته، خواندن Kimball book، طراحی star schema برای یک کسبوکار فرضی.
ماه ۲: dbt + Snowflake/BigQuery
دوره dbt Fundamentals، Snowflake free trial، ساخت اولین dbt project با ۱۰+ models.
ماه ۳: Apache Spark
Learning Spark book، Databricks Community Edition، حل ۵ پروژه با PySpark.
ماه ۴: Airflow + Cloud
Astronomer Airflow tutorials، deploy کردن Airflow روی AWS، یک پروژه ingestion → dbt.
ماه ۵: Kafka + Streaming
Confluent Kafka course، یک پروژه streaming کوچک با Kafka + Spark Streaming.
ماه ۶: Portfolio + Apply
ساخت modern data stack project end-to-end در GitHub. شروع به apply برای DE/Platform positions.
پروژههای پیشنهادی برای رزومه
Modern Data Stack از صفر
مبتدییک data stack کامل با Snowflake (free trial)، dbt، Airflow و Looker Studio بسازید. یک dataset عمومی (مثلاً NYC Taxi) را ingest، transform و dashboard کنید.
Streaming Pipeline با Kafka و Spark
متوسطیک end-to-end streaming pipeline بسازید: Kafka producer برای event ها، Spark Structured Streaming برای processing، sink در Delta Lake. Monitoring با Prometheus.
Lakehouse با Iceberg روی AWS
متوسطیک lakehouse با Iceberg، S3 و Athena/Trino بسازید. partition evolution، time travel، و branching را تمرین کنید. مقایسه با Delta Lake.
Data Quality Framework
پیشرفتهیک data quality framework end-to-end با Great Expectations بسازید که در CI/CD اجرا شود، alert بدهد و dashboard quality نمایش دهد.
Self-Service Platform مثل Databricks-Lite
پیشرفتهplatform self-service بسازید که DS ها بتوانند notebook ها را روی k8s cluster اجرا کنند، با isolation، quota و monitoring. تجربهای شبیه Databricks ولی open-source.
مثالهای واقعی و Case Studies
داستانهای واقعی از مهندسانی که در این حوزه تأثیرگذار بودهاند
بنیانگذار Apache Airflow (در Airbnb) و Apache Superset، CEO فعلی Preset (شرکت پشت Superset). قبل از Airbnb در Facebook روی data infrastructure کار میکرد.
Airflow را در ۲۰۱۴ در Airbnb ساخت تا مشکل orchestration pipeline ها را حل کند. در ۲۰۱۵ open-source کرد و امروز به استاندارد صنعتی تبدیل شده — توسط ۶۰هزار+ شرکت استفاده میشود. سپس Superset را بهعنوان BI tool open-source ساخت. مقاله معروف او 'The Rise of the Data Engineer' و 'The Downfall of the Data Engineer' بنیانهای مدرن این نقش را تعریف کرد.
مشکلات کاری روزانه میتوانند به ابزارهایی تبدیل شوند که کل صنعت را تغییر میدهند. Beauchemin Airflow را برای حل یک مشکل خاص در Airbnb ساخت، نه برای ساخت یک business. open-source کردن و engage با community چیزی است که آن را به استاندارد تبدیل کرد.
بنیانگذار و CEO dbt Labs. قبل از dbt، ۲۰ سال تجربه در analytics consulting داشت، نه engineering deep — مهارتهایش روی فهم نیاز analyst ها متمرکز بود.
dbt را بهعنوان یک ابزار consulting داخلی در Fishtown Analytics ساخت، سپس در ۲۰۱۶ open-source کرد. در ۲۰۲۲ شرکت dbt Labs به ارزش ۴.۲ میلیارد دلار رسید. dbt حالا توسط بیش از ۳۰هزار شرکت استفاده میشود و عملاً مفهوم 'Analytics Engineer' را بهعنوان نقش جدید معرفی کرد. blog های هفتگی Tristan ('The Analytics Engineering Roundup') یکی از منابع اصلی صنعت است.
نوآوری همیشه از تخصص فنی عمیق نمیآید. Handy یک analytics consultant بود که مشکلی را در کار روزمره دید و ابزاری ساخت که به استاندارد تبدیل شد. درک عمیق مشکل کاربر اغلب مهمتر از تخصص فنی است.
Co-founder و Chief Architect در Databricks. دکترای علوم کامپیوتر UC Berkeley، عضو اصلی تیمی که Apache Spark را در دانشگاه Berkeley ساخت.
یکی از top committer های Apache Spark — بیش از ۱۰۰۰ commit در core. در طراحی Spark SQL، DataFrames و Catalyst optimizer نقش کلیدی داشت — همان قابلیتهایی که Spark را از یک کتابخانه research به استاندارد industrial تبدیل کردند. در ۲۰۱۳ یکی از بنیانگذاران Databricks بود که حالا به ارزش بیش از ۶۲ میلیارد دلار رسیده. کارهای اخیر او روی Delta Lake، Photon (vectorized engine) و Unity Catalog ادامه دارد.
تخصص عمیق فنی در یک پروژه open-source میتواند به ساخت یکی از باارزشترین شرکتهای نرمافزاری تبدیل شود. Xin از ابتدا روی Spark بود و این عمق چیزی است که Databricks را از رقبا متمایز کرد — نه strategy بلکه technical excellence.
نمونه آگهی استخدام واقعی + تحلیل
یک آگهی واقعی از شرکت فعال در حال استخدام، با تحلیل هر بخش
Senior Data Platform Engineer
تحلیل نیازمندیها
5+ years building large-scale distributed data systems
Stripe billions of events per day process میکند. باید تجربه واقعی با scale (نه فقط tutorial) داشته باشید. سابقه design یا maintaining sistemالی که ۱۰۰TB+ پردازش میکند مزیت بزرگی است.
ضروریDeep expertise in Spark, Kafka, or similar distributed processing frameworks
Stripe heavily Spark استفاده میکند برای batch processing و Kafka برای streaming. باید بتوانید Spark Catalyst optimizer، Kafka exactly-once semantics و trade-off بین batch و streaming را عمیق بحث کنید.
ضروریStrong proficiency in Python, Scala, or Java
اکثر کد Stripe در Ruby است اما Data Platform بیشتر Python و Scala. حداقل یکی باید عمیق باشد — بهخصوص برای Spark، Scala مزیت دارد.
ضروریExperience with data modeling, schema design, and query optimization
نه فقط SQL ساده — design data model برای petabyte-scale financial data. understanding Kimball، Data Vault و انتخاب درست برای use case ضروری است.
ضروریFamiliarity with workflow orchestration (Airflow, Dagster) and infrastructure (Kubernetes, Terraform)
Stripe Airflow extensively استفاده میکند. باید بتوانید complex DAG ها بسازید با sensors، dynamic task generation و error handling. K8s و Terraform هم برای deploy.
ضروریStrong communication skills and ability to collaborate across teams
Stripe culture مهم است. Data Platform به ۲۰+ تیم internal خدمات میدهد. توانایی document نوشتن، RFC review کردن و meeting های productive رهبری کردن ضروری است.
مهمتحلیل مسئولیتها
Design and build core data platform infrastructure used by hundreds of engineers
scope بزرگ است — هر تصمیم شما روی ۱۰۰+ نفر اثر دارد. این یعنی باید extra careful باشید با API design، backward compatibility و migration paths.
Optimize cost, reliability, and performance of distributed data systems
سه trade-off همیشگی data engineering. در Stripe scale، هر بهبود کوچک میتواند ۱۰۰هزار دلار صرفهجویی در ماه باشد. توانایی profiling و optimization ضروری.
Lead technical design and influence platform roadmap
این senior level است — انتظار میرود نه فقط task های دیگران را اجرا کنید بلکه direction strategic بدهید. سابقه نوشتن RFC و leading initiative های چند-quarter.
Mentor junior engineers and contribute to engineering culture
Stripe heavily mentorship-focused است. باید بتوانید کد review، 1:1، آموزش و technical leadership کنید — نه فقط hands-on coding.
نتیجهگیری کلی
Stripe یکی از بهترین جاها برای data platform engineer ها است — scale عظیم، engineering culture قوی، compensation excellent (۳۵۰-۵۰۰هزار دلار کل برای senior). bar فنی بالاست اما اگر تجربه واقعی scale دارید و communicator خوبی هستید، fit عالی است. مهم: روی Spark و Kafka deep dive کنید، یک پروژه scale-relevant در GitHub داشته باشید، و در system design interview آماده باشید.
آینده و روندها
پیشبینی ۵–۱۰ ساله و مهارتهایی که باید یاد بگیرید
رشد ۳۶.۸٪ سالانه (CAGR) تا ۲۰۳۰ — تقاضا برای Data Platform Engineers از ۸۰ هزار به ۴۰۰ هزار شغل در جهان میرسد
منبع: BLS Occupational Outlook 2024 / dbt Labs State of Analytics Engineering 2025
مهارتهای نوظهور که باید یاد بگیرید
پیشبینیهای آینده
Iceberg به استاندارد غالب table format تبدیل میشود — Snowflake، Databricks و AWS همه پشتیبانی کامل میدهند
Data Contracts به practice استاندارد در شرکتهای بالغ تبدیل میشود — مرز producer/consumer بهوضوح تعریف میشود
Streaming Lakehouse (یعنی Iceberg + Flink) جایگزین جدی برای Kafka + warehouse میشود
حقوق Principal Data Platform Engineer در tech giants به ۸۰۰هزار دلار+ کل compensation میرسد — به دلیل critical-path بودن AI
ریسک اصلی این نیست که AI خود Data Engineer را جایگزین کند — بلکه این است که AI productivity را افزایش میدهد و یک نفر کاری را که قبل ۳ نفر میکردند انجام میدهد. کسانی که فقط task های روتین (نوشتن SQL ساده) را میکنند آسیبپذیرند. کسانی که در systems design، architecture و platform thinking قوی هستند، تقاضایشان حتی بیشتر میشود. ریسک دیگر: tool sprawl — هر سال ۵ ابزار جدید عرضه میشود؛ کسانی که trend chasing میکنند بدون عمق، دچار سردرگمی میشوند.
ویدیوهای آموزشی
یک روز در زندگی یک Data Platform Engineer
ویدیوهای واقعی از متخصصان این حوزه که روزانه چه کارهایی انجام میدهند

A Realistic Day in Life of Data Engineer | Work, Harsh Realities, More.
Jash Radia

Learn Databricks in 10 Minutes | Most Important Skill for Data Engineering
Darshil Parmar

What is Data Pipeline? | Why Is It So Popular?
ByteByteGo

What Is A Data Platform And Why You Should Build One
Seattle Data Guy

What is Data Pipeline | How to design Data Pipeline ? - ETL vs Data pipeline (2025)
IT k Funde

Databricks Interview Experience | $600K+ Compensation | Rounds, Process, System Design, Prep Tips
Maddy Zhang
