🛤️

رتبه ۳۰ از ۱۰رشد ۳۶.۸% سالانه

مهندس پلتفرم داده

Data Platform Engineer

مهندس پلتفرم داده (Data Platform Engineer) متخصصی است که زیرساخت‌های مرکزی داده — از ingestion تا storage، processing و serving — را به‌عنوان یک پلتفرم self-service برای کل سازمان طراحی، می‌سازد و نگه می‌دارد. در دنیایی که هر شرکت می‌خواهد data-driven شود، این متخصصان موتور پشت data lakehouse هایی مانند Databricks، warehouse هایی مثل Snowflake و pipeline های real-time مانند Kafka هستند. در ۲۰۲۶ با ظهور AI و نیاز به feed دادن مدل‌ها با streaming data و vector stores، Data Platform Engineer به یکی از پرتقاضاترین و گران‌ترین نقش‌های فنی تبدیل شده — حقوق ارشد در FAANG به ۴۰۰ هزار+ دلار می‌رسد.

SparkKafkaSnowflake/DatabricksdbtKubernetes

مقدمه و تعریف شغل

مهندس پلتفرم داده (Data Platform Engineer) متخصصی است که سکوی مرکزی داده‌ها — شامل ingestion، storage، processing، transformation و serving — را به‌عنوان یک پلتفرم self-service برای کل سازمان طراحی، می‌سازد و مدیریت می‌کند. تفاوت کلیدی با یک Data Engineer معمولی این است که Platform Engineer سیستمی می‌سازد که دیگر engineer ها، analyst ها و data scientist ها بدون وابستگی مستقیم به او بتوانند از داده استفاده کنند — یعنی او platform می‌سازد، نه فقط pipeline.

تا اواسط دهه ۲۰۱۰، اغلب شرکت‌ها یک نقش 'Data Engineer' داشتند که هر کاری مربوط به داده می‌کرد — از ETL ساده تا BI dashboard. اما با ظهور cloud warehousing (Snowflake، BigQuery)، modern data stack (dbt، Fivetran)، lakehouse (Databricks، Iceberg) و حالا AI/RAG با vector databases، scope این نقش به‌قدری گسترش یافت که در شرکت‌های بالغ به چندین تخصص تقسیم شد: Analytics Engineer (transform-focused)، Data Engineer (pipeline-focused)، و Data Platform Engineer (infrastructure-focused). در ۲۰۲۶، با افزایش تقاضای AI برای داده تازه و باکیفیت، Data Platform Engineer یکی از critical-path نقش‌ها در هر شرکت data-driven شده است. حقوق ارشد در FAANG، Databricks و Snowflake به ۳۵۰-۵۰۰ هزار دلار کل compensation می‌رسد و در نقش‌های Principal، عدد به ۶۰۰ هزار+ هم می‌رسد.

چه چیزی می‌سازید؟

مثال‌های واقعی از خروجی کار یک مهندس پلتفرم داده

🛤️

Self-Service Data Platform

Spotify می‌خواهد ۱۰۰۰ analyst و data scientist بتوانند بدون کمک data engineer کار کنند. شما platform می‌سازید: ingestion templates، transformation framework (dbt)، catalog، notebook environment و monitoring.

⚡

Real-time Streaming Pipeline

Uber می‌خواهد قیمت‌ها بر اساس supply و demand لحظه‌ای تنظیم شوند. شما با Kafka و Flink، pipeline می‌سازید که event های millions-per-second را process و در ۱۰۰ms تحویل دهد.

🏞️

Lakehouse Architecture

Netflix می‌خواهد روی ۲۰۰ پتابایت داده تاریخی هم analytics اجرا کند، هم ML بسازد. شما lakehouse با Iceberg، Spark و Trino طراحی می‌کنید که هر دو use case را پشتیبانی کند.

✅

Data Quality و Contracts

تیم Marketing وقتی dashboard خراب می‌شود ناراحت می‌شود. شما data contracts بین producer ها و consumer ها می‌سازید، quality tests را در CI/CD اجرا می‌کنید و SLA تضمین می‌دهید.

🤖

ML Feature Platform

DoorDash می‌خواهد ML model ها در real-time به feature های consistent دسترسی داشته باشند. شما با Tecton/Feast feature platform می‌سازید که batch و online را یکی کند.

💰

Cost Optimization و FinOps

صورت‌حساب Snowflake به ۲ میلیون دلار در ماه رسیده است. شما با clustering، query optimization، auto-suspend و reserved capacity در ۶ ماه ۴۰٪ صرفه‌جویی می‌کنید.

تخصص‌های مختلف مهندس پلتفرم داده

این شغل یک عنوان واحد نیست — مسیرهای تخصصی متعددی دارد

⚡

Streaming و Real-Time

Streaming & Real-Time

تخصص در Kafka، Flink، event-driven architecture — کارفرماهای اصلی: Uber، DoorDash، Stripe، Shopify.

🏞️

Lakehouse Architecture

تمرکز روی Delta Lake، Iceberg، Hudi، Spark — برای بزرگ‌ترین dataset ها. کارفرماهای اصلی: Databricks، Netflix، Apple.

🛡️

Data Governance و Quality

Data Governance & Quality

تمرکز روی catalog، lineage، quality، compliance — مخصوصاً در صنایع regulated. کارفرماهای اصلی: بانک‌ها، healthcare، insurance.

🎯

ML Feature Platform

ساخت feature store و serving infrastructure برای ML — یکی از داغ‌ترین تخصص‌ها در ۲۰۲۶. کارفرماهای اصلی: شرکت‌های ML-first.

🧠

زیرساخت داده Vector و AI

Vector & AI Data Infrastructure

vector databases، embedding pipelines، RAG infrastructure — جدیدترین specialization با رشد سریع.

تفاوت با شغل‌های مشابه

کجا این شغل تمام می‌شود و شغل دیگری شروع می‌شود؟

مهندس دادهData Engineer

Data Engineer روی pipeline های مشخص کار می‌کند (ingest از API X و load به table Y). Data Platform Engineer سیستم می‌سازد که Data Engineer ها بتوانند ۱۰ برابر بهره‌ور باشند. در شرکت‌های کوچک یک نفر هر دو نقش را دارد؛ در شرکت‌های بزرگ Platform team جدا است.

مهندس تحلیلگریAnalytics Engineer

Analytics Engineer (نقش جدیدی که با dbt به وجود آمد) روی modeling و transformation در warehouse کار می‌کند. Data Platform Engineer زیرساختی که dbt روی آن می‌چرخد را می‌سازد. هر دو modern data stack را شکل می‌دهند اما در سطح متفاوت.

DevOps / SREDevOps / SRE

DevOps generalist است و در همه workload ها کار می‌کند. Data Platform Engineer specialized روی data systems است — Spark، Kafka، warehouse. آشنایی عمیق با data tooling و ML workloads، Platform Engineer را متمایز می‌کند.

مهندس پلتفرم MLML Platform Engineer

ML Platform Engineer روی training، serving و experiment tracking تمرکز می‌کند. Data Platform Engineer روی data lifecycle قبل از ML. این دو نقش بسیار همکار هستند و اغلب در یک تیم بزرگ‌تر 'Data & ML Platform' قرار می‌گیرند.

تأثیر در صنایع مختلف

مهندس پلتفرم داده در همه صنایع مشغول به کار است — نه فقط شرکت‌های فناوری

🚀

Tech Giants (FAANG)

Meta، Google، Amazon، Netflix همگی Data Platform teams ۱۰۰+ نفری دارند. حقوق ارشد ۴۰۰هزار+ معمول است.

💹

Financial Services

JPMorgan، Citi، Goldman، Visa — همه روی data platform های مدرن سرمایه‌گذاری می‌کنند. compliance بسیار سخت‌گیر.

🛒

E-commerce & Retail

Shopify، Walmart، Target، Amazon — نیاز به real-time inventory، personalization و pricing.

💊

Healthcare & Pharma

UnitedHealth، CVS، Roche، Pfizer — platform های HIPAA-compliant برای clinical data و drug discovery.

📺

AdTech & Marketing

Trade Desk، Roku، Snap — حجم بزرگ event data، نیاز به streaming و low-latency analytics.

🚚

Logistics & Mobility

Uber، Lyft، DoorDash، FedEx، Maersk — real-time pipelines برای routing، pricing، supply.

🎮

Gaming

Epic Games، Activision، Riot، Roblox — حجم event بزرگ برای telemetry، A/B testing، anti-cheat.

🤖

AI & ML Companies

OpenAI، Anthropic، Hugging Face — نیاز به platform برای training data، RLHF data و evaluations.

تصورات غلط رایج

قبل از تصمیم‌گیری، این باورهای اشتباه را بشناسید

Data Engineering یعنی فقط نوشتن SQL و pipeline

این برای Junior درست است. Data Platform Engineer یک systems engineer است — باید Kubernetes، networking، Spark internals و distributed systems را عمیق بفهمد. کسانی که فقط dbt بلدند معمولاً نمی‌توانند به senior برسند.

Cloud warehouse همه چیز را حل کرده

Snowflake/BigQuery مشکل storage و scale را حل می‌کنند، اما مشکلات اصلی (modeling، quality، governance، cost) همچنان وجود دارد. یک شرکت می‌تواند Snowflake داشته باشد و هنوز data mess داشته باشد.

Streaming بهتر از Batch است

Streaming پیچیده‌تر، گران‌تر و debug کردنش سخت‌تر است. ۸۰٪ use case ها با batch کاملاً کار می‌کنند. تنها وقتی streaming را انتخاب کنید که نیاز business مشخص به latency کم وجود دارد.

تخصص یک ابزار خاص (مثل Snowflake) کافی است

ابزارها هر چند سال عوض می‌شوند. ۱۰ سال پیش Hadoop king بود، حالا کسی استفاده نمی‌کند. مهارت پایدار: درک architectural، modeling، distributed systems و SQL. ابزار فقط آن لحظه پیاده‌سازی است.

AI و LLMها Data Engineer ها را جایگزین می‌کنند

برعکس — AI به‌شدت تقاضا را افزایش داده. هر مدل AI نیاز به data tازه، باکیفیت و well-governed دارد. شرکت‌هایی که می‌خواهند AI استفاده کنند، اول باید data platform شان مرتب باشد. این job security ایجاد می‌کند.

یک روز کاری واقعی

در هر سطح روز کاری چه شکلی است؟

جونیور (۰–۲ سال)

بیشتر روز را روی نوشتن pipeline، اضافه کردن dbt model و troubleshoot می‌گذرانید. هر هفته با تیم‌های downstream meeting دارید برای فهمیدن نیازهایشان.

◆صبح: بررسی Airflow dashboard — کدام DAG ها fail شده‌اند؟
◆بلاک اول: نوشتن dbt model جدید برای reporting team
◆بعد از ناهار: code review برای PR یک تیمی روی Airflow DAG
◆عصر: pairing با senior روی debug کردن Spark job که OOM می‌شود
◆پایان روز: نوشتن documentation برای model جدید در dbt docs

Senior (۲–۵ سال)

طراحی subsystem های مهم به شما واگذار می‌شود. شروع به نوشتن RFC و رهبری projects چند-هفته‌ای. mentor جونیورها در تیم.

◆صبح: مرور RFC خود برای migration از Redshift به Snowflake
◆جلسه با تیم Product Analytics: ترجمه نیاز business به data model
◆بلاک کدنویسی: optimization یک Spark job که ۲ ساعت طول می‌کشد
◆بعد از ناهار: review نسل بعدی dbt model framework برای کل شرکت
◆عصر: مذاکره با تیم vendor (Snowflake) درباره pricing کوارتر بعدی

Staff/Principal (۵+ سال)

تمرکز روی استراتژی، architecture و رهبری چند تیم. کمتر کد می‌نویسید اما تصمیم‌هایتان روی هزاران employee اثر دارد. نمایندگی شرکت در conference های صنعت.

◆صبح: مرور architecture proposal برای platform نسل بعد — توزیع به ۵ تیم
◆جلسه با CTO: مذاکره درباره budget داده برای سال آینده
◆تصمیم strategic: انتخاب بین Iceberg و Delta Lake برای organization — اثر چند‌میلیون دلاری
◆بعد از ناهار: نوشتن یک blog post برای engineering blog شرکت درباره data mesh implementation
◆عصر: keynote prep برای Coalesce یا Data + AI Summit + ۱:۱ با Director یک تیم data

مسئولیت‌ها و وظایف

مسئولیت‌های اصلی

وظایف روزانه و مهارت‌های مورد نیاز در این شغل

فنی

◈طراحی و ساخت ingestion pipelines از منابع متنوع (databases، APIs، events)
◈ساخت و نگهداری warehouse/lakehouse مرکزی و مدل‌سازی داده
◈طراحی orchestration layer با Airflow/Dagster برای پایداری pipeline ها
◈بهینه‌سازی هزینه warehouse — اغلب صرفه‌جویی صد‌هزار دلاری در سال
◈پیاده‌سازی data governance، quality و lineage در سطح سازمان
◈ساخت platform self-service که analyst ها و DS ها بدون وابستگی به DE کار کنند

مهارت نرم

◈همکاری با تیم‌های downstream (Analytics، ML، Product) برای کشف نیازها
◈نوشتن documentation و آموزش تیم‌های دیگر در استفاده از پلتفرم

مهارت‌های مورد نیاز

مهارت‌های فنی، نرم و حوزه‌ای که یک مهندس پلتفرم داده موفق به آن‌ها نیاز دارد

مهارت‌های فنی پلتفرم داده

SQL پیشرفتهضروری

Window functions، CTEs، query optimization، EXPLAIN plans

Pythonضروری

Pandas، PySpark، asyncio، نوشتن package های reusable

Apache Sparkضروری

PySpark، Scala، tuning، Catalyst، DataFrame vs RDD

Apache Kafkaضروری

Partitions، consumer groups، exactly-once، schema registry

dbtضروری

Models، tests، macros، seeds، packages، deployment

Cloud Warehousesضروری

تسلط عمیق بر Snowflake یا BigQuery یا Databricks SQL

Lakehouse Formatsضروری

Delta Lake، Iceberg، Hudi — schema evolution، time travel

Orchestrationضروری

Airflow، Dagster یا Prefect — DAG design، sensors، XCom

Kubernetesمهم

Spark on K8s، Helm charts، operator pattern برای data tools

Terraformمهم

نوشتن ماژول‌های reusable برای data infrastructure

مهارت‌های architectural و governance

Data Modelingضروری

Dimensional (Kimball)، Data Vault، One Big Table — انتخاب درست برای context

Data Governanceضروری

Catalog، lineage، PII handling، RBAC، column-level security

Data Qualityضروری

Great Expectations، Soda، contracts، SLA design

Cost Optimizationمهم

Query tuning، storage tiering، reserved capacity، auto-suspend

System Designمهم

trade-off بین batch vs streaming، sync vs async، normalize vs denormalize

Complianceمفید

GDPR، HIPAA، PCI-DSS، SOC 2 — مخصوصاً در enterprise

مهارت‌های نرم و رهبری

Stakeholder Managementضروری

کار با Product، Marketing، Finance، Legal — هر کدام expectations متفاوت

Documentationضروری

نوشتن RFC، runbook، data dictionary به شکلی که maintainable باشد

Mentorshipمهم

آموزش جونیورها — حیاتی چون data engineering market گرم است

Vendor Evaluationمهم

PoC طراحی، مقایسه objective، negotiation با Snowflake، Databricks، dbt Labs

ضروری — بدون آن نمی‌توان وارد بازار کار شدمهم — تفاوت بین جونیور و میانیمفید — مزیت رقابتی

نقشه راه و مسیر آموزشی

نقشه راه تبدیل شدن به مهندس پلتفرم داده

این مسیر گام به گام شما را از صفر تا حرفه‌ای هدایت می‌کند.

پایه SQL، Python و Data Modeling

⏱️ ۳ تا ۴ ماه

تسلط بر SQL پیشرفته، Python برای data، و اصول data modeling — پایه‌ای ضروری برای هر نقش پلتفرم داده

SQL Advanced (window functions, CTEs)Python (pandas, requests, asyncio)Dimensional Modeling (Kimball)Data Vault BasicsNormal FormsGit & GitHub

منابع پیشنهادی

Mode SQL Tutorial The Data Warehouse Toolkit - Ralph Kimball Python for Data Analysis - Wes McKinney

Data Warehousing مدرن و dbt

⏱️ ۲ تا ۳ ماه

یادگیری Snowflake/BigQuery/Redshift، اصول lakehouse، و dbt به‌عنوان استاندارد transformation

Snowflake / BigQuery / Redshiftdbt (data build tool)Star/Snowflake SchemaSlowly Changing DimensionsPartitioning & ClusteringCost Optimization

منابع پیشنهادی

dbt Learn - Official Courses Snowflake University Fundamentals of Data Engineering - Joe Reis

Spark، Kafka و Distributed Processing

⏱️ ۴ تا ۶ ماه

تسلط بر Apache Spark، Kafka و processing توزیع‌شده — هسته فنی هر پلتفرم بزرگ داده

Apache Spark (PySpark + Scala)Spark Tuning & PerformanceApache KafkaKafka Streams / FlinkDelta Lake / Iceberg / HudiAvro / Parquet / ORC

منابع پیشنهادی

Learning Spark 2nd Edition (O'Reilly)Kafka: The Definitive Guide Databricks Academy

Orchestration، Cloud و Infrastructure-as-Code

⏱️ ۳ تا ۴ ماه

تسلط بر Airflow/Dagster/Prefect، تخصص در یک hyperscaler، Terraform و Kubernetes برای deploy کردن platform

Apache Airflow / Dagster / PrefectAWS / GCP / Azure (Data Services)TerraformKubernetesCI/CD (GitHub Actions)Container Basics (Docker)

منابع پیشنهادی

Astronomer Airflow Guides Dagster University Terraform Up & Running

Data Governance، Quality و Platform Building

⏱️ مداوم

تخصصی‌سازی روی governance، quality، lineage و طراحی پلتفرم self-service — مهارت‌های یک Staff Engineer

Data Catalogs (DataHub, Unity Catalog)Data Quality (Great Expectations, Soda)Lineage Tracking (OpenLineage)Schema Evolution & ContractsRBAC & Data MaskingCost Allocation & FinOps

منابع پیشنهادی

DataHub Documentation Data Mesh Principles - Zhamak Dehghani Designing Data-Intensive Applications - Kleppmann

ابزارها و استک فنی

ابزارهایی که هر مهندس AI باید بشناسد، دسته‌بندی‌شده بر اساس اولویت

Warehouse و Lakehouse

Snowflake

محبوب‌ترین cloud data warehouse — استاندارد در بسیاری از enterprise ها

ضروری

Databricks

پلتفرم lakehouse پیشرو — ترکیب Spark، Delta Lake و MLflow

ضروری

BigQuery

data warehouse serverless گوگل — بهترین برای تیم‌های GCP-native

مفید

Apache Iceberg

table format جدید open-source — رقیب جدی Delta Lake، حمایت Snowflake و AWS

مفید

Processing و Streaming

Apache Spark

استاندارد industry برای large-scale batch و streaming processing

ضروری

Apache Kafka

ستون فقرات event streaming در اکثر شرکت‌های بزرگ

ضروری

Apache Flink

بهترین برای complex stream processing با state management قوی

مفید

DuckDB

embedded analytical DB با performance بالا — بهترین برای local development و small-medium data

مفید

Transformation و Orchestration

dbt

استاندارد تبدیل SQL در warehouse — قلب modern data stack

ضروری

Apache Airflow

غالب‌ترین orchestrator در صنعت — مخصوصاً در شرکت‌های بزرگ

ضروری

Dagster

نسل جدید orchestrator با تمرکز روی asset-based programming

مفید

Prefect

alternative ساده‌تر و developer-friendly برای Airflow

مفید

Governance، Quality و Catalog

DataHub

محبوب‌ترین open-source data catalog — متادیتا، lineage، discovery

مفید

Unity Catalog

catalog یکپارچه Databricks برای governance در lakehouse

مفید

Great Expectations

framework محبوب data validation و quality testing

ضروری

OpenLineage

استاندارد open برای lineage tracking — حمایت dbt، Airflow، Spark

مفید

ضروری — باید یاد بگیریدمفید — ارزش یادگیری داردپیشرفته — برای سطوح ارشد

مسیر پیشرفت شغلی

از جونیور تا Staff Engineer — چه مهارت‌هایی نیاز دارید و چه درآمدی انتظار داشته باشید

Data Engineer جونیور

۰ تا ۲ سال

~$110K

میانگین سالانه (آمریکا)

نوشتن pipeline های ETL، استفاده از dbt و Airflow، troubleshoot روزانه و bug fix

SQLPythondbt basicsAirflowAWS/GCP basics

Senior Data Engineer

۲ تا ۵ سال

~$170K

میانگین سالانه (آمریکا)

طراحی subsystem ها (ingestion، transformation)، رهبری migration، mentor جونیورها

SparkKafkadbt advancedData ModelingCost Optimization

Staff Data Platform Engineer

۵ تا ۸ سال

~$270K

میانگین سالانه (آمریکا)

طراحی platform self-service برای کل شرکت، انتخاب tech stack، رهبری ۲-۳ تیم

Platform DesignMulti-tenant ArchitectureGovernanceTech StrategyCross-team Leadership

Principal Engineer / Director of Data Platform

۸+ سال

~$425K

میانگین سالانه (آمریکا)

تعریف استراتژی داده شرکت، انتخاب vendor میلیون دلاری، نمایندگی فنی در C-level

Data StrategyVendor NegotiationOrg DesignExecutive CommsIndustry Influence

چالش‌ها و جنبه‌های منفی

واقعیت‌هایی که کمتر در آگهی‌های شغلی می‌بینید — قبل از ورود بدانید

Scope Creep بدون Self-Service

عمومی

هر تیم می‌خواهد report خودش را داشته باشد. اگر همه چیز به Data team بیاید، queue شما هیچ‌گاه خالی نمی‌شود. هنر اصلی Data Platform Engineer ساخت سیستمی است که دیگران بدون شما کار کنند.

Cost Spiral در Cloud Warehouse

شرکت بزرگ

Snowflake/BigQuery هزینه per-query دارند. یک query بد می‌تواند هزاران دلار در یک ساعت خرج کند. باید مدام monitor کنید، quota بگذارید و کاربران را آموزش دهید — این sysadmin گذشته نیست.

Data Quality در Scale

شرکت بزرگ

وقتی هزار schema داری، صد producer و هزاران consumer، یک schema change ساده می‌تواند ۱۰ dashboard را بشکند. data contracts، schema registry و quality tests در CI/CD ضروری هستند.

Migration پروژه‌های چند‌ساله

شرکت بزرگ

migration از Hadoop به Snowflake یا از Redshift به Databricks می‌تواند ۱-۲ سال طول بکشد. باید coexistence را مدیریت کنید، تیم‌ها را آموزش دهید و در عین حال داده‌های فعلی را maintain کنید.

Streaming Complexity

تحقیقاتی

Stream processing exactly-once، late-arriving data، watermarks، state management — هر کدام sources of subtle bugs هستند. اغلب بهتر است batch بسازید مگر اینکه واقعاً real-time لازم باشد.

Recruiting و Retention

عمومی

data engineers گرم‌ترین skill در ۲۰۲۶ هستند. بهترین‌ها چندین offer در دست دارند. باید culture جذاب، ابزارهای modern و مسیر رشد روشن داشته باشید، وگرنه team را مدام از دست می‌دهید.

حقوق و بازار کار جهانی

حقوق جهانی مهندس پلتفرم داده

میانگین حقوق سالانه بر اساس تجربه در کشورهای مختلف

کشور	حداقل	میانه	حداکثر	ارز
🇯🇵ژاپنبالاترین	¥12,000,000	¥16,500,000	¥24,000,000	JPY
🇮🇳هند	₹3,000,000	₹5,000,000	₹8,000,000	INR
🇦🇪امارات	AED 240,000	AED 320,000	AED 420,000	AED
🇺🇸آمریکا	$200,000	$285,000	$420,000	USD
🇨🇦کانادا	CA$150,000	CA$195,000	CA$260,000	CAD
🇸🇬سنگاپور	SGD 135,000	SGD 180,000	SGD 240,000	SGD
🇦🇺استرالیا	A$140,000	A$175,000	A$220,000	AUD
🇬🇧انگلستان	£100,000	£140,000	£200,000	GBP
🇩🇪آلمان	€85,000	€115,000	€160,000	EUR
🇳🇱هلند	€80,000	€110,000	€145,000	EUR

* ارقام سالانه و تقریبی هستند و بر اساس میانگین بازار در سال ۲۰۲۵ محاسبه شده‌اند.

چگونه از صفر شروع کنیم

برنامه گام‌به‌گام برای ورود به مهندسی هوش مصنوعی

ماه ۱: SQL Mastery + Data Modeling

حل ۱۰۰+ مسئله SQL پیشرفته، خواندن Kimball book، طراحی star schema برای یک کسب‌وکار فرضی.

Mode SQL Tutorial Kimball Group

ماه ۲: dbt + Snowflake/BigQuery

دوره dbt Fundamentals، Snowflake free trial، ساخت اولین dbt project با ۱۰+ models.

dbt Learn

ماه ۳: Apache Spark

Learning Spark book، Databricks Community Edition، حل ۵ پروژه با PySpark.

Databricks Academy

ماه ۴: Airflow + Cloud

Astronomer Airflow tutorials، deploy کردن Airflow روی AWS، یک پروژه ingestion → dbt.

Astronomer Docs

ماه ۵: Kafka + Streaming

Confluent Kafka course، یک پروژه streaming کوچک با Kafka + Spark Streaming.

ماه ۶: Portfolio + Apply

ساخت modern data stack project end-to-end در GitHub. شروع به apply برای DE/Platform positions.

پروژه‌های پیشنهادی برای رزومه

Modern Data Stack از صفر

مبتدی

یک data stack کامل با Snowflake (free trial)، dbt، Airflow و Looker Studio بسازید. یک dataset عمومی (مثلاً NYC Taxi) را ingest، transform و dashboard کنید.

SnowflakedbtAirflowLooker StudioPython

زمان تخمینی: ۳ هفته

Streaming Pipeline با Kafka و Spark

متوسط

یک end-to-end streaming pipeline بسازید: Kafka producer برای event ها، Spark Structured Streaming برای processing، sink در Delta Lake. Monitoring با Prometheus.

KafkaSpark StreamingDelta LakeDockerPrometheus

زمان تخمینی: ۶ هفته

Lakehouse با Iceberg روی AWS

متوسط

یک lakehouse با Iceberg، S3 و Athena/Trino بسازید. partition evolution، time travel، و branching را تمرین کنید. مقایسه با Delta Lake.

Apache IcebergS3TrinoGlue CatalogTerraform

زمان تخمینی: ۶ هفته

Data Quality Framework

پیشرفته

یک data quality framework end-to-end با Great Expectations بسازید که در CI/CD اجرا شود، alert بدهد و dashboard quality نمایش دهد.

Great ExpectationsGitHub ActionsSlack APIGrafana

زمان تخمینی: ۶ هفته

Self-Service Platform مثل Databricks-Lite

پیشرفته

platform self-service بسازید که DS ها بتوانند notebook ها را روی k8s cluster اجرا کنند، با isolation، quota و monitoring. تجربه‌ای شبیه Databricks ولی open-source.

KubernetesJupyterHubSpark on K8sHelmTerraform

زمان تخمینی: ۱۰ هفته

مثال‌های واقعی و Case Studies

داستان‌های واقعی از مهندسانی که در این حوزه تأثیرگذار بوده‌اند

Maxime Beauchemin

پیشینه

بنیان‌گذار Apache Airflow (در Airbnb) و Apache Superset، CEO فعلی Preset (شرکت پشت Superset). قبل از Airbnb در Facebook روی data infrastructure کار می‌کرد.

دستاورد

Airflow را در ۲۰۱۴ در Airbnb ساخت تا مشکل orchestration pipeline ها را حل کند. در ۲۰۱۵ open-source کرد و امروز به استاندارد صنعتی تبدیل شده — توسط ۶۰هزار+ شرکت استفاده می‌شود. سپس Superset را به‌عنوان BI tool open-source ساخت. مقاله معروف او 'The Rise of the Data Engineer' و 'The Downfall of the Data Engineer' بنیان‌های مدرن این نقش را تعریف کرد.

درس کلیدی

مشکلات کاری روزانه می‌توانند به ابزارهایی تبدیل شوند که کل صنعت را تغییر می‌دهند. Beauchemin Airflow را برای حل یک مشکل خاص در Airbnb ساخت، نه برای ساخت یک business. open-source کردن و engage با community چیزی است که آن را به استاندارد تبدیل کرد.

Tristan Handy

پیشینه

بنیان‌گذار و CEO dbt Labs. قبل از dbt، ۲۰ سال تجربه در analytics consulting داشت، نه engineering deep — مهارت‌هایش روی فهم نیاز analyst ها متمرکز بود.

دستاورد

dbt را به‌عنوان یک ابزار consulting داخلی در Fishtown Analytics ساخت، سپس در ۲۰۱۶ open-source کرد. در ۲۰۲۲ شرکت dbt Labs به ارزش ۴.۲ میلیارد دلار رسید. dbt حالا توسط بیش از ۳۰هزار شرکت استفاده می‌شود و عملاً مفهوم 'Analytics Engineer' را به‌عنوان نقش جدید معرفی کرد. blog های هفتگی Tristan ('The Analytics Engineering Roundup') یکی از منابع اصلی صنعت است.

درس کلیدی

نوآوری همیشه از تخصص فنی عمیق نمی‌آید. Handy یک analytics consultant بود که مشکلی را در کار روزمره دید و ابزاری ساخت که به استاندارد تبدیل شد. درک عمیق مشکل کاربر اغلب مهم‌تر از تخصص فنی است.

Reynold Xin

پیشینه

Co-founder و Chief Architect در Databricks. دکترای علوم کامپیوتر UC Berkeley، عضو اصلی تیمی که Apache Spark را در دانشگاه Berkeley ساخت.

دستاورد

یکی از top committer های Apache Spark — بیش از ۱۰۰۰ commit در core. در طراحی Spark SQL، DataFrames و Catalyst optimizer نقش کلیدی داشت — همان قابلیت‌هایی که Spark را از یک کتابخانه research به استاندارد industrial تبدیل کردند. در ۲۰۱۳ یکی از بنیان‌گذاران Databricks بود که حالا به ارزش بیش از ۶۲ میلیارد دلار رسیده. کارهای اخیر او روی Delta Lake، Photon (vectorized engine) و Unity Catalog ادامه دارد.

درس کلیدی

تخصص عمیق فنی در یک پروژه open-source می‌تواند به ساخت یکی از باارزش‌ترین شرکت‌های نرم‌افزاری تبدیل شود. Xin از ابتدا روی Spark بود و این عمق چیزی است که Databricks را از رقبا متمایز کرد — نه strategy بلکه technical excellence.

نمونه آگهی استخدام واقعی + تحلیل

یک آگهی واقعی از شرکت فعال در حال استخدام، با تحلیل هر بخش

Senior Data Platform Engineer

Stripeسان‌فرانسیسکو / نیویورک / Remote (US)2025-10

مشاهده آگهی اصلی

تحلیل نیازمندی‌ها

5+ years building large-scale distributed data systems

Stripe billions of events per day process می‌کند. باید تجربه واقعی با scale (نه فقط tutorial) داشته باشید. سابقه design یا maintaining sistemالی که ۱۰۰TB+ پردازش می‌کند مزیت بزرگی است.

ضروری

Deep expertise in Spark, Kafka, or similar distributed processing frameworks

Stripe heavily Spark استفاده می‌کند برای batch processing و Kafka برای streaming. باید بتوانید Spark Catalyst optimizer، Kafka exactly-once semantics و trade-off بین batch و streaming را عمیق بحث کنید.

ضروری

Strong proficiency in Python, Scala, or Java

اکثر کد Stripe در Ruby است اما Data Platform بیشتر Python و Scala. حداقل یکی باید عمیق باشد — به‌خصوص برای Spark، Scala مزیت دارد.

ضروری

Experience with data modeling, schema design, and query optimization

نه فقط SQL ساده — design data model برای petabyte-scale financial data. understanding Kimball، Data Vault و انتخاب درست برای use case ضروری است.

ضروری

Familiarity with workflow orchestration (Airflow, Dagster) and infrastructure (Kubernetes, Terraform)

Stripe Airflow extensively استفاده می‌کند. باید بتوانید complex DAG ها بسازید با sensors، dynamic task generation و error handling. K8s و Terraform هم برای deploy.

ضروری

Strong communication skills and ability to collaborate across teams

Stripe culture مهم است. Data Platform به ۲۰+ تیم internal خدمات می‌دهد. توانایی document نوشتن، RFC review کردن و meeting های productive رهبری کردن ضروری است.

مهم

تحلیل مسئولیت‌ها

Design and build core data platform infrastructure used by hundreds of engineers

scope بزرگ است — هر تصمیم شما روی ۱۰۰+ نفر اثر دارد. این یعنی باید extra careful باشید با API design، backward compatibility و migration paths.

Optimize cost, reliability, and performance of distributed data systems

سه trade-off همیشگی data engineering. در Stripe scale، هر بهبود کوچک می‌تواند ۱۰۰هزار دلار صرفه‌جویی در ماه باشد. توانایی profiling و optimization ضروری.

Lead technical design and influence platform roadmap

این senior level است — انتظار می‌رود نه فقط task های دیگران را اجرا کنید بلکه direction strategic بدهید. سابقه نوشتن RFC و leading initiative های چند-quarter.

Mentor junior engineers and contribute to engineering culture

Stripe heavily mentorship-focused است. باید بتوانید کد review، 1:1، آموزش و technical leadership کنید — نه فقط hands-on coding.

نتیجه‌گیری کلی

Stripe یکی از بهترین جاها برای data platform engineer ها است — scale عظیم، engineering culture قوی، compensation excellent (۳۵۰-۵۰۰هزار دلار کل برای senior). bar فنی بالاست اما اگر تجربه واقعی scale دارید و communicator خوبی هستید، fit عالی است. مهم: روی Spark و Kafka deep dive کنید، یک پروژه scale-relevant در GitHub داشته باشید، و در system design interview آماده باشید.

آینده و روندها

پیش‌بینی ۵–۱۰ ساله و مهارت‌هایی که باید یاد بگیرید

رشد ۳۶.۸٪ سالانه (CAGR) تا ۲۰۳۰ — تقاضا برای Data Platform Engineers از ۸۰ هزار به ۴۰۰ هزار شغل در جهان می‌رسد

منبع: BLS Occupational Outlook 2024 / dbt Labs State of Analytics Engineering 2025

مهارت‌های نوظهور که باید یاد بگیرید

Apache Iceberg و table format wars (Iceberg vs Delta vs Hudi)Vector Databases و embedding pipelines برای RAGStreaming Lakehouses (Iceberg streaming، Flink + Iceberg)Data Contracts و Data Mesh implementationLLM-augmented Data Engineering (مثل dbt MCP و AI assistants)Sustainability و Green Data Engineering

پیش‌بینی‌های آینده

2026

Iceberg به استاندارد غالب table format تبدیل می‌شود — Snowflake، Databricks و AWS همه پشتیبانی کامل می‌دهند

2027

Data Contracts به practice استاندارد در شرکت‌های بالغ تبدیل می‌شود — مرز producer/consumer به‌وضوح تعریف می‌شود

2028

Streaming Lakehouse (یعنی Iceberg + Flink) جایگزین جدی برای Kafka + warehouse می‌شود

2030

حقوق Principal Data Platform Engineer در tech giants به ۸۰۰هزار دلار+ کل compensation می‌رسد — به دلیل critical-path بودن AI

ریسک‌های واقعی

ریسک اصلی این نیست که AI خود Data Engineer را جایگزین کند — بلکه این است که AI productivity را افزایش می‌دهد و یک نفر کاری را که قبل ۳ نفر می‌کردند انجام می‌دهد. کسانی که فقط task های روتین (نوشتن SQL ساده) را می‌کنند آسیب‌پذیرند. کسانی که در systems design، architecture و platform thinking قوی هستند، تقاضایشان حتی بیشتر می‌شود. ریسک دیگر: tool sprawl — هر سال ۵ ابزار جدید عرضه می‌شود؛ کسانی که trend chasing می‌کنند بدون عمق، دچار سردرگمی می‌شوند.