🩺
رتبه ۳۸ از ۱۰رشد ۳۳.۴% سالانه

دانشمند داده‌های سلامت

Health Data Scientist

دانشمند داده‌های سلامت (Health Data Scientist) متخصصی است که با استفاده از داده‌های بالینی، ژنومی، تصویربرداری پزشکی و claims، مدل‌های آماری و ML می‌سازد تا تشخیص بیماری را بهبود دهد، outcomes را پیش‌بینی کند و درمان شخصی‌سازی شده ارائه دهد. این نقش در تقاطع پزشکی، آمار زیستی و یادگیری ماشین قرار دارد و یکی از پرتقاضاترین تخصص‌های data science در دهه ۲۰۲۰ است. در ۲۰۲۶ با ظهور AI generative در drug discovery، ابزارهای FDA-cleared مبتنی بر deep learning و سهم رشد سالانه ۳۳٪ بازار healthcare AI، حقوق این نقش در شرکت‌های pharma و digital health به ۲۵۰هزار+ دلار رسیده است.

BiostatisticsPython/RClinical Data (FHIR)Survival AnalysisMedical Imaging ML

مقدمه و تعریف شغل

دانشمند داده‌های سلامت (Health Data Scientist) متخصصی است در تقاطع پزشکی، آمار و علم داده که با استفاده از داده‌های بالینی (EHR، claims، imaging، genomics، wearable)، insight های قابل عمل برای بهبود سلامت ایجاد می‌کند. این نقش با data scientist معمولی تفاوت اساسی دارد: تصمیم‌ها به جان انسان مربوط می‌شوند، داده‌ها regulated هستند (HIPAA، GDPR)، و مدل‌ها باید قابل validation بالینی و معمولاً FDA approval باشند. به همین دلیل، حقوق و bar فنی این نقش در میان data science specialty ها در بالاترین رده قرار دارد.

تا اوایل ۲۰۱۰، تحلیل داده‌های پزشکی عمدتاً در حوزه biostatistics سنتی و در departments پزشکی دانشگاه‌ها انجام می‌شد. با ظهور ELectronic Health Records (EHR) به‌شکل گسترده پس از HITECH Act 2009 در آمریکا، حجم داده‌های ساختار یافته بالینی به‌شدت افزایش یافت. در ۲۰۱۸، FDA اولین SaMD مبتنی بر AI (IDx-DR برای diabetic retinopathy) را تأیید کرد و در ۲۰۲۶، بیش از ۹۰۰ دستگاه AI توسط FDA cleared شده‌اند. شرکت‌های دارویی بزرگ (Pfizer، Roche، Novartis) data science team های ۵۰۰+ نفری دارند. استارتاپ‌های digital health مثل Tempus، Flatiron، Komodo Health بازار ۱۰میلیارد دلاری ایجاد کرده‌اند. در طرف دیگر، payer ها (UnitedHealth، Anthem) داده‌های claims برای ۱۰۰میلیون نفر دارند و از ML برای risk scoring و utilization استفاده می‌کنند. در ۲۰۲۶، با ظهور foundation models پزشکی (Med-PaLM 3، GPT-Health) و generative AI در drug discovery، تقاضا برای health data scientist های واقعاً ماهر بسیار بیشتر از عرضه است.

چه چیزی می‌سازید؟

مثال‌های واقعی از خروجی کار یک دانشمند داده‌های سلامت

📈

Clinical Risk Prediction Model

Epic Sepsis Model یا Mayo Clinic's AF prediction — مدلی که در EHR embed شده و risk score real-time به clinician می‌دهد تا مداخله زودهنگام صورت گیرد.

🎗️

Survival Model برای Oncology

Flatiron Health مدل‌های survival برای پیش‌بینی outcome در lung cancer می‌سازد که توسط oncologist ها برای انتخاب درمان استفاده می‌شود و در FDA submission برای drug approval استفاده می‌گردد.

🧠

Medical Imaging Classifier

Aidoc برای تشخیص خونریزی مغزی در CT scan ها مدل CNN ساخته که در ۹۰۰+ بیمارستان deployed است و در حوادث زمان به تشخیص را از ۱ ساعت به ۵ دقیقه کاهش داده.

📊

Real-World Evidence Study

تیم RWE در Pfizer مطالعه observational برای effectiveness یک واکسن جدید روی ۱۰میلیون patient claim انجام می‌دهد تا evidence برای FDA و reimbursement تهیه کند.

💊

Drug Discovery Model

Recursion Pharmaceuticals با ML روی imaging داده‌های cell، compound های نویدبخش را شناسایی می‌کند — کاهش زمان discovery از ۵ سال به ۱ سال.

⚖️

Health Equity Audit

Boston Medical Center model های ML شان را برای bias در race/ethnicity audit می‌کنند و گزارش می‌دهند که خطای false negative در Black patients ۳۰٪ بیشتر است — منجر به recalibration می‌شود.

تخصص‌های مختلف دانشمند داده‌های سلامت

این شغل یک عنوان واحد نیست — مسیرهای تخصصی متعددی دارد

🎗️

Oncology و Real-World Evidence

Oncology & Real-World Evidence

تخصص در survival analysis و observational studies برای cancer — کارفرماهای اصلی: Flatiron، Tempus، Pfizer، Roche.

🧠

Medical Imaging AI

Medical Imaging AI

تخصص در deep learning روی X-ray، CT، MRI، pathology slides — کارفرماهای اصلی: Aidoc، PathAI، Tempus، Roche.

💊

Drug Discovery و Pharma R&D

Drug Discovery & Pharma R&D

ترکیب ML با شیمی محاسباتی و biology — کارفرماهای اصلی: Recursion، Insitro، Exscientia، Pfizer.

📊

Payer Analytics و Population Health

Payer Analytics & Population Health

تمرکز روی claims data، risk adjustment، utilization management — کارفرماهای اصلی: UnitedHealth، Optum، Anthem.

Digital Therapeutics و Wearables

Digital Therapeutics & Wearables

تحلیل sensor data از Apple Watch، Fitbit، CGM — کارفرماهای اصلی: Apple Health، Dexcom، Pear Therapeutics.

تفاوت با شغل‌های مشابه

کجا این شغل تمام می‌شود و شغل دیگری شروع می‌شود؟

دانشمند دادهData Scientist

Data Scientist عمومی روی هر داده‌ای کار می‌کند (e-commerce، marketing، finance). Health Data Scientist تخصص عمیق در domain پزشکی دارد — clinical workflow، coding standards (ICD، CPT)، regulation، و biostatistics. این تخصص تقاضا و حقوق را به‌شدت افزایش می‌دهد.

آماردان زیستیBiostatistician

Biostatistician سنتی روی RCT design و آنالیز classical تمرکز می‌کند، معمولاً با SAS و R. Health Data Scientist همان مهارت‌ها را دارد ولی + ML، deep learning، و کار با داده‌های بزرگ‌تر unstructured. در ۲۰۲۶، مرز این دو نقش در حال محو شدن است.

بیوانفورماتیکBioinformatician

Bioinformatician روی داده‌های مولکولی (genomics، proteomics) و pipeline های توالی‌یابی تمرکز می‌کند. Health Data Scientist روی phenotypic data (clinical، claims، imaging). هر دو ML استفاده می‌کنند اما با dataset های متفاوت و سؤالات متفاوت.

متخصص انفورماتیک بالینیClinical Informatician

Clinical Informatician معمولاً پزشک یا پرستار است که روی EHR design و workflow کار می‌کند. Health Data Scientist روی مدل‌سازی و تحلیل تمرکز می‌کند. در تیم‌های موفق، این دو نقش بسیار closely کار می‌کنند.

تأثیر در صنایع مختلف

دانشمند داده‌های سلامت در همه صنایع مشغول به کار است — نه فقط شرکت‌های فناوری

💊

Pharma & Biotech

Pfizer، Roche، Novartis، Merck — تیم‌های ۵۰۰+ نفری data science. حقوق Principal به ۳۰۰هزار+ می‌رسد، با bonus بسیار قابل‌توجه از موفقیت drug.

🏥

Hospital Systems

Mayo Clinic، Cleveland Clinic، Kaiser Permanente — استفاده ML برای risk stratification، sepsis prediction و OR scheduling.

🚀

Digital Health Startups

Tempus، Flatiron، Verily، Komodo — رشد سریع، equity بزرگ، نوآوری بالا. ریسک بیشتر اما potential upside زیاد.

📋

Health Insurance / Payers

UnitedHealth، Anthem، Humana — حجم claims data بزرگ، نقش‌های stable با حقوق رقابتی.

🩺

Medical Devices

Medtronic، Boston Scientific، Edwards — ادغام AI در دستگاه‌های implantable و monitoring. مسیر FDA حیاتی.

🔬

Diagnostics & Imaging

Aidoc، PathAI، Paige، Lunit — AI cleared توسط FDA که در radiology و pathology deployed است.

🌍

Public Health & Government

CDC، NIH، WHO — مطالعات population-level، pandemic response، epidemiological surveillance.

🎓

Academic Medical Centers

Stanford، Harvard، Hopkins، UCSF — research-focused. حقوق کمتر اما dataset های منحصر به فرد و publication رزومه‌ساز.

تصورات غلط رایج

قبل از تصمیم‌گیری، این باورهای اشتباه را بشناسید

ML در healthcare همان ML در tech است

اشتباه. در tech، یک false positive در recommendation engine یعنی یک کلیک اضافی. در healthcare، یعنی unnecessary biopsy یا missed cancer. باید فهم عمیقی از calibration، sensitivity/specificity و clinical workflow داشته باشید. accuracy فقط شروع کار است.

Deep learning بهترین راه حل برای داده‌های پزشکی است

در imaging بله — CNN ها بسیار قوی هستند. اما برای tabular EHR data، logistic regression و gradient boosting اغلب بهتر یا برابر deep learning عمل می‌کنند و interpretable تر هستند. بهترین health data scientist ها می‌دانند کی deep learning واقعاً لازم است.

Causation و correlation در healthcare همانند هستند

این بزرگ‌ترین اشتباه است. اکثر مطالعات observational روی correlation تمرکز می‌کنند و claim علیت می‌کنند. باید causal inference (DAG، propensity scores، instrumental variables) را به‌خوبی بفهمید، وگرنه conclusion های خطرناک می‌گیرید.

MIMIC-IV یک dataset 'تمیز' است

هیچ dataset بالینی واقعاً تمیز نیست. MIMIC-IV هم پر از missing data، coding errors و selection bias است (فقط از یک hospital آمده). یاد گرفتن نحوه navigate این مشکلات نیمی از کار است.

PhD برای ورود به این حوزه ضروری است

PhD کمک می‌کند به‌خصوص برای research-heavy نقش‌ها، اما الزامی نیست. خیلی از senior data scientist های موفق در شرکت‌های مثل Flatiron و Tempus با Master درجه دارند. portfolio و publication مهم‌تر از مدرک است.

یک روز کاری واقعی

در هر سطح روز کاری چه شکلی است؟

جونیور (۰–۲ سال)

بیشتر روز را روی data cleaning، descriptive analysis و کمک به senior ها در مطالعات بزرگ می‌گذرانید. شروع به یادگیری clinical workflow و آشنایی با پزشکان تیم.

  • صبح: تمیز کردن یک extract جدید از EHR — handling missing data و outliers
  • بلاک اول: اجرای descriptive statistics برای cohort study که senior رهبری می‌کند
  • بعد از ناهار: meeting با clinical fellow برای فهمیدن معنای یک ICD code خاص
  • عصر: code review روی PR یک تیمی روی data pipeline
  • پایان روز: مطالعه ۲ paper از NEJM AI برای آماده شدن برای journal club هفته

Senior (۲–۵ سال)

طراحی مطالعات کامل به شما واگذار می‌شود. شروع به اولین نویسنده در publication و رهبری projects چند ماه. mentor جونیورها و interaction مستقیم با clinician ها.

  • صبح: نوشتن statistical analysis plan برای مطالعه جدید
  • جلسه با clinical lead: تعریف primary endpoint و subgroup analysis
  • بلاک کدنویسی: fit کردن یک Cox model با competing risks در R
  • بعد از ناهار: review draft manuscript که با co-author نوشته‌اید — revision برای resubmission به Lancet
  • عصر: presentation به internal review committee درباره مدل ML جدید و bias analysis

Principal / Director (۵+ سال)

تمرکز روی استراتژی، رهبری چند تیم، و interaction با FDA و executive leadership. کمتر کد می‌نویسید اما تصمیم‌هایتان روی drug development و patient care اثر دارد.

  • صبح: مرور regulatory dossier قبل از submission به FDA
  • جلسه با CMO: مذاکره درباره استراتژی RWE برای drug جدید
  • تصمیم strategic: انتخاب بین داخلی ساختن یا outsource کردن یک پلتفرم data — اثر چند‌میلیون دلاری
  • بعد از ناهار: keynote prep برای ASCO یا HIMSS
  • عصر: ۱:۱ با هر یک از ۴ team lead و آماده‌سازی gateway review برای board

مسئولیت‌ها و وظایف

مسئولیت‌های اصلی

وظایف روزانه و مهارت‌های مورد نیاز در این شغل

فنی
  • طراحی و اجرای مطالعات آماری روی داده‌های بالینی، claims و real-world
  • ساخت مدل‌های پیش‌بینی برای outcome های بیماری (mortality، readmission، progression)
  • تحلیل survival و time-to-event برای مطالعات oncology و chronic disease
  • Validate مدل‌ها روی dataset های external و گزارش fairness در subpopulations
  • تنظیم documentation برای regulatory submission (FDA، EMA، MHRA)
مهارت نرم
  • همکاری با clinician ها برای تعریف research question و interpretation نتایج
  • نوشتن مقاله علمی در ژورنال‌های پزشکی (NEJM، Lancet، JAMA، Nature Medicine)
  • آموزش clinician ها و executives درباره نتایج آماری و محدودیت‌های مدل

مهارت‌های مورد نیاز

مهارت‌های فنی، نرم و حوزه‌ای که یک دانشمند داده‌های سلامت موفق به آن‌ها نیاز دارد

آمار و روش‌شناسی

آمار استنباطیضروری

Hypothesis testing، confidence intervals، p-values، multiple comparison correction

Survival Analysisضروری

Kaplan-Meier، Cox PH، competing risks، time-varying covariates

Causal Inferenceضروری

DAGs، propensity scores، IPW، instrumental variables، DiD

Bayesian Statisticsمهم

Hierarchical models، MCMC، Bayesian decision theory

Mixed Modelsمهم

Random effects برای longitudinal data و clustered designs

Clinical Trial Designمهم

Power analysis، randomization، interim analysis، adaptive designs

Health Economicsمفید

Cost-effectiveness analysis، QALY، budget impact

مهارت‌های فنی و ML

Pythonضروری

pandas، scikit-learn، PyTorch، statsmodels

Rضروری

tidyverse، survival، lme4، tidymodels

SQLضروری

Query کردن داده‌های EHR و claims در warehouse

Medical Imaging MLمهم

CNN، transfer learning، MONAI، DICOM

NLP بالینیمهم

Named entity recognition روی clinical notes (cTAKES، MedSpaCy)

Time-seriesمفید

ECG، vital signs، wearable data analysis

MLOps Basicsمفید

Model versioning، monitoring drift در clinical setting

دانش domain و soft skills

Clinical Workflowضروری

فهم نحوه کار پزشک، پرستار و EHR در bedside

Medical Codingضروری

ICD-10، CPT، LOINC، SNOMED، RxNorm

Regulatory Knowledgeمهم

FDA، EMA، HIPAA، GDPR در healthcare

Scientific Writingمهم

نوشتن manuscript برای ژورنال‌های پزشکی و grant writing

Cross-functional Communicationضروری

ترجمه آمار به زبان پزشکان و executives

Ethics & Equityمهم

Fairness audits، disparate impact، informed consent

ضروری — بدون آن نمی‌توان وارد بازار کار شدمهم — تفاوت بین جونیور و میانیمفید — مزیت رقابتی

نقشه راه و مسیر آموزشی

نقشه راه تبدیل شدن به دانشمند داده‌های سلامت

این مسیر گام به گام شما را از صفر تا حرفه‌ای هدایت می‌کند.

1

آمار، احتمال و آمار زیستی

⏱️ ۳ تا ۴ ماه

ساختار آماری قوی پایه هر کار جدی در healthcare است — بدون آن، مدل‌های ML در محیط بالینی قابل اعتماد نیستند

Probability & StatisticsHypothesis TestingSurvival AnalysisCausal Inference BasicsLinear & Logistic RegressionBayesian Thinking
2

Python، R و Data Wrangling پزشکی

⏱️ ۲ تا ۳ ماه

تسلط بر Python (pandas، scikit-learn) و R (tidyverse، survival) — هر دو در healthcare data science رایج هستند

Python (pandas, scikit-learn)R (tidyverse, survival)SQL برای EHR DataTidy Data PrinciplesReproducible Research (R Markdown / Jupyter)Git & Version Control
3

Clinical Data Standards و EHR

⏱️ ۲ تا ۳ ماه

آشنایی با ساختار داده‌های بالینی واقعی — FHIR، OMOP، ICD، LOINC، SNOMED — که زبان مشترک healthcare است

HL7 FHIROMOP Common Data ModelICD-10 / SNOMED / LOINCClaims Data (CPT, HCPCS)MIMIC-IV DatasetDe-identification & HIPAA
4

Machine Learning بالینی و Medical Imaging

⏱️ ۴ تا ۶ ماه

ساخت مدل‌های پیش‌بینی بالینی، آشنایی با medical imaging (X-ray، CT، MRI) و چالش‌های خاص healthcare AI

Predictive Modeling for Clinical OutcomesImbalanced Data & CalibrationSurvival Models (Cox, RSF)Deep Learning for Medical ImagingTime-series for Vital SignsModel Fairness در Healthcare
5

Regulation، Clinical Validation و Real-World Deployment

⏱️ مداوم

یاد گرفتن نحوه validation بالینی، مسیر FDA، GDPR و HIPAA، و طراحی RCT برای evaluation AI tool ها

FDA Pathway برای SaMDClinical Trial DesignReal-World Evidence (RWE)Health Economics & Outcomes ResearchCausal Inference پیشرفتهBias & Equity Audits

ابزارها و استک فنی

ابزارهایی که هر مهندس AI باید بشناسد، دسته‌بندی‌شده بر اساس اولویت

زبان و محیط تحلیل

Python

زبان غالب برای ML پزشکی — pandas، scikit-learn، PyTorch

ضروری
R

زبان استاندارد آمار زیستی — survival، lme4، tidymodels

ضروری
Jupyter / R Markdown

ابزار اصلی reproducible research در علم پزشکی

ضروری
Stata / SAS

هنوز در pharma و epidemiology رایج هستند — مزیت در نقش‌های sponsor

مفید

Clinical Data و EHR

MIMIC-IV

بزرگ‌ترین dataset بالینی open — استاندارد research در ICU data

ضروری
OHDSI / ATLAS

platform open-source برای cohort analysis روی OMOP CDM

مفید
FHIR Server (HAPI)

reference implementation از HL7 FHIR برای interoperability

مفید
PhysioNet

بزرگ‌ترین repository داده‌های signal و time-series پزشکی

مفید

Machine Learning و Imaging

PyTorch

framework غالب deep learning در research پزشکی

ضروری
MONAI

framework PyTorch-based اختصاصی medical imaging — توسط NVIDIA و KCL

مفید
scikit-survival

بهترین library برای survival analysis در Python

مفید
lifelines

library محبوب Python برای Cox، Kaplan-Meier و survival models

مفید

Visualization و Reporting

ggplot2

استاندارد طلایی visualization در R — مخصوصاً برای publication

مفید
Plotly / Dash

ساخت dashboard های interactive برای bedside و clinician tools

مفید
Shiny

اپ‌های R interactive — رایج در شرکت‌های pharma برای reporting داخلی

مفید
Tableau

BI tool غالب در سیستم‌های بیمارستانی و health insurance

مفید
ضروری — باید یاد بگیریدمفید — ارزش یادگیری داردپیشرفته — برای سطوح ارشد

مسیر پیشرفت شغلی

از جونیور تا Staff Engineer — چه مهارت‌هایی نیاز دارید و چه درآمدی انتظار داشته باشید

Junior Health Data Scientist

۰ تا ۲ سال

~$105K

میانگین سالانه (آمریکا)

تمیز کردن و آماده‌سازی داده‌های بالینی، اجرای تحلیل‌های آماری مشخص، کمک به نوشتن manuscript ها

Python/RSQLStatisticsClinical Data BasicsEHR Schema

Senior Health Data Scientist

۲ تا ۵ سال

~$165K

میانگین سالانه (آمریکا)

طراحی مطالعات، ساخت مدل‌های پیش‌بینی, همکاری مستقیم با clinician ها، اولین نویسنده در publication

Survival AnalysisCausal InferenceML ModelingDomain Knowledge (یک بیماری خاص)Communication

Principal / Staff Health Data Scientist

۵ تا ۸ سال

~$240K

میانگین سالانه (آمریکا)

رهبری چند پروژه، interaction با FDA، تعریف research agenda، mentorship

Clinical Trial DesignRegulatory StrategyReal-World EvidenceCross-functional LeadershipPublishing in NEJM/Lancet

Director / VP Data Science (Healthcare)

۸+ سال

~$380K

میانگین سالانه (آمریکا)

تعیین استراتژی AI شرکت pharma یا digital health، ارائه به board، نمایندگی در FDA و EMA

Strategic VisionP&L OwnershipRegulatory AffairsExecutive CommunicationM&A Diligence

چالش‌ها و جنبه‌های منفی

واقعیت‌هایی که کمتر در آگهی‌های شغلی می‌بینید — قبل از ورود بدانید

Missing Data و Selection Bias

تحقیقاتی

داده‌های EHR ذاتاً missing و biased هستند — بیمارانی که بیشتر visit دارند داده‌های بیشتری دارند. multiple imputation، sensitivity analysis و awareness از selection mechanism ضروری است.

Regulatory Complexity

شرکت بزرگ

یک مدل ساده می‌تواند یک سال در فرایند FDA باشد. باید validation plan ها، 510(k) submission و post-market surveillance را بشناسید. این یعنی هر مدلی نمی‌توان به production فرستاد.

Privacy و HIPAA

عمومی

هر تصمیم در نحوه storage، sharing و publication داده‌های بالینی legal implications دارد. de-identification ساده کافی نیست — re-identification attacks ممکن است. تخصص در privacy-preserving ML ارزشمند است.

Model Drift و Clinical Validity

شرکت بزرگ

یک مدل که در ۲۰۲۳ ساخته شده می‌تواند در ۲۰۲۶ به دلیل تغییر در coding یا workflow accurate نباشد. monitoring مستمر و recalibration ضروری است — این بسیار سخت‌تر از monitoring در tech generic است.

Communication با Clinician ها

عمومی

پزشکان به‌حق نسبت به ML skeptical هستند — جان بیمار در میان است. باید بتوانید مدل را ساده توضیح دهید، محدودیت‌ها را بپذیرید و trust بسازید. بدون این، بهترین مدل هم در bedside استفاده نمی‌شود.

Imbalanced و Rare Outcomes

تحقیقاتی

بسیاری از outcome های مهم rare هستند (mortality، rare disease). accuracy گمراه‌کننده است. باید روی calibration، Brier score، Net Reclassification Improvement و decision curve analysis تسلط داشته باشید.

حقوق و بازار کار جهانی

حقوق جهانی دانشمند داده‌های سلامت

میانگین حقوق سالانه بر اساس تجربه در کشورهای مختلف

کشورمیانهارز
🇯🇵ژاپن
¥15,500,000JPY
🇮🇳هند
₹4,500,000INR
🇦🇪امارات
AED 290,000AED
🇺🇸آمریکا
$240,000USD
🇨🇦کانادا
CA$180,000CAD
🇨🇭سوئیس
CHF 180,000CHF
🇸🇬سنگاپور
SGD 170,000SGD
🇦🇺استرالیا
A$170,000AUD
🇬🇧انگلستان
£125,000GBP
🇩🇪آلمان
€105,000EUR

* ارقام سالانه و تقریبی هستند و بر اساس میانگین بازار در سال ۲۰۲۵ محاسبه شده‌اند.

چگونه از صفر شروع کنیم

برنامه گام‌به‌گام برای ورود به مهندسی هوش مصنوعی

ماه ۱: Refresh آماری و Domain

مرور Survival Analysis، Causal Inference. مطالعه ۲۰ paper از NEJM AI و Lancet Digital Health.

ماه ۲: MIMIC-IV و EHR Data

اخذ credential PhysioNet برای MIMIC-IV، تکمیل tutorial ها، یک پروژه descriptive روی sepsis cohort.

ماه ۳: یک مدل ML بالینی

ساخت یک predictive model برای ICU mortality. focus روی calibration و subgroup analysis.

ماه ۴: Medical Imaging یا NLP بالینی

بر اساس علاقه، یا CNN روی X-ray یا NER روی clinical notes. تجربه با MONAI یا MedSpaCy.

ماه ۵: Causal Inference و Publication

یک observational study با propensity matching، نوشتن یک case report یا short paper.

ماه ۶: Apply و Network

GitHub portfolio آماده، LinkedIn optimized، apply به ۲۰+ position. حضور در یک conference (HIMSS، AMIA).

پروژه‌های پیشنهادی برای رزومه

پیش‌بینی mortality در ICU با MIMIC-IV

متوسط

با dataset عمومی MIMIC-IV، یک مدل logistic regression و یک مدل gradient boosting برای پیش‌بینی mortality ۲۴ ساعته بسازید. منحنی ROC، calibration و SHAP feature importance را گزارش کنید.

PythonMIMIC-IVscikit-learnXGBoostSHAP
زمان تخمینی: ۴ هفته

Survival Analysis روی Cancer Registry

متوسط

روی dataset SEER (cancer registry آمریکا)، یک Cox model و یک Random Survival Forest برای پیش‌بینی overall survival بسازید. مقایسه discrimination (C-index) و calibration بین مدل‌ها.

Rsurvivalscikit-survivalSEER Data
زمان تخمینی: ۵ هفته

Chest X-ray Classifier (Pneumonia Detection)

متوسط

با dataset Kaggle Chest X-Ray، یک CNN در PyTorch train کنید برای تشخیص pneumonia. data augmentation، transfer learning از ImageNet، و تحلیل failure cases.

PyTorchMONAICNNTransfer Learning
زمان تخمینی: ۶ هفته

Causal Inference: تأثیر یک درمان روی outcome

پیشرفته

با dataset observational، اثر یک دارو روی outcome را با propensity score matching، IPW و double-robust estimation تخمین بزنید. مقایسه با naive regression.

RMatchIttmleCausal Inference
زمان تخمینی: ۷ هفته

FHIR-based Clinical Dashboard

پیشرفته

یک dashboard بسازید که از FHIR server اطلاعات بیماران را بکشد و risk score (مثلاً readmission) را real-time محاسبه کند. این پروژه ترکیب data engineering + ML + clinical informatics است.

PythonFHIR ClientFastAPIStreamlitscikit-learn
زمان تخمینی: ۱۰ هفته

مثال‌های واقعی و Case Studies

داستان‌های واقعی از مهندسانی که در این حوزه تأثیرگذار بوده‌اند

E

Eric Topol

پیشینه

Director مؤسسه Scripps Research Translational Institute، cardiologist و یکی از تأثیرگذارترین صداهای healthcare AI. نویسنده ۳ کتاب پرفروش از جمله 'Deep Medicine'.

دستاورد

Topol سال‌ها قبل از mainstream شدن AI در healthcare، روی potential آن نوشت و research کرد. مطالعات او روی wearables و digital health استاندارد صنعت را تعریف کرده‌اند. کتاب 'Deep Medicine' او در ۲۰۱۹ مرجع اصلی برای نحوه ادغام AI با practice پزشکی شد. در ۲۰۲۰ pandemic رهبری توصیه‌های mass-screening با AI را داشت و در Twitter یکی از معتبرترین منابع healthcare data science است.

درس کلیدی

ترکیب expertise بالینی واقعی با درک عمیق فنی، جایگاهی منحصر به فرد ایجاد می‌کند. Topol نه صرفاً پزشک است نه data scientist — او در تقاطع این دو ایستاده و این جایگاه است که تأثیر فوق‌العاده اش را ممکن کرده. برای کسی که از پزشکی به data science می‌آید، این مسیر بسیار قابل تقلید است.

R

Regina Barzilay

پیشینه

MIT Distinguished Professor، AI Faculty Lead در Jameel Clinic، برنده Squirrel AI Award (معادل Nobel در AI). متخصص NLP و سپس focus روی oncology AI پس از شخصی experience cancer.

دستاورد

Barzilay پس از تشخیص cancer شخصی، تمام تمرکز research اش را روی healthcare AI گذاشت. مدل MIRAI او برای پیش‌بینی breast cancer از mammogram سال‌ها قبل از موعد در حالی‌که radiologist ها چیزی نمی‌بینند، یکی از مهم‌ترین دستاوردهای دهه است — حالا در trial در بیمارستان‌های متعدد جهان است. در ۲۰۲۰ Squirrel AI Award را گرفت و در ۲۰۲۲ National Academy of Engineering عضو شد.

درس کلیدی

motivation شخصی (cancer شخصی) می‌تواند موتور علمی فوق‌العاده‌ای باشد. Barzilay نشان داد که یک researcher متمرکز روی یک مشکل می‌تواند world-class impact داشته باشد، حتی اگر background اصلی او (NLP) متفاوت بوده. عمق technical + domain focus = breakthrough.

S

Suchi Saria

پیشینه

John C. Malone Associate Professor در Johns Hopkins، بنیان‌گذار و CEO Bayesian Health. PhD از Stanford در یادگیری ماشین، focus روی causal ML و ICU.

دستاورد

Saria یکی از معروف‌ترین researcher های sepsis prediction است — مدل TREWS او که در Johns Hopkins deployed شده، در یک randomized trial نشان داد mortality از sepsis را ۲۰٪ کاهش می‌دهد. در ۲۰۲۲ شرکت Bayesian Health را بنیان گذاشت که این فناوری را به ۱۵+ سیستم بیمارستانی برده است. Forbes 30 Under 30 و MIT Innovators Under 35 بوده. در ۲۰۲۳ یکی از Top 10 Women in AI طبق Forbes.

درس کلیدی

research دانشگاهی می‌تواند به startup با impact واقعی تبدیل شود. Saria به جای maximize کردن publication، روی deployment واقعی در ICU تمرکز کرد. در نتیجه، تأثیر کارش روی نجات جان واقعی بوده — این چیزی است که در یک شرکت بزرگ یا paper-only research نمی‌توانست انجام دهد.

نمونه آگهی استخدام واقعی + تحلیل

یک آگهی واقعی از شرکت فعال در حال استخدام، با تحلیل هر بخش

Senior Quantitative Scientist - Real-World Evidence

Flatiron Healthنیویورک / Remote (US)2025-09
مشاهده آگهی اصلی

تحلیل نیازمندی‌ها

EN

PhD in epidemiology, biostatistics, statistics, or related field

برای نقش‌های RWE در Flatiron، PhD تقریباً ضروری است. سابقه publication و research training یک تفاوت بزرگ ایجاد می‌کند. Master ها معمولاً در نقش‌های associate scientist قرار می‌گیرند.

ضروری
EN

5+ years experience analyzing real-world data, preferably oncology

Flatiron تمرکز خاص روی oncology دارد. domain expertise در یک حوزه (cancer، cardiology، etc.) از general data science experience ارزشمندتر است. کسانی که از academic medicine می‌آیند مزیت دارند.

ضروری
EN

Strong programming skills in R or Python

Flatiron heavily R استفاده می‌کند برای biostatistical work، اما Python هم در ML pipelines استفاده می‌شود. تسلط بر یکی و آشنایی با دیگری ایده‌آل است.

ضروری
EN

Experience with causal inference methods (propensity scores, instrumental variables)

این core skill برای RWE است. باید بتوانید در مصاحبه کاملاً confounding، collider bias و propensity score weighting را discuss کنید. توصیه می‌شود کتاب Hernan را خوانده باشید.

ضروری
EN

Track record of peer-reviewed publications

Flatiron value می‌دهد به scientific rigor. حداقل ۳-۵ first-author paper در ژورنال‌های respected ضروری است. این از academic background می‌آید معمولاً.

ضروری
EN

Excellent written and verbal communication skills

علاوه بر manuscript، باید بتوانید findings را به clinician ها، regulator ها و pharma sponsors توضیح دهید. کار با sponsor (مثل Pfizer) بخش بزرگی از job است.

مهم

تحلیل مسئولیت‌ها

EN

Design and execute observational studies using Flatiron's curated EHR-derived data

Flatiron یکی از بزرگ‌ترین EHR-derived oncology dataset ها را در دنیا دارد (۳+ میلیون patient). شما این دارایی منحصر به فرد را برای پاسخ به سؤالات clinical critical استفاده می‌کنید.

EN

Collaborate with pharma sponsors on real-world evidence packages

بسیاری از pharma ها Flatiron را برای RWE استخدام می‌کنند. یعنی شما مستقیماً با Pfizer، Roche، Novartis در پروژه‌های میلیون دلاری کار می‌کنید. communication skills critical است.

EN

Publish findings in peer-reviewed journals and present at conferences

publication بخشی از job description است، نه side activity. Flatiron معروف به scientific output است. باید برنامه‌ای برای contribute به literature داشته باشید.

EN

Contribute to methodological development for RWE

Flatiron در forefront methodology RWE است. اگر علاقه به method development دارید، اینجا space برای آن وجود دارد. این از Roche-Flatiron deal بسیار strategic است.

نتیجه‌گیری کلی

Flatiron یکی از prestigious ترین places برای کار روی RWE oncology است. compensation strong (Senior $200-280K)، benefits عالی، و مهم‌تر — dataset منحصر به فرد که در هیچ‌جا نمی‌توانید کار کنید. bar علمی بسیار بالاست. توصیه: تسلط واقعی روی causal inference، خواندن Hernán & Robins، و سابقه publication. اگر oncology domain expertise دارید، حتماً apply کنید.

آینده و روندها

پیش‌بینی ۵–۱۰ ساله و مهارت‌هایی که باید یاد بگیرید

رشد ۳۳.۴٪ سالانه (CAGR) تا ۲۰۳۰ — تقاضا برای Health Data Scientists از ۸۵ هزار به ۳۲۰ هزار شغل در جهان می‌رسد

منبع: BLS Occupational Outlook 2024 / Grand View Research Healthcare AI Market 2025

مهارت‌های نوظهور که باید یاد بگیرید

Foundation Models پزشکی (Med-PaLM، GPT-Health، MedGemini)Multimodal Learning (combining imaging + clinical + genomics)Privacy-Preserving ML (Federated Learning، Differential Privacy)Causal Machine Learning (Double ML، CATE estimation)Synthetic Patient Data GenerationReal-World Evidence با LLM-augmented chart abstractionAI Safety و Fairness Audits در bedside

پیش‌بینی‌های آینده

2026

بیش از ۱۵۰۰ AI device توسط FDA cleared می‌شود — Health Data Scientist های آشنا با FDA pathway حقوقشان ۳۰٪ بیشتر می‌شود

2027

Foundation models پزشکی (Med-PaLM 4، GPT-MedHealth) به general task standard در شرکت‌های دارویی تبدیل می‌شوند

2028

Real-World Evidence سهم ۴۰٪ از regulatory submission ها را می‌گیرد — تخصص RWE یکی از top-paying specialties می‌شود

2030

حقوق Director Health Data Science در pharma به ۵۰۰هزار دلار+ کل compensation می‌رسد — به دلیل critical-path بودن AI در drug development

ریسک‌های واقعی

ریسک اصلی AI نیست — برعکس، AI تقاضا را افزایش می‌دهد. ریسک واقعی outsourcing و commoditization در حوزه‌های low-skill (chart abstraction، descriptive analytics) است که با LLM و global talent در حال جابجایی هستند. کسانی که فقط basic statistics و SQL بلدند آسیب‌پذیرند. کسانی که در causal inference، domain depth و communication با clinician ها قوی هستند، demand بسیار بیشتر می‌شود. ریسک دیگر: regulatory friction — اگر FDA stricter شود، deploy کردن مدل سخت‌تر می‌شود، اما این هم opportunity برای متخصصان regulatory ایجاد می‌کند.

ویدیوهای آموزشی

برای راهنمایی شخصی‌سازی‌شده مشاوره بگیرید