دانشمند دادههای سلامت
Health Data Scientist
دانشمند دادههای سلامت (Health Data Scientist) متخصصی است که با استفاده از دادههای بالینی، ژنومی، تصویربرداری پزشکی و claims، مدلهای آماری و ML میسازد تا تشخیص بیماری را بهبود دهد، outcomes را پیشبینی کند و درمان شخصیسازی شده ارائه دهد. این نقش در تقاطع پزشکی، آمار زیستی و یادگیری ماشین قرار دارد و یکی از پرتقاضاترین تخصصهای data science در دهه ۲۰۲۰ است. در ۲۰۲۶ با ظهور AI generative در drug discovery، ابزارهای FDA-cleared مبتنی بر deep learning و سهم رشد سالانه ۳۳٪ بازار healthcare AI، حقوق این نقش در شرکتهای pharma و digital health به ۲۵۰هزار+ دلار رسیده است.
مقدمه و تعریف شغل
دانشمند دادههای سلامت (Health Data Scientist) متخصصی است در تقاطع پزشکی، آمار و علم داده که با استفاده از دادههای بالینی (EHR، claims، imaging، genomics، wearable)، insight های قابل عمل برای بهبود سلامت ایجاد میکند. این نقش با data scientist معمولی تفاوت اساسی دارد: تصمیمها به جان انسان مربوط میشوند، دادهها regulated هستند (HIPAA، GDPR)، و مدلها باید قابل validation بالینی و معمولاً FDA approval باشند. به همین دلیل، حقوق و bar فنی این نقش در میان data science specialty ها در بالاترین رده قرار دارد.
تا اوایل ۲۰۱۰، تحلیل دادههای پزشکی عمدتاً در حوزه biostatistics سنتی و در departments پزشکی دانشگاهها انجام میشد. با ظهور ELectronic Health Records (EHR) بهشکل گسترده پس از HITECH Act 2009 در آمریکا، حجم دادههای ساختار یافته بالینی بهشدت افزایش یافت. در ۲۰۱۸، FDA اولین SaMD مبتنی بر AI (IDx-DR برای diabetic retinopathy) را تأیید کرد و در ۲۰۲۶، بیش از ۹۰۰ دستگاه AI توسط FDA cleared شدهاند. شرکتهای دارویی بزرگ (Pfizer، Roche، Novartis) data science team های ۵۰۰+ نفری دارند. استارتاپهای digital health مثل Tempus، Flatiron، Komodo Health بازار ۱۰میلیارد دلاری ایجاد کردهاند. در طرف دیگر، payer ها (UnitedHealth، Anthem) دادههای claims برای ۱۰۰میلیون نفر دارند و از ML برای risk scoring و utilization استفاده میکنند. در ۲۰۲۶، با ظهور foundation models پزشکی (Med-PaLM 3، GPT-Health) و generative AI در drug discovery، تقاضا برای health data scientist های واقعاً ماهر بسیار بیشتر از عرضه است.
چه چیزی میسازید؟
مثالهای واقعی از خروجی کار یک دانشمند دادههای سلامت
Clinical Risk Prediction Model
Epic Sepsis Model یا Mayo Clinic's AF prediction — مدلی که در EHR embed شده و risk score real-time به clinician میدهد تا مداخله زودهنگام صورت گیرد.
Survival Model برای Oncology
Flatiron Health مدلهای survival برای پیشبینی outcome در lung cancer میسازد که توسط oncologist ها برای انتخاب درمان استفاده میشود و در FDA submission برای drug approval استفاده میگردد.
Medical Imaging Classifier
Aidoc برای تشخیص خونریزی مغزی در CT scan ها مدل CNN ساخته که در ۹۰۰+ بیمارستان deployed است و در حوادث زمان به تشخیص را از ۱ ساعت به ۵ دقیقه کاهش داده.
Real-World Evidence Study
تیم RWE در Pfizer مطالعه observational برای effectiveness یک واکسن جدید روی ۱۰میلیون patient claim انجام میدهد تا evidence برای FDA و reimbursement تهیه کند.
Drug Discovery Model
Recursion Pharmaceuticals با ML روی imaging دادههای cell، compound های نویدبخش را شناسایی میکند — کاهش زمان discovery از ۵ سال به ۱ سال.
Health Equity Audit
Boston Medical Center model های ML شان را برای bias در race/ethnicity audit میکنند و گزارش میدهند که خطای false negative در Black patients ۳۰٪ بیشتر است — منجر به recalibration میشود.
تخصصهای مختلف دانشمند دادههای سلامت
این شغل یک عنوان واحد نیست — مسیرهای تخصصی متعددی دارد
Oncology و Real-World Evidence
Oncology & Real-World Evidence
تخصص در survival analysis و observational studies برای cancer — کارفرماهای اصلی: Flatiron، Tempus، Pfizer، Roche.
Medical Imaging AI
Medical Imaging AI
تخصص در deep learning روی X-ray، CT، MRI، pathology slides — کارفرماهای اصلی: Aidoc، PathAI، Tempus، Roche.
Drug Discovery و Pharma R&D
Drug Discovery & Pharma R&D
ترکیب ML با شیمی محاسباتی و biology — کارفرماهای اصلی: Recursion، Insitro، Exscientia، Pfizer.
Payer Analytics و Population Health
Payer Analytics & Population Health
تمرکز روی claims data، risk adjustment، utilization management — کارفرماهای اصلی: UnitedHealth، Optum، Anthem.
Digital Therapeutics و Wearables
Digital Therapeutics & Wearables
تحلیل sensor data از Apple Watch، Fitbit، CGM — کارفرماهای اصلی: Apple Health، Dexcom، Pear Therapeutics.
تفاوت با شغلهای مشابه
کجا این شغل تمام میشود و شغل دیگری شروع میشود؟
Data Scientist عمومی روی هر دادهای کار میکند (e-commerce، marketing، finance). Health Data Scientist تخصص عمیق در domain پزشکی دارد — clinical workflow، coding standards (ICD، CPT)، regulation، و biostatistics. این تخصص تقاضا و حقوق را بهشدت افزایش میدهد.
Biostatistician سنتی روی RCT design و آنالیز classical تمرکز میکند، معمولاً با SAS و R. Health Data Scientist همان مهارتها را دارد ولی + ML، deep learning، و کار با دادههای بزرگتر unstructured. در ۲۰۲۶، مرز این دو نقش در حال محو شدن است.
Bioinformatician روی دادههای مولکولی (genomics، proteomics) و pipeline های توالییابی تمرکز میکند. Health Data Scientist روی phenotypic data (clinical، claims، imaging). هر دو ML استفاده میکنند اما با dataset های متفاوت و سؤالات متفاوت.
Clinical Informatician معمولاً پزشک یا پرستار است که روی EHR design و workflow کار میکند. Health Data Scientist روی مدلسازی و تحلیل تمرکز میکند. در تیمهای موفق، این دو نقش بسیار closely کار میکنند.
تأثیر در صنایع مختلف
دانشمند دادههای سلامت در همه صنایع مشغول به کار است — نه فقط شرکتهای فناوری
Pharma & Biotech
Pfizer، Roche، Novartis، Merck — تیمهای ۵۰۰+ نفری data science. حقوق Principal به ۳۰۰هزار+ میرسد، با bonus بسیار قابلتوجه از موفقیت drug.
Hospital Systems
Mayo Clinic، Cleveland Clinic، Kaiser Permanente — استفاده ML برای risk stratification، sepsis prediction و OR scheduling.
Digital Health Startups
Tempus، Flatiron، Verily، Komodo — رشد سریع، equity بزرگ، نوآوری بالا. ریسک بیشتر اما potential upside زیاد.
Health Insurance / Payers
UnitedHealth، Anthem، Humana — حجم claims data بزرگ، نقشهای stable با حقوق رقابتی.
Medical Devices
Medtronic، Boston Scientific، Edwards — ادغام AI در دستگاههای implantable و monitoring. مسیر FDA حیاتی.
Diagnostics & Imaging
Aidoc، PathAI، Paige، Lunit — AI cleared توسط FDA که در radiology و pathology deployed است.
Public Health & Government
CDC، NIH، WHO — مطالعات population-level، pandemic response، epidemiological surveillance.
Academic Medical Centers
Stanford، Harvard، Hopkins، UCSF — research-focused. حقوق کمتر اما dataset های منحصر به فرد و publication رزومهساز.
تصورات غلط رایج
قبل از تصمیمگیری، این باورهای اشتباه را بشناسید
ML در healthcare همان ML در tech است
اشتباه. در tech، یک false positive در recommendation engine یعنی یک کلیک اضافی. در healthcare، یعنی unnecessary biopsy یا missed cancer. باید فهم عمیقی از calibration، sensitivity/specificity و clinical workflow داشته باشید. accuracy فقط شروع کار است.
Deep learning بهترین راه حل برای دادههای پزشکی است
در imaging بله — CNN ها بسیار قوی هستند. اما برای tabular EHR data، logistic regression و gradient boosting اغلب بهتر یا برابر deep learning عمل میکنند و interpretable تر هستند. بهترین health data scientist ها میدانند کی deep learning واقعاً لازم است.
Causation و correlation در healthcare همانند هستند
این بزرگترین اشتباه است. اکثر مطالعات observational روی correlation تمرکز میکنند و claim علیت میکنند. باید causal inference (DAG، propensity scores، instrumental variables) را بهخوبی بفهمید، وگرنه conclusion های خطرناک میگیرید.
MIMIC-IV یک dataset 'تمیز' است
هیچ dataset بالینی واقعاً تمیز نیست. MIMIC-IV هم پر از missing data، coding errors و selection bias است (فقط از یک hospital آمده). یاد گرفتن نحوه navigate این مشکلات نیمی از کار است.
PhD برای ورود به این حوزه ضروری است
PhD کمک میکند بهخصوص برای research-heavy نقشها، اما الزامی نیست. خیلی از senior data scientist های موفق در شرکتهای مثل Flatiron و Tempus با Master درجه دارند. portfolio و publication مهمتر از مدرک است.
یک روز کاری واقعی
در هر سطح روز کاری چه شکلی است؟
جونیور (۰–۲ سال)
بیشتر روز را روی data cleaning، descriptive analysis و کمک به senior ها در مطالعات بزرگ میگذرانید. شروع به یادگیری clinical workflow و آشنایی با پزشکان تیم.
- ◆صبح: تمیز کردن یک extract جدید از EHR — handling missing data و outliers
- ◆بلاک اول: اجرای descriptive statistics برای cohort study که senior رهبری میکند
- ◆بعد از ناهار: meeting با clinical fellow برای فهمیدن معنای یک ICD code خاص
- ◆عصر: code review روی PR یک تیمی روی data pipeline
- ◆پایان روز: مطالعه ۲ paper از NEJM AI برای آماده شدن برای journal club هفته
Senior (۲–۵ سال)
طراحی مطالعات کامل به شما واگذار میشود. شروع به اولین نویسنده در publication و رهبری projects چند ماه. mentor جونیورها و interaction مستقیم با clinician ها.
- ◆صبح: نوشتن statistical analysis plan برای مطالعه جدید
- ◆جلسه با clinical lead: تعریف primary endpoint و subgroup analysis
- ◆بلاک کدنویسی: fit کردن یک Cox model با competing risks در R
- ◆بعد از ناهار: review draft manuscript که با co-author نوشتهاید — revision برای resubmission به Lancet
- ◆عصر: presentation به internal review committee درباره مدل ML جدید و bias analysis
Principal / Director (۵+ سال)
تمرکز روی استراتژی، رهبری چند تیم، و interaction با FDA و executive leadership. کمتر کد مینویسید اما تصمیمهایتان روی drug development و patient care اثر دارد.
- ◆صبح: مرور regulatory dossier قبل از submission به FDA
- ◆جلسه با CMO: مذاکره درباره استراتژی RWE برای drug جدید
- ◆تصمیم strategic: انتخاب بین داخلی ساختن یا outsource کردن یک پلتفرم data — اثر چندمیلیون دلاری
- ◆بعد از ناهار: keynote prep برای ASCO یا HIMSS
- ◆عصر: ۱:۱ با هر یک از ۴ team lead و آمادهسازی gateway review برای board
مسئولیتها و وظایف
مسئولیتهای اصلی
وظایف روزانه و مهارتهای مورد نیاز در این شغل
- ◈طراحی و اجرای مطالعات آماری روی دادههای بالینی، claims و real-world
- ◈ساخت مدلهای پیشبینی برای outcome های بیماری (mortality، readmission، progression)
- ◈تحلیل survival و time-to-event برای مطالعات oncology و chronic disease
- ◈Validate مدلها روی dataset های external و گزارش fairness در subpopulations
- ◈تنظیم documentation برای regulatory submission (FDA، EMA، MHRA)
- ◈همکاری با clinician ها برای تعریف research question و interpretation نتایج
- ◈نوشتن مقاله علمی در ژورنالهای پزشکی (NEJM، Lancet، JAMA، Nature Medicine)
- ◈آموزش clinician ها و executives درباره نتایج آماری و محدودیتهای مدل
مهارتهای مورد نیاز
مهارتهای فنی، نرم و حوزهای که یک دانشمند دادههای سلامت موفق به آنها نیاز دارد
آمار و روششناسی
Hypothesis testing، confidence intervals، p-values، multiple comparison correction
Kaplan-Meier، Cox PH، competing risks، time-varying covariates
DAGs، propensity scores، IPW، instrumental variables، DiD
Hierarchical models، MCMC، Bayesian decision theory
Random effects برای longitudinal data و clustered designs
Power analysis، randomization، interim analysis، adaptive designs
Cost-effectiveness analysis، QALY، budget impact
مهارتهای فنی و ML
pandas، scikit-learn، PyTorch، statsmodels
tidyverse، survival، lme4، tidymodels
Query کردن دادههای EHR و claims در warehouse
CNN، transfer learning، MONAI، DICOM
Named entity recognition روی clinical notes (cTAKES، MedSpaCy)
ECG، vital signs، wearable data analysis
Model versioning، monitoring drift در clinical setting
دانش domain و soft skills
فهم نحوه کار پزشک، پرستار و EHR در bedside
ICD-10، CPT، LOINC، SNOMED، RxNorm
FDA، EMA، HIPAA، GDPR در healthcare
نوشتن manuscript برای ژورنالهای پزشکی و grant writing
ترجمه آمار به زبان پزشکان و executives
Fairness audits، disparate impact، informed consent
نقشه راه و مسیر آموزشی
نقشه راه تبدیل شدن به دانشمند دادههای سلامت
این مسیر گام به گام شما را از صفر تا حرفهای هدایت میکند.
آمار، احتمال و آمار زیستی
ساختار آماری قوی پایه هر کار جدی در healthcare است — بدون آن، مدلهای ML در محیط بالینی قابل اعتماد نیستند
Python، R و Data Wrangling پزشکی
تسلط بر Python (pandas، scikit-learn) و R (tidyverse، survival) — هر دو در healthcare data science رایج هستند
Clinical Data Standards و EHR
آشنایی با ساختار دادههای بالینی واقعی — FHIR، OMOP، ICD، LOINC، SNOMED — که زبان مشترک healthcare است
Machine Learning بالینی و Medical Imaging
ساخت مدلهای پیشبینی بالینی، آشنایی با medical imaging (X-ray، CT، MRI) و چالشهای خاص healthcare AI
Regulation، Clinical Validation و Real-World Deployment
یاد گرفتن نحوه validation بالینی، مسیر FDA، GDPR و HIPAA، و طراحی RCT برای evaluation AI tool ها
ابزارها و استک فنی
ابزارهایی که هر مهندس AI باید بشناسد، دستهبندیشده بر اساس اولویت
زبان و محیط تحلیل
Clinical Data و EHR
Machine Learning و Imaging
Visualization و Reporting
مسیر پیشرفت شغلی
از جونیور تا Staff Engineer — چه مهارتهایی نیاز دارید و چه درآمدی انتظار داشته باشید
Junior Health Data Scientist
۰ تا ۲ سال
~$105K
میانگین سالانه (آمریکا)
تمیز کردن و آمادهسازی دادههای بالینی، اجرای تحلیلهای آماری مشخص، کمک به نوشتن manuscript ها
Senior Health Data Scientist
۲ تا ۵ سال
~$165K
میانگین سالانه (آمریکا)
طراحی مطالعات، ساخت مدلهای پیشبینی, همکاری مستقیم با clinician ها، اولین نویسنده در publication
Principal / Staff Health Data Scientist
۵ تا ۸ سال
~$240K
میانگین سالانه (آمریکا)
رهبری چند پروژه، interaction با FDA، تعریف research agenda، mentorship
Director / VP Data Science (Healthcare)
۸+ سال
~$380K
میانگین سالانه (آمریکا)
تعیین استراتژی AI شرکت pharma یا digital health، ارائه به board، نمایندگی در FDA و EMA
چالشها و جنبههای منفی
واقعیتهایی که کمتر در آگهیهای شغلی میبینید — قبل از ورود بدانید
Missing Data و Selection Bias
تحقیقاتیدادههای EHR ذاتاً missing و biased هستند — بیمارانی که بیشتر visit دارند دادههای بیشتری دارند. multiple imputation، sensitivity analysis و awareness از selection mechanism ضروری است.
Regulatory Complexity
شرکت بزرگیک مدل ساده میتواند یک سال در فرایند FDA باشد. باید validation plan ها، 510(k) submission و post-market surveillance را بشناسید. این یعنی هر مدلی نمیتوان به production فرستاد.
Privacy و HIPAA
عمومیهر تصمیم در نحوه storage، sharing و publication دادههای بالینی legal implications دارد. de-identification ساده کافی نیست — re-identification attacks ممکن است. تخصص در privacy-preserving ML ارزشمند است.
Model Drift و Clinical Validity
شرکت بزرگیک مدل که در ۲۰۲۳ ساخته شده میتواند در ۲۰۲۶ به دلیل تغییر در coding یا workflow accurate نباشد. monitoring مستمر و recalibration ضروری است — این بسیار سختتر از monitoring در tech generic است.
Communication با Clinician ها
عمومیپزشکان بهحق نسبت به ML skeptical هستند — جان بیمار در میان است. باید بتوانید مدل را ساده توضیح دهید، محدودیتها را بپذیرید و trust بسازید. بدون این، بهترین مدل هم در bedside استفاده نمیشود.
Imbalanced و Rare Outcomes
تحقیقاتیبسیاری از outcome های مهم rare هستند (mortality، rare disease). accuracy گمراهکننده است. باید روی calibration، Brier score، Net Reclassification Improvement و decision curve analysis تسلط داشته باشید.
حقوق و بازار کار جهانی
حقوق جهانی دانشمند دادههای سلامت
میانگین حقوق سالانه بر اساس تجربه در کشورهای مختلف
| کشور | میانه | ارز |
|---|---|---|
🇯🇵ژاپن | ¥15,500,000 | JPY |
🇮🇳هند | ₹4,500,000 | INR |
🇦🇪امارات | AED 290,000 | AED |
🇺🇸آمریکا | $240,000 | USD |
🇨🇦کانادا | CA$180,000 | CAD |
🇨🇭سوئیس | CHF 180,000 | CHF |
🇸🇬سنگاپور | SGD 170,000 | SGD |
🇦🇺استرالیا | A$170,000 | AUD |
🇬🇧انگلستان | £125,000 | GBP |
🇩🇪آلمان | €105,000 | EUR |
* ارقام سالانه و تقریبی هستند و بر اساس میانگین بازار در سال ۲۰۲۵ محاسبه شدهاند.
چگونه از صفر شروع کنیم
برنامه گامبهگام برای ورود به مهندسی هوش مصنوعی
ماه ۱: Refresh آماری و Domain
مرور Survival Analysis، Causal Inference. مطالعه ۲۰ paper از NEJM AI و Lancet Digital Health.
ماه ۲: MIMIC-IV و EHR Data
اخذ credential PhysioNet برای MIMIC-IV، تکمیل tutorial ها، یک پروژه descriptive روی sepsis cohort.
ماه ۳: یک مدل ML بالینی
ساخت یک predictive model برای ICU mortality. focus روی calibration و subgroup analysis.
ماه ۴: Medical Imaging یا NLP بالینی
بر اساس علاقه، یا CNN روی X-ray یا NER روی clinical notes. تجربه با MONAI یا MedSpaCy.
ماه ۵: Causal Inference و Publication
یک observational study با propensity matching، نوشتن یک case report یا short paper.
ماه ۶: Apply و Network
GitHub portfolio آماده، LinkedIn optimized، apply به ۲۰+ position. حضور در یک conference (HIMSS، AMIA).
پروژههای پیشنهادی برای رزومه
پیشبینی mortality در ICU با MIMIC-IV
متوسطبا dataset عمومی MIMIC-IV، یک مدل logistic regression و یک مدل gradient boosting برای پیشبینی mortality ۲۴ ساعته بسازید. منحنی ROC، calibration و SHAP feature importance را گزارش کنید.
Survival Analysis روی Cancer Registry
متوسطروی dataset SEER (cancer registry آمریکا)، یک Cox model و یک Random Survival Forest برای پیشبینی overall survival بسازید. مقایسه discrimination (C-index) و calibration بین مدلها.
Chest X-ray Classifier (Pneumonia Detection)
متوسطبا dataset Kaggle Chest X-Ray، یک CNN در PyTorch train کنید برای تشخیص pneumonia. data augmentation، transfer learning از ImageNet، و تحلیل failure cases.
Causal Inference: تأثیر یک درمان روی outcome
پیشرفتهبا dataset observational، اثر یک دارو روی outcome را با propensity score matching، IPW و double-robust estimation تخمین بزنید. مقایسه با naive regression.
FHIR-based Clinical Dashboard
پیشرفتهیک dashboard بسازید که از FHIR server اطلاعات بیماران را بکشد و risk score (مثلاً readmission) را real-time محاسبه کند. این پروژه ترکیب data engineering + ML + clinical informatics است.
مثالهای واقعی و Case Studies
داستانهای واقعی از مهندسانی که در این حوزه تأثیرگذار بودهاند
Director مؤسسه Scripps Research Translational Institute، cardiologist و یکی از تأثیرگذارترین صداهای healthcare AI. نویسنده ۳ کتاب پرفروش از جمله 'Deep Medicine'.
Topol سالها قبل از mainstream شدن AI در healthcare، روی potential آن نوشت و research کرد. مطالعات او روی wearables و digital health استاندارد صنعت را تعریف کردهاند. کتاب 'Deep Medicine' او در ۲۰۱۹ مرجع اصلی برای نحوه ادغام AI با practice پزشکی شد. در ۲۰۲۰ pandemic رهبری توصیههای mass-screening با AI را داشت و در Twitter یکی از معتبرترین منابع healthcare data science است.
ترکیب expertise بالینی واقعی با درک عمیق فنی، جایگاهی منحصر به فرد ایجاد میکند. Topol نه صرفاً پزشک است نه data scientist — او در تقاطع این دو ایستاده و این جایگاه است که تأثیر فوقالعاده اش را ممکن کرده. برای کسی که از پزشکی به data science میآید، این مسیر بسیار قابل تقلید است.
MIT Distinguished Professor، AI Faculty Lead در Jameel Clinic، برنده Squirrel AI Award (معادل Nobel در AI). متخصص NLP و سپس focus روی oncology AI پس از شخصی experience cancer.
Barzilay پس از تشخیص cancer شخصی، تمام تمرکز research اش را روی healthcare AI گذاشت. مدل MIRAI او برای پیشبینی breast cancer از mammogram سالها قبل از موعد در حالیکه radiologist ها چیزی نمیبینند، یکی از مهمترین دستاوردهای دهه است — حالا در trial در بیمارستانهای متعدد جهان است. در ۲۰۲۰ Squirrel AI Award را گرفت و در ۲۰۲۲ National Academy of Engineering عضو شد.
motivation شخصی (cancer شخصی) میتواند موتور علمی فوقالعادهای باشد. Barzilay نشان داد که یک researcher متمرکز روی یک مشکل میتواند world-class impact داشته باشد، حتی اگر background اصلی او (NLP) متفاوت بوده. عمق technical + domain focus = breakthrough.
John C. Malone Associate Professor در Johns Hopkins، بنیانگذار و CEO Bayesian Health. PhD از Stanford در یادگیری ماشین، focus روی causal ML و ICU.
Saria یکی از معروفترین researcher های sepsis prediction است — مدل TREWS او که در Johns Hopkins deployed شده، در یک randomized trial نشان داد mortality از sepsis را ۲۰٪ کاهش میدهد. در ۲۰۲۲ شرکت Bayesian Health را بنیان گذاشت که این فناوری را به ۱۵+ سیستم بیمارستانی برده است. Forbes 30 Under 30 و MIT Innovators Under 35 بوده. در ۲۰۲۳ یکی از Top 10 Women in AI طبق Forbes.
research دانشگاهی میتواند به startup با impact واقعی تبدیل شود. Saria به جای maximize کردن publication، روی deployment واقعی در ICU تمرکز کرد. در نتیجه، تأثیر کارش روی نجات جان واقعی بوده — این چیزی است که در یک شرکت بزرگ یا paper-only research نمیتوانست انجام دهد.
نمونه آگهی استخدام واقعی + تحلیل
یک آگهی واقعی از شرکت فعال در حال استخدام، با تحلیل هر بخش
Senior Quantitative Scientist - Real-World Evidence
تحلیل نیازمندیها
PhD in epidemiology, biostatistics, statistics, or related field
برای نقشهای RWE در Flatiron، PhD تقریباً ضروری است. سابقه publication و research training یک تفاوت بزرگ ایجاد میکند. Master ها معمولاً در نقشهای associate scientist قرار میگیرند.
ضروری5+ years experience analyzing real-world data, preferably oncology
Flatiron تمرکز خاص روی oncology دارد. domain expertise در یک حوزه (cancer، cardiology، etc.) از general data science experience ارزشمندتر است. کسانی که از academic medicine میآیند مزیت دارند.
ضروریStrong programming skills in R or Python
Flatiron heavily R استفاده میکند برای biostatistical work، اما Python هم در ML pipelines استفاده میشود. تسلط بر یکی و آشنایی با دیگری ایدهآل است.
ضروریExperience with causal inference methods (propensity scores, instrumental variables)
این core skill برای RWE است. باید بتوانید در مصاحبه کاملاً confounding، collider bias و propensity score weighting را discuss کنید. توصیه میشود کتاب Hernan را خوانده باشید.
ضروریTrack record of peer-reviewed publications
Flatiron value میدهد به scientific rigor. حداقل ۳-۵ first-author paper در ژورنالهای respected ضروری است. این از academic background میآید معمولاً.
ضروریExcellent written and verbal communication skills
علاوه بر manuscript، باید بتوانید findings را به clinician ها، regulator ها و pharma sponsors توضیح دهید. کار با sponsor (مثل Pfizer) بخش بزرگی از job است.
مهمتحلیل مسئولیتها
Design and execute observational studies using Flatiron's curated EHR-derived data
Flatiron یکی از بزرگترین EHR-derived oncology dataset ها را در دنیا دارد (۳+ میلیون patient). شما این دارایی منحصر به فرد را برای پاسخ به سؤالات clinical critical استفاده میکنید.
Collaborate with pharma sponsors on real-world evidence packages
بسیاری از pharma ها Flatiron را برای RWE استخدام میکنند. یعنی شما مستقیماً با Pfizer، Roche، Novartis در پروژههای میلیون دلاری کار میکنید. communication skills critical است.
Publish findings in peer-reviewed journals and present at conferences
publication بخشی از job description است، نه side activity. Flatiron معروف به scientific output است. باید برنامهای برای contribute به literature داشته باشید.
Contribute to methodological development for RWE
Flatiron در forefront methodology RWE است. اگر علاقه به method development دارید، اینجا space برای آن وجود دارد. این از Roche-Flatiron deal بسیار strategic است.
نتیجهگیری کلی
Flatiron یکی از prestigious ترین places برای کار روی RWE oncology است. compensation strong (Senior $200-280K)، benefits عالی، و مهمتر — dataset منحصر به فرد که در هیچجا نمیتوانید کار کنید. bar علمی بسیار بالاست. توصیه: تسلط واقعی روی causal inference، خواندن Hernán & Robins، و سابقه publication. اگر oncology domain expertise دارید، حتماً apply کنید.
آینده و روندها
پیشبینی ۵–۱۰ ساله و مهارتهایی که باید یاد بگیرید
رشد ۳۳.۴٪ سالانه (CAGR) تا ۲۰۳۰ — تقاضا برای Health Data Scientists از ۸۵ هزار به ۳۲۰ هزار شغل در جهان میرسد
منبع: BLS Occupational Outlook 2024 / Grand View Research Healthcare AI Market 2025
مهارتهای نوظهور که باید یاد بگیرید
پیشبینیهای آینده
بیش از ۱۵۰۰ AI device توسط FDA cleared میشود — Health Data Scientist های آشنا با FDA pathway حقوقشان ۳۰٪ بیشتر میشود
Foundation models پزشکی (Med-PaLM 4، GPT-MedHealth) به general task standard در شرکتهای دارویی تبدیل میشوند
Real-World Evidence سهم ۴۰٪ از regulatory submission ها را میگیرد — تخصص RWE یکی از top-paying specialties میشود
حقوق Director Health Data Science در pharma به ۵۰۰هزار دلار+ کل compensation میرسد — به دلیل critical-path بودن AI در drug development
ریسک اصلی AI نیست — برعکس، AI تقاضا را افزایش میدهد. ریسک واقعی outsourcing و commoditization در حوزههای low-skill (chart abstraction، descriptive analytics) است که با LLM و global talent در حال جابجایی هستند. کسانی که فقط basic statistics و SQL بلدند آسیبپذیرند. کسانی که در causal inference، domain depth و communication با clinician ها قوی هستند، demand بسیار بیشتر میشود. ریسک دیگر: regulatory friction — اگر FDA stricter شود، deploy کردن مدل سختتر میشود، اما این هم opportunity برای متخصصان regulatory ایجاد میکند.
ویدیوهای آموزشی
یک روز در زندگی یک Health Data Scientist
ویدیوهای واقعی از متخصصان این حوزه که روزانه چه کارهایی انجام میدهند

What it's like to be a Healthcare Data Analyst
Data Wizardry

Saving Lives Using Biomedical Data Science! | Dr. Shameer Khader | TEDxGCEKannur
TEDx Talks

What does a Healthcare Data Analyst Do
The Career Force

What I *actually* do as a Data Scientist (salary, job, reality)
Egor Howell

Productive Day in the Life of a Data Scientist | What Data Scientists ACTUALLY Do at Work 👩🏻💻
candidly vivian

Becoming a Data Scientist in Healthcare
AfterWork
