مهندس تشخیص گفتار
Speech Recognition Engineer
مهندس تشخیص گفتار سیستمهایی میسازد که صدای انسان را به متن تبدیل میکنند — از دستیار صوتی سیری و الکسا گرفته تا زیرنویس خودکار یوتیوب و سیستمهای دیکته پزشکی. با رشد ۱۹.۱٪ سالانه بازار ASR و اوجگیری مدلهای مبتنی بر ترانسفورمر مثل Whisper، این نقش یکی از پرتقاضاترین تخصصهای NLP در شرکتهای بزرگ فناوری است.
مقدمه و تعریف شغل
مهندس تشخیص گفتار (Speech Recognition Engineer یا ASR Engineer) متخصصی است که مدلهای یادگیری عمیق طراحی و آموزش میدهد تا امواج صوتی خام را به توالیهای متنی دقیق تبدیل کنند. این کار شامل پردازش سیگنال صوتی، طراحی معماریهای acoustic و language model، و بهینهسازی برای محیطهای واقعی با نویز، لهجه و شرایط متنوع است.
تشخیص گفتار از دهه ۱۹۷۰ با Hidden Markov Models آغاز شد. اما در دهه ۲۰۱۰ با ظهور شبکههای عصبی عمیق و LSTM، دقت جهشی داشت. با انتشار OpenAI Whisper در ۲۰۲۲ و Wav2Vec 2.0 متا، مدلهای end-to-end که نیاز به lexicon و grammar جداگانه ندارند، تبدیل به استاندارد صنعت شدند. امروز بازار جهانی ASR از ۹.۷ میلیارد دلار در ۲۰۲۴ به ۲۳ میلیارد دلار تا ۲۰۳۰ رشد میکند.
چه چیزی میسازید؟
مثالهای واقعی از خروجی کار یک مهندس تشخیص گفتار
دستیارهای صوتی
موتور ASR پشت Siri، Google Assistant، Alexa
زیرنویس خودکار
Live captioning یوتیوب، Teams، Zoom
سیستمهای دیکته
Dragon Medical، دیکته پزشکی، گزارشنویسی خودکار
تحلیل مکالمه تلفنی
رونویسی مرکز تماس، sentiment analysis صوتی
ترجمه گفتاری
Google Translate voice، سیستمهای مترجم فوری
تخصصهای مختلف مهندس تشخیص گفتار
این شغل یک عنوان واحد نیست — مسیرهای تخصصی متعددی دارد
تشخیص گفتار از راه دور
Far-field ASR
بهینهسازی برای میکروفونهای دور (Echo Cancellation، Beamforming) — حوزه دستیارهای صوتی خانگی
رونویسی پزشکی
Medical Transcription
مدلهای ASR تخصصی با واژگان پزشکی دقیق — یکی از پردرآمدترین زیرحوزهها
تشخیص گفتار چندزبانه
Multilingual ASR
ساخت مدلهایی که همزمان چندین زبان را پشتیبانی میکنند — اولویت شرکتهای جهانی
تشخیص گفتار بلادرنگ
Streaming ASR
زیرنویس و دیکته آنی با تأخیر زیر ۳۰۰ میلیثانیه — چالش سختافزاری و معماری
تفاوت با شغلهای مشابه
کجا این شغل تمام میشود و شغل دیگری شروع میشود؟
مهندس NLP با متن کار میکند؛ مهندس ASR با دادههای خام صوتی شروع میکند و پردازش سیگنال، spectrogram و acoustic modeling جزء اصلی کارش است.
مهندس Audio ML طیف گستردهتری شامل music generation، sound classification و audio tagging را پوشش میدهد، در حالی که ASR Engineer فقط روی speech-to-text متمرکز است.
TTS مسیر معکوس است — از متن به صدا. اما مهارتهای پایهای مشترک هستند و در تیمهای کوچک این دو نقش اغلب ادغام میشوند.
تأثیر در صنایع مختلف
مهندس تشخیص گفتار در همه صنایع مشغول به کار است — نه فقط شرکتهای فناوری
بهداشت و پزشکی
دیکته خودکار پزشک به پرونده الکترونیک — صرفهجویی ۲ ساعت/روز برای هر پزشک
مراکز تماس
رونویسی و تحلیل ۱۰۰٪ مکالمات — کشف مشکلات رایج بدون listening manual
آموزش و دسترسیپذیری
زیرنویس خودکار برای ناشنوایان و یادگیرندگان زبان — محتوای آموزشی در دسترس همه
خودروسازی
سیستمهای دستور صوتی hands-free — ایمنی راننده بدون نیاز به لمس صفحه
رسانه و سرگرمی
زیرنویس خودکار ویدیوها، ترجمه فوری پادکستها، جستجوی صوتی محتوا
تصورات غلط رایج
قبل از تصمیمگیری، این باورهای اشتباه را بشناسید
تشخیص گفتار فقط API call است — همه از Whisper استفاده میکنند
Whisper نقطه شروع است، نه راهحل. در production باید با لهجههای خاص، noise محیطی، domain-specific vocabulary و latency requirements واقعی دست و پنجه نرم کرد. Fine-tuning، optimization و deployment engineering حوزه اصلی کار است.
این شغل فقط برای شرکتهای بزرگ مثل Google و Apple است
رشد سریع ابزارهای open-source مثل Whisper و SpeechBrain باعث شده شرکتهای کوچکتر، استارتاپها و شرکتهای حوزه پزشکی به مهندس ASR نیاز داشته باشند. فریلنس در این حوزه هم بازار فعالی دارد.
باید فیزیک صوت و music theory عمیق بدانی
درک پایهای از Fourier Transform و spectrogram کافی است. تمرکز اصلی روی یادگیری عمیق و معماریهای ترانسفورمر است، نه آکوستیک نظری.
یک روز کاری واقعی
در هر سطح روز کاری چه شکلی است؟
جونیور (Junior)
روزهای یک مهندس ASR جونیور ترکیبی از آمادهسازی داده، آزمایش مدلهای موجود و درک pipeline است. بخش بزرگی از زمان صرف data cleaning، label verification و اجرای fine-tuning میشود.
- ◆پاکسازی و normalize کردن دادههای صوتی
- ◆اجرای fine-tuning مدل Whisper روی dataset اختصاصی
- ◆محاسبه Word Error Rate (WER) و تحلیل خطاها
- ◆نوشتن اسکریپتهای preprocessing با torchaudio
- ◆مستندسازی آزمایشها در MLflow یا W&B
میدلول (Mid-level)
طراحی pipeline کامل ASR، بهینهسازی برای deployment و همکاری با تیم product برای درک نیازمندیهای واقعی. ارزیابی بین accuracy و latency یکی از چالشهای روزانه است.
- ◆طراحی معماری acoustic model برای domain خاص
- ◆پیادهسازی Beam Search decoder و Language Model fusion
- ◆بهینهسازی مدل با quantization (INT8) برای کاهش تأخیر
- ◆آزمایش با دادههای noisy و طراحی data augmentation pipeline
- ◆کد review و mentoring جونیورها
سینیور (Senior)
تعریف استراتژی تکنیکال تیم، تصمیمگیری درباره معماری مدلهای بزرگ و هدایت پروژههای cross-functional. بخش قابل توجهی از زمان صرف collaboration با product، data و infra teams میشود.
- ◆طراحی roadmap تکنیکال سیستم ASR شرکت
- ◆ارزیابی و انتخاب معماری مدل (E2E vs Hybrid)
- ◆هدایت تیم در ساخت language model domain-specific
- ◆تحلیل شکستهای مدل در production و اولویتبندی بهبود
- ◆همکاری با legal درباره privacy دادههای صوتی کاربران
مسئولیتها و وظایف
مسئولیتهای اصلی
وظایف روزانه و مهارتهای مورد نیاز در این شغل
- ◈طراحی و آموزش مدلهای Acoustic و Language Model برای سیستم ASR
- ◈جمعآوری، پاکسازی و annotation دادههای صوتی در مقیاس بزرگ
- ◈ارزیابی عملکرد مدل با معیارهای WER، CER و latency
- ◈بهینهسازی مدل برای deployment با quantization و pruning
- ◈پیادهسازی pipeline ASR بلادرنگ برای کاربردهای streaming
- ◈مستندسازی آزمایشها، مدلها و pipelineها برای تکرارپذیری
- ◈پایش مدلهای production و رفع مشکلات regression
- ◈همکاری با تیم product برای تبدیل نیازمندیهای کسبوکار به spec فنی
مهارتهای مورد نیاز
مهارتهای فنی، نرم و حوزهای که یک مهندس تشخیص گفتار موفق به آنها نیاز دارد
مهارتهای فنی
طراحی و آموزش شبکههای عصبی برای پردازش صوت. آشنایی با CNN، RNN، LSTM و Transformer ضروری است.
درک MFCC، Mel Spectrogram، Fourier Transform و ابزارهایی مثل librosa و torchaudio.
طراحی Acoustic Model که ویژگیهای صوتی را به واحدهای زبانی (phoneme, subword) نگاشت میکند.
پیادهسازی Language Model برای تصحیح خروجی ASR با استفاده از n-gram یا neural LM.
Fine-tuning و deployment مدلهای ASR پیشآموزشدیده روی dataset اختصاصی.
پایه اصلی تمام کارهای ML. numpy برای پردازش آرایههای صوتی الزامی است.
بهینهسازی آموزش مدلهای بزرگ روی GPU. آشنایی با mixed precision training و gradient checkpointing.
فریمورکهای تخصصی ASR برای پیادهسازی pipelineهای پیشرفتهتر با قابلیت شخصیسازی بالا.
مهارتهای نرم
توانایی شنیدن نمونههای اشتباه و تشخیص اینکه آیا مشکل از acoustic model، language model یا داده آموزشی است.
ثبت دقیق hyperparameter، dataset version و نتایج آزمایش — در ML تکرارپذیری حیاتی است.
۸۰٪ موفقیت ASR به کیفیت داده بستگی دارد. صبر در label verification و data cleaning شرط لازم است.
ترجمه نیازمندیهای کسبوکار (مثل «باید دقت بالاتری داشته باشد») به معیارهای فنی قابل سنجش.
دانش حوزهای
درک phoneme، morpheme و ساختار زبان — بهخصوص برای کار با زبانهای با ساختار پیچیده مثل فارسی و عربی.
مقایسه رویکردهای CTC، Attention-based Encoder-Decoder و Hybrid Systems و انتخاب مناسب برای use case.
محاسبه Word Error Rate و Character Error Rate و تفسیر نتایج برای بهبود مدل.
درک tokenization، subword modeling (BPE, SentencePiece) که پایه language model در ASR است.
نقشه راه و مسیر آموزشی
نقشه راه تبدیل شدن به مهندس تشخیص گفتار
این مسیر گام به گام شما را از صفر تا حرفهای هدایت میکند.
پایههای یادگیری ماشین و پردازش صوت
درک مفاهیم اساسی ML و آشنایی با ابزارهای پردازش صوت
مدلهای ASR پیشآموزشدیده
کار با Whisper و Wav2Vec2 و اولین fine-tuning
معماریهای پیشرفته ASR
درک عمیق CTC، RNN-T و Attention-based و فریمورکهای تخصصی
بهینهسازی و استقرار
deployment مدلهای ASR در production با کارایی بالا
منابع پیشنهادی
تخصص و تحقیق
انتخاب زیرحوزه تخصصی و مشارکت در جامعه علمی
ابزارها و استک فنی
ابزارهایی که هر مهندس AI باید بشناسد، دستهبندیشده بر اساس اولویت
مدلها و فریمورکهای ASR
کتابخانه اصلی برای fine-tuning مدلهای Whisper، Wav2Vec2 و سایر مدلهای speech.
پردازش صوت و داده
مسیر پیشرفت شغلی
از جونیور تا Staff Engineer — چه مهارتهایی نیاز دارید و چه درآمدی انتظار داشته باشید
جونیور ASR Engineer
۰-۲ سال
~$95K
میانگین سالانه (آمریکا)
Fine-tuning مدلهای موجود، پردازش داده، ارزیابی WER
میدلول ASR Engineer
۲-۵ سال
~$150K
میانگین سالانه (آمریکا)
طراحی pipeline ASR، بهینهسازی مدل، deployment
سینیور ASR Engineer
۵-۱۰ سال
~$210K
میانگین سالانه (آمریکا)
معماری سیستم ASR، هدایت تیم، تحقیق و توسعه
Principal / Research Scientist
۱۰+ سال
~$285K
میانگین سالانه (آمریکا)
تحقیق frontier، انتشار paper، تعریف direction تکنیکال
چالشها و جنبههای منفی
واقعیتهایی که کمتر در آگهیهای شغلی میبینید — قبل از ورود بدانید
مشکل لهجه و تنوع گویشی
عمومیمدلهای ASR عمومی روی لهجههای غیراستاندارد یا زبانهای کممنبع ضعیف عمل میکنند. جمعآوری داده آموزشی متنوع و fine-tuning برای هر لهجه هزینهبر و زمانبر است.
تعادل بین دقت و تأخیر
استارتاپمدلهای بزرگتر WER پایینتری دارند اما کند هستند. در سیستمهای real-time مثل زیرنویس زنده یا دستیار صوتی، باید بین accuracy و latency مصالحه کرد — و این تصمیمهای معماری صعبی ایجاد میکند.
کمبود داده برای زبانهای کممنبع
تحقیقاتیبرای انگلیسی میلیونها ساعت داده labeled وجود دارد. برای فارسی، هندی یا زبانهای آفریقایی، dataset های معتبر نادر و گران هستند. رویکردهای self-supervised مثل Wav2Vec2 تا حدی این مشکل را حل میکنند.
مدیریت نویز محیطی
عمومیدر محیطهای واقعی — رستوران، خیابان، اتاق پر از جمعیت — کیفیت صدا افت شدیدی دارد. طراحی robust pipeline شامل noise cancellation، voice activity detection و data augmentation با نویز مصنوعی ضروری است.
حریم خصوصی دادههای صوتی
شرکت بزرگدادههای صوتی شخصیترین نوع داده است — میتوان صاحب آن را شناسایی کرد. پیروی از GDPR، ذخیرهسازی on-device در مقابل cloud و anonymization دادههای آموزشی مسائل حقوقی پیچیدهای ایجاد میکند.
حقوق و بازار کار جهانی
حقوق جهانی مهندس تشخیص گفتار
میانگین حقوق سالانه بر اساس تجربه در کشورهای مختلف
| کشور | میانه | ارز |
|---|---|---|
🇺🇸ایالات متحده (سینیور) | $210,000 | USD |
* ارقام سالانه و تقریبی هستند و بر اساس میانگین بازار در سال ۲۰۲۵ محاسبه شدهاند.
چگونه از صفر شروع کنیم
برنامه گامبهگام برای ورود به مهندسی هوش مصنوعی
پایههای پردازش صوت
librosa و torchaudio را نصب کن. یاد بگیر چطور waveform بخوانی، MFCC بکشی و spectrogram بسازی. درک بصری داده صوتی اساس کار است.
اجرای Whisper و اولین fine-tuning
مدل Whisper را از HuggingFace بارگذاری کن و روی یک dataset ساده مثل LJSpeech fine-tune کن. WER را بسنج و نتایج را در Weights & Biases ثبت کن.
پروژه اول: ASR فارسی
Whisper را روی دادههای فارسی fine-tune کن. از Common Voice Persian یا FLEURS dataset استفاده کن. این پروژه نشان میدهد با زبانهای کممنبع چطور باید رفتار کرد.
پروژههای پیشنهادی برای رزومه
زیرنویس خودکار فارسی
مبتدییک سیستم بساز که ویدیوهای فارسی را دریافت میکند و زیرنویس SRT خودکار تولید میکند. Whisper را با داده فارسی fine-tune کن و WER را گزارش بده.
زیرنویس real-time با میکروفون
متوسطسیستم streaming ASR بساز که از میکروفون ورودی میگیرد و با تأخیر کمتر از ۱ ثانیه متن نمایش میدهد. از Faster-Whisper و PyAudio استفاده کن.
ASR پزشکی با واژگان تخصصی
متوسطWhisper را روی دادههای پزشکی fine-tune کن. از dataset های عمومی پزشکی یا ایجاد synthetic data با TTS استفاده کن. WER را روی اصطلاحات پزشکی سنجش کن.
سرویس ASR با speaker diarization
پیشرفتهیک API کامل بساز که صدا دریافت میکند، رونویسی میکند و مشخص میکند چه کسی چه چیزی گفته. از pyannote.audio برای diarization و Whisper برای ASR استفاده کن.
مثالهای واقعی و Case Studies
داستانهای واقعی از مهندسانی که در این حوزه تأثیرگذار بودهاند
دکترای CS از Stanford با تمرکز روی deep learning. به Baidu Research پیوست در زمانی که ASR هنوز با HMM پیشرفت میکرد.
نویسنده اصلی مقاله «Deep Speech» در ۲۰۱۴ — اولین سیستم ASR که بهطور کامل با deep learning کار میکرد و از کلمهبندی سنتی صرفنظر کرد. بعداً در Apple روی Siri کار کرد.
جرأت کافی برای challenge کردن روشهای تثبیتشده (HMM) داشت. وقتی داده کافی داری، گاهی simple end-to-end approach از سیستمهای پیچیده بهتر است.
Alec Radford
محقق OpenAI که بیشتر بهخاطر GPT-2 و GPT-3 شناخته میشود. تیم او تصمیم گرفت یک مدل ASR متفاوت بسازند — نه با محدود کردن training data، بلکه با استفاده از ۶۸۰,۰۰۰ ساعت داده diverse.
Whisper را در ۲۰۲۲ منتشر کرد — مدلی که بدون هیچ fine-tuning، WER مشابه یا بهتر از سیستمهای commercial-grade داشت و ۹۹ زبان را پشتیبانی میکرد. اکنون پرکاربردترین مدل ASR open-source است.
scale در داده آموزشی میتواند بسیاری از مشکلات architectural complexity را حل کند. Diverse data از supervised fine-tuning بهتر عمل میکند.
Dong Yu
محقق Microsoft Research با سابقه طولانی در ASR. از اولین کسانی بود که deep learning را جدی در ASR اعمال کرد — در زمانی که اکثر محققان این رویکرد را marginally بهتر میدانستند.
در ۲۰۱۱ با Geoffrey Hinton و George Dahl اولین کار breakthrough در DNN-HMM hybrid systems را منتشر کرد — خطا را ۳۰٪ کاهش داد. بعداً به Tencent AI Lab رفت و تیم ASR چینی پیشرفته را ساخت.
پافشاری روی ایدهای که هنوز جامعه علمی کامل آن را نپذیرفته، وقتی داده و آزمایش پشتیبانی کند، میتواند به نتایج groundbreaking برسد.
نمونه آگهی استخدام واقعی + تحلیل
یک آگهی واقعی از شرکت فعال در حال استخدام، با تحلیل هر بخش
Machine Learning Engineer — Siri Speech
تحلیل نیازمندیها
5+ years experience with deep learning frameworks, particularly PyTorch
PyTorch استاندارد صنعت برای تحقیق و توسعه ASR است. ۵ سال یعنی باید با gradient flow، custom loss function و distributed training راحت باشی — نه فقط از API استفاده کنی.
ضروریExperience with large-scale data processing (Spark, Dask, or Ray)
Apple میلیونها ساعت داده صوتی ناشناس دارد. باید بتوانی pipelineهای ETL برای دادههای صوتی در مقیاس petabyte بنویسی. این نشان میدهد نقش فقط modeling نیست — data engineering هم هست.
مهمStrong background in acoustic modeling and language modeling for ASR systems
این core requirement است. Acoustic model یعنی تبدیل featureهای صوتی به نمایشهای intermediate. Language model یعنی تصحیح خروجی بر اساس احتمال زبانی. باید هر دو را عمیق بفهمی.
ضروریExperience with end-to-end speech recognition systems (CTC, RNN-T, or Attention-based)
سه معماری اصلی ASR را باید بشناسی. CTC برای streaming، RNN-T برای real-time با quality بالا، و Attention-based برای batch processing. Apple به احتمال زیاد از RNN-T برای Siri استفاده میکند.
ضروریMS or PhD in Computer Science, Electrical Engineering, or related field
Apple برای تیم Siri تحصیلات پیشرفته ترجیح میدهد چون کار شامل تحقیق است، نه فقط engineering. اما با portfolio قوی و paper در NeurIPS/INTERSPEECH، میتوان بدون PhD هم استخدام شد.
مهمPrivacy-preserving ML techniques (differential privacy, federated learning)
برای Apple حریم خصوصی بسیار مهم است. Federated learning یعنی مدل روی device کاربر fine-tune میشود بدون اینکه داده صوتی به سرور برسد. این requirement نشان میدهد آینده ASR روی edge است.
مفیدتحلیل مسئولیتها
Design and train state-of-the-art ASR models for production Siri systems
مهمترین مسئولیت: مدلهایی که میلیاردها کاربر iOS استفاده میکنند. یعنی precision، robustness و regression testing بسیار سختگیرانه است — هر degradation کوچکی قابل مشاهده است.
Collaborate with data teams to curate and annotate large speech corpora
ASR بدون داده خوب ممکن نیست. همکاری با تیم annotation برای تضمین کیفیت labelها — بهخصوص در لهجههای مختلف — بخش مهمی از کار روزانه است.
Optimize models for on-device inference on Apple Silicon
Apple میخواهد ASR روی device و با Apple Silicon (ANE) اجرا شود. این یعنی Core ML، quantization و neural architecture search برای hardware-aware efficiency.
نتیجهگیری کلی
Apple به دنبال کسی است که هم researcher باشد هم engineer — بتواند ایده جدید بزند و آن را در production روی میلیاردها device مستقر کند. تمرکز روی privacy و edge computing نشان میدهد آینده ASR بهسمت on-device میرود. اگر میخواهی در این تیم باشی، علاوه بر ASR core skills، Federated Learning و Core ML هم یاد بگیر.
آینده و روندها
پیشبینی ۵–۱۰ ساله و مهارتهایی که باید یاد بگیرید
بازار جهانی ASR از ۹.۷ میلیارد دلار در ۲۰۲۴ به ۲۳.۱ میلیارد دلار تا ۲۰۳۰ رشد میکند — ۱۹.۱٪ CAGR
منبع: MarketsandMarkets ASR Market Report 2024
مهارتهای نوظهور که باید یاد بگیرید
پیشبینیهای آینده
تشخیص گفتار real-time با WER زیر ۳٪ برای انگلیسی به baseline تبدیل میشود. رقابت اصلی روی زبانهای کممنبع و تشخیص در نویز شدید خواهد بود.
اکثر گوشیهای میانرده ASR کامل را on-device اجرا میکنند — بدون ارسال صوت به cloud. Privacy-first ASR تبدیل به selling point اصلی میشود.
ASR پزشکی به بلوغ میرسد: ۵۰٪ بیمارستانهای پیشرفته از سیستمهای دیکته خودکار برای پروندهنویسی استفاده میکنند.
مرز بین ASR، TTS و LLM از بین میرود. Speech AI Engineer متخصصی خواهد بود که همه این حوزهها را میشناسد و multimodal pipelineهای end-to-end طراحی میکند.
بزرگترین ریسک در این حوزه، یکپارچگی با LLMهای بزرگ است. GPT-4o نشان داد که یک مدل میتواند هم بفهمد، هم پاسخ دهد — بدون نیاز به pipeline جداگانه ASR+LLM. اگر end-to-end multimodal models پیروز شوند، نقش ASR Engineer مستقل ممکن است به بخشی از Speech ML Engineer گستردهتر تبدیل شود. از طرف دیگر، کاربردهای domain-specific مثل پزشکی، قضایی و ارتشی همچنان به متخصصان تخصصی ASR نیاز دارند.
ویدیوهای آموزشی
یک روز در زندگی یک Speech Recognition Engineer
ویدیوهای واقعی از متخصصان این حوزه که روزانه چه کارهایی انجام میدهند



