در اين مقاله براي بهبود دقت يک سيستم بازشناسي گفتار پيوسته فارسي، روش وابسته به بافت مناسبي پيشنهاد شده است. به دليل بعضي محدوديتهاي موجود در سيستم بازشناسي، از ايدة واحدهاي آوايي چندگانه براي استخراج واحدهاي آوايي وابسته به بافت استفاده گرديده است. بر اساس اين ايده هر چکیده کامل
در اين مقاله براي بهبود دقت يک سيستم بازشناسي گفتار پيوسته فارسي، روش وابسته به بافت مناسبي پيشنهاد شده است. به دليل بعضي محدوديتهاي موجود در سيستم بازشناسي، از ايدة واحدهاي آوايي چندگانه براي استخراج واحدهاي آوايي وابسته به بافت استفاده گرديده است. بر اساس اين ايده هر واج به چند نوع گوناگون دستهبندي ميشود و هر دسته جداگانه مدلسازي ميگردد. دستهبندي واجها به صورت بينظارت و با استفاده از الگوريتم k-means انجام شده است و براي محاسبه مركز دستهها روش كارايي پيشنهاد شده است. تعداد دسته مناسب براي هر واج با توجه به حجم دادههاي آموزشي آن واج و دقت بازشناسي واج در هنگام بهکارگيري مدلهاي مستقل از بافت، حدس زده شده و سپس با روشهاي مبتني بر سعي و خطا، تعداد دسته بهينه براي هر واج تعيين شده است. سپس هر دسته به عنوان يک واحد آوايي وابسته به بافت مدلسازي گرديده است. با استفاده از اين مدلها حدود 22 درصد کاهش در نرخ خطاي کلمات حاصل شده است.
پرونده مقاله
یکی از چالشهای بازشناسی ارقام مجزای فارسی، مشابهت تلفظ برخی از ارقام مانند "صفر و سه"، "نه و دو" و "پنج، هفت و هشت" میباشد. این چالش منجر به بازشناسی یک رقم به جای رقم مشابه شده و دقت بازشناسی را کاهش میدهد. در این مقاله، یک راهکار ترکیبی مبتنی بر حافظه کوتاهمدت مان چکیده کامل
یکی از چالشهای بازشناسی ارقام مجزای فارسی، مشابهت تلفظ برخی از ارقام مانند "صفر و سه"، "نه و دو" و "پنج، هفت و هشت" میباشد. این چالش منجر به بازشناسی یک رقم به جای رقم مشابه شده و دقت بازشناسی را کاهش میدهد. در این مقاله، یک راهکار ترکیبی مبتنی بر حافظه کوتاهمدت ماندگار (LSTM) و مدل مخفی مارکف (HMM) برای رفع چالش مذکور ارائه شده که نرخ بازشناسی ارقام فارسی مبتنی بر HMM را به طور متوسط 2% و در بهترین حالت 8% بهبود داده است. با توجه به تشدید چالش بازشناسی ارقام مشابه فارسی در شرایط نویزی، در ادامه کار مقاومسازی بازشناسی ارقام مشابه فارسی مورد توجه قرار گرفت. به منظور افزایش مقاومت بازشناس مبتنی بر LSTM، از ویژگیهای مقاوم به نویز مستخرج از طیف گفتار مانند آنتروپی طیفی، درجه از هم پاشی، فرکانس نیمساز، همواری طیفی، فرمانت اول و نرخ گذار از صفر مبتنی بر تابع همبستگی استفاده گردید. استفاده از این ویژگیها، ضمن کاهش تعداد ویژگیها برای بازشناسی ارقام مشابه فارسی از 39 ضریب به حداکثر 4 و حداقل 1 ضریب، به طور متوسط به ترتیب بهبود 10، 13، 15 و 13 درصدی مقاومت بازشناس ارقام مشابه را در شرایط متنوع نویزی (30 حالت مختلف حاصل از پنج نوع نویز سفید، صورتی، همهمه، کارخانه و ماشین و شش نسبت سیگنال به نویز 5-، 0، 5، 10، 15 و 20 دسیبل) در مقایسه با بازشناسهای مبتنی بر HMM، LSTM، شبکه باور عمیق با ویژگیهای مل کپستروم و شبکه عصبی کانولوشنی با ویژگیهای مل اسپکتوگرام به همراه دارد.
پرونده مقاله