Design and Collection of Speech Data as the First Step of Localization the Intelligent Diagnosis of Autism in Iranian Children
Subject Areas : electrical and computer engineeringMaryam Alizadeh 1 , Shima tabibian 2 *
1 - Cyberspace Research Institute, Shahid Beheshti University, Tehran, Iran
2 - Cyberspace Research Institute, Shahid Beheshti University, Tehran, Iran
Keywords: Autism diagnosis, speech processing, machine learning, speech data, children, Persian language,
Abstract :
Autism Spectrum Disorder is a type of disorder in which, the patients suffer from a developmental disorder that manifests itself by symptoms such as inability to social communication. Thus, the most apparent sign of autism is a speech disorder. The first part of this paper reviews research studies conducted to automatically diagnose autism based on speech processing methods. According to our review, the main speech processing approaches for diagnosing autism can be divided into two groups. The first group detects individuals with autism by processing their answers or feelings in response to questions or stories. The second group distinguishes people with autism from healthy people because of the accuracy of recognizing their spoken utterances based on automatic speech recognition systems. Despite much research being conducted outside Iran, few studies have been conducted in Iran. The most important reason for this is the lack of rich data that meet the needs of autism diagnosis based on the speech processing of suspected people. In the second part of the paper, we discuss the process of designing, collecting, and evaluating a speaker-independent dataset for autism diagnosis in Iranian children as the first step in the localization of the mentioned field.
[1] D. Mitsumoto, et al., "Autism spectrum disorder discrimination based on voice activities related to fillers and laughter," in Proc. 53rd Annual Conf. on Information Sciences and Systems, CISS'19, 6 pp., Baltimore, MD, USA, 20-22 Mar. 2019.
[2] M. Alizadeh and S. Tabibian, "A Persian speaker-independent dataset to diagnose autism infected children based on speech processing techniques," in Proc. 7th Int. Conf. on Signal Processing and Intelligent Systems, ICSPIS'21, 5 pp., Tehran, Iran, 29-30 Dec. 2021.
[3] S. Schelinski and K. V. Kriegstein, "Speech-in-noise recognition and the relation to vocal pitch perception in adults with autism spectrum disorder and typical development," J. of Autism Development Disorder, vol. 50, no. 1, pp. 356-363, Jan. 2020.
[4] S. Schelinski and K. V. Kriegstein, "The relation between vocal pitch and vocal emotion recognition abilities in people with autism spectrum disorder and typical development," J. of Autism and Developmental Disorders, vol. 49, pp. 68-82, 2019.
[5] P. P. Denes, The Speech Chain, WH Freeman Company, 1993.
[6] J. Deng, et al., "Speech-based diagnosis of autism spectrum condition by generative adversarial network representations," in Proc. of the Inte. Conf. on Digital Health, pp. 53-57, Londres, UK, 2-5 Jul. 2017.
[7] H. Drimalla, et al., "Detecting autism by analyzing a simulated social interaction," in Proc. Joint European Conf. on Machine Learning and Knowledge Discovery in Databases, pp. 193-208, 10-14 Sept. 2018.
[8] S. Schelinski, Mechanisms of Voice Processing: Evidence from Autism Spectrum Disorder, Ph.D. Thesis, Humboldt University in Berlin, 2018.S [9] A. Baird, et al., "Automatic classification of autistic child vocalisations: a novel database and results," in Proc. InterSpeech'17, pp. 849-853, Stockholm, Sweden, 20-24 Aug. 2017.
[10] E. Lyakso, et al., "AD-Child. Ru: speech corpus for Russian children with atypical development," in Proc. Int. Conf. on Speech and Computer, SPECOM'19, pp. 299-308, Istanbul, Turkey, 20-25 Aug. 2019.
[11] S. Sadiq, et al., "Deep learning based multimedia data mining for autism spectrum disorder (ASD) diagnosis," in Proc. Int. Conf. on Data Mining Workshops, ICDMW'19, pp. 847-854, Beijing, China, 8-11 Nov. 2019.
[12] W. Liu, T. Zhou, C. Zhang, X. Zou, and M. Li, "Response to name: a dataset and a multimodal machine learning framework towards autism study," in Proc. 7th Int. Conf. on Affective Computing and Intelligent Interaction, ACII'17, pp. 178-183, San Antonio, TX, USA, 23-26 Oct. 2017.
[13] K. Welarathna, V. Kulasekara, K. Pulasinghe, and V. Piyawardana, "Automated sinhala speech emotions analysis tool for autism children," in Proc. 10th Int. Conf. on Information and Automation for Sustainability, ICIAfS'21, pp. 500-505, Negambo, Sri Lanka, 11-13 Aug. 2021.
[14] D. Xu, et al., "Automatic childhood autism detection by vocalization decomposition with phone-like units," in Proc. of the 2nd Workshop on Child, Computer and Interaction, WOCCI '09, Article ID: 5, 7 pp., Cambridge, MA, USA, 5-5 Nov. 2009.
[15] L. G. Pillai and E. Sherly, "A deep learning based evaluation of articulation disorder and learning assistive system for autistic children," International J. on Natural Language Computing, vol. 6, no. 5, pp. 19-36, Oct. 2017.
[16] J. Zhang, Y. Meng, C. Wu, Y. T. Xiang, and Z. Yuan, "Non-speech and speech pitch perception among cantonese-speaking children with autism spectrum disorder: an ERP study," Neuroscience Letters, vol. 703, pp. 205-212, Jun. 2019.
[17] N. A. Chi, et al., "Classifying autism from crowdsourced semistructured speech recordings: machine learning model comparison study," JMIR Pediatrics and Parenting, vol. 5, Article ID: e35406, Apr. 2022.
[18] A. Khozaei, H. Moradi, R. Hosseini, H. Pouretemad, and B. Eskandari, "Early screening of autism spectrum disorder using cry features," PloS One, vol. 15, Article ID: e0241690, Dec. 2020.
[19] T. Talkar, J. R. Williamson, D. J. Hannon, H. M. Rao, S. Yuditskaya, K. T. Claypool, et al., "Assessment of speech and fine motor coordination in children with autism spectrum disorder," IEEE Access, vol. 8, pp. 127535-1275452020.
[20] A. Mohanta and V. K. Mittal, "Acoustic features for characterizing speech of children affected with ASD," in Proc. IEEE 16th India Council Int. Conf., INDICON'19, 4 pp., Rajkot, India, 13-15 Dec. 2019.
[21] A. Mohanta, P. Mukherjee, and V. K. Mirtal, "Acoustic features characterization of autism speech for automated detection and classification," in Proc. National Conf. on Communications, NCC'20, 6 pp., Kharagpur, India, 21-23 Feb. 2020.
[22] F. Ringeval, et al., "Automatic analysis of typical and atypical encoding of spontaneous emotion in the voice of children," in Proc. 17th Annual Conf. of the Int. Speech Communication Association, ISCA'16, pp. 1210-1214, San Francisco, CA, USA, 8-12 Sept. 2016.
[23] I. F. Lin, et al., "Vocal identity recognition in autism spectrum disorder," PloS One, vol. 10, Article ID: e0129451, Jun. 2015.
[24] F. Ringeval, et al., "Automatic intonation recognition for the prosodic assessment of language-impaired children," IEEE Trans. on Audio, Speech, and Language Processing, vol. 19, no. 5, pp. 1328-1342, Oct. 2010.
[25] M. Asgari, A. Bayestehtashk, and I. Shafran, "Robust and accurate features for detecting and diagnosing autism spectrum disorder," in Proc. Annual Conf. of the Int. Speech Communication Association, - pp. 191-194, 25-29 Aug. 2013.
[26] E. Lyakso, et al., "Speech features of 13-15 year-old children with autism spectrum disorders," in Proc. Int. Conf. on Speech and Computer, SPECOM'20, pp. 291-303, St. Petersburg, Russia, 7-9 Oct. 2020.
[27] S. R. Livingstone and F. A. Russo, "The ryerson audio-visual database of emotional speech and song (RAVDESS): a dynamic, multimodal set of facial and vocal expressions in north american english," PloS One, vol. 13, Article ID: e0196391, May 2018.
[28] R. Matin and D. Valles, "A speech emotion recognition solution-based on support vector machine for children with autism spectrum disorder to help identify human emotions," in Proc. Intermountain Engineering, Technology and Computing, IETC'20, 6 pp., Orem, UT, USA, 2-3 Oct. 2020.
[29] C. Küpper, et al., "Identifying predictive features of autism spectrum disorders in a clinical sample of adolescents and adults using machine learning," Scientific Reports, vol. 10, Article ID: 4805, 11 pp., 2020.
[30] Y. K. Kim, et al., "Analyzing short term dynamic speech features for understanding behavioral traits of children with autism spectrum disorder," in Proc. Interspeech'21, pp. 2916-2920, Brno, Czech Republic, 30 Aug.-3 Sept. 2021.
[31] B. Schuller, S. Steidl, and A. Batliner, "The Interspeech 2009 emotion challenge," in Proc. Interspeech'09, pp. 312-315, Brighton, UK, 6-10 Sept. 2009.
[32] B. Schuller, et al., "The INTERSPEECH 2010 paralinguistic challenge," in Proc. Interspeech'10, pp. 2794-2797, Makuhari, Japan, 26-30 Sept. 2010.
[33] B. Schuller, et al., "The INTERSPEECH 2013 computational paralinguistics challenge: social signals, conflict, emotion, autism," in in Proc. Interspeech'13, pp. 148-152, Lyon, France, 25-29 Aug. 2013.
[34] A. Pahwa, G. Aggarwal, and A. Sharma, "A machine learning approach for identification & diagnosing features of neurodevelopmental disorders using speech and spoken sentences," in Proc. Int. Conf. on Computing, Communication and Automation, ICCCA'16, pp. 377-382, Greater Noida, India, 29-30 Apr. 2016.
[35] S. A. Majeed, H. Husain, S. A. Samad, and T. F. Idbeaa, "Mel frequency cepstral coefficients (MFCC) feature extraction enhancement in the application of speech recognition: a comparison study," J. of Theoretical & Applied Information Technology, vol. 79, no. 1, pp. 38-56, Sept. 2015.
[36] A. Mohanta, P. Mukherjee, and V. K. Mirtal, "Acoustic features characterization of autism speech for automated detection and classification," in Proc. National Conf. on Communications, NCC'20, 6 pp., haragpur, India, 21-23 Feb. 2020.
[37] Z. Sherkatghanad, et al., "Automated detection of autism spectrum disorder using a convolutional neural network," Frontiers in Neuroscience, vol. 13, Article ID: 1325, Jan. 2020.
[38] S. H. R. E. Motlagh, H. Moradi, and H. Pouretemad, "Using general sound descriptors for early autism detection," in Proc. 9th Asian Control Conf., ASCC'13, 5 pp., Istanbul, Turkey, 23-26 Jun. 2013.
[39] A. Wijesinghe, P. Samarasinghe, S. Seneviratne, P. Yogarajah, and K. Pulasinghe, "Machine learning based automated speech dialog analysis of autistic children," in Proc. 11th Int. Conf. on Knowledge and Systems Engineering, KSE'19, 5 pp., Da Nang, Vietnam, 24-26 Oct. 2019.
[40] M. Eni, et al., "Estimating autism severity in young children from speech signals using a deep neural network," IEEE Access, vol. 8, pp. 139489-139500, 2020.
172 نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 21، شماره 3، پاییز 1402
مقاله پژوهشی
طراحی و جمعآوری دادگان گفتاری بهعنوان گام نخست
بومیسازی تشخیص هوشمند اوتیسم در کودکان ایرانی
مریم علیزاده و شیما طبیبیان
چکیده: اختلال طیف اوتیسم، نوعی اختلال رشدی به شمار میآید که از طریق علائمی مانند ناتوانی در برقراری ارتباط اجتماعی، خود را نشان میدهد. بنابراین بارزترین نشانه افراد مبتلا به اوتیسم، اختلال گفتار است. این مقاله در بخش اول به بررسی و مرور مطالعات انجامشده برای تشخیص خودکار اوتیسم بر اساس پردازش گفتار افراد مشکوک به ابتلا میپردازد. با توجه به بررسیهای انجامشده، رویکردهای اصلی پردازش گفتار برای تشخیص اوتیسم به دو گروه تقسیم میشوند. گروه اول با پردازش پاسخها یا احساسات افراد مورد آزمایش در پاسخ به سؤالات یا داستان پرسشگر، افراد مبتلا به اوتیسم را تشخیص میدهند. گروه دوم، افراد مبتلا به اوتیسم را از طریق میزان نرخ دقت بازشناسی گفتارشان
در سیستمهای تشخیص خودکار گفتار از افراد سالم تفکیک میکنند. علیرغم پژوهشهای زیاد انجامشده در این حوزه در خارج از ایران، پژوهشهای اندکی داخل ایران انجام شدهاند که مهمترین دلیل آن، عدم وجود دادگان غنی متناسب با نیازمندیهای تشخیص اوتیسم مبتنی بر پردازش گفتار افراد مبتلا است. در بخش دوم پژوهش حاضر به روند طراحی، جمعآوری و ارزیابی یک مجموعه دادگان گفتاری مستقل از گوینده برای تشخیص اوتیسم در کودکان ایرانی بهعنوان گام نخست بومیسازی حوزه مذکور پرداختهایم.
کلیدواژه: تشخیص اوتیسم، پردازش گفتار، یادگیری ماشین، دادگان گفتاری، کودکان، زبان فارسی.
1- مقدمه
پایش خودکار سلامت، یکی از زمینههای مطرح در حوزه هوش مصنوعی در سالهای اخیر است و در این میان، تشخیص ناهنجاریهای گفتار بیش از پیش مورد توجه قرار گرفته است. با وجود پیشرفتهای گوناگون در جوامع امروزی، هنوز تشخیص ناهنجاری گفتار توسط پزشکان و گفتاردرمانگران صورت میپذیرد. این امر منجر به وابستگی به نیروی انسانی متخصص و تجهیزات مرتبط با این حوزه شده و احتمال رخداد خطا در تشخیص را افزایش میدهد. منشأ ناهنجاریهای گفتار، طیفی وسیع از بیماریها مانند آلزایمر، پارکینسون، ام اس، سکتههای مغزی و قلبی، تومور مغزی، تومور و کیست حنجره و اوتیسم است. بنا بر بررسیهای انجامشده، علیرغم تحقیقات گستردهای که در زمینه تشخیص بیماریهایی مانند آلزایمر، پارکینسون، ام اس، تومور و کیست حنجره مبتنی بر روشهای پردازش گفتار انجام شده است، تحقیقات کمی در زمینه تشخیص اوتیسم مبتنی بر پردازش گفتار افراد صورت گرفته است. افراد مبتلا به اوتیسم از نوعی اختلال رشدی رنج میبرند که با علائمی همچون ناتوانی در برقراری ارتباطات اجتماعی نمایان میشود [1]. شکل 1 زنجیره تولید گفتار در انسان را نشان میدهد. همان طور که مشاهده میکنید، تولید گفتار با شکلگیری ایده بیان کلمات، عبارات یا جملات از مغز انسان شروع میشود. سپس فرمانهایی از مغز به اندامهای گفتاری مانند لبها، دندانها، تارهای صوتی و زبان جهت قرارگرفتن آنها در موقعیت مشخص و بهمنظور بیان آواهای کلمات تشکیلدهنده ایده مذکور صادر میشود. در پایان، آواهای متناظر با ایده مذکور توسط اندامهای گفتاری ادا میشوند. افراد مبتلا به اوتیسم در همان آغاز این فرایند، یعنی مغز دچار اختلال هستند که این اختلال میتواند بر صدور فرمان به اندامهای گفتاری و در نتیجه بیان یا نحوه بیان واحدهایی آوایی و کلمات و جملات شامل آنها و حتی مکالمههای دونفره و یا داستانگویی تأثیر گذارد. در این بین، واحدهای آوایی که شامل مصوت "ی" هستند، بیشترین مشکل را تولید میکنند. این بهدلیل عدم برقراری ارتباط کودکان مبتلا به اوتیسم با دنیای اطراف و عدم توانایی بیان واحدهای آوایی تداعیکننده فرم خنده در صورت است [2]. در حالی که افراد سالم توانایی خندیدن همزمان با گفتار را دارند، افراد مبتلا به اوتیسم قادر به انجام این کار نیستند [1]. از سوی دیگر تشخیص فرکانس گام و گفتار افراد مبتلا به اوتیسم در محیطهای نویزی نسبت به افراد سالم سختتر است؛ زیرا افراد مبتلا به اوتیسم، نسبت سیگنال به نویز 2(SNR) پایینتری دارند [3]. از طرف دیگر، کودکان مبتلا به اوتیسم دارای اختلالاتی در پردازش و درک ویژگیهای پایهای3 مثل فرکانس گام گفتار هستند که منجر به اختلالاتی در درک و تولید لحن صدا و احساسات مانند غم و شادی میشود [4]. پس تشخیص ابتلای افراد به اوتیسم میتواند مبتنی بر تحلیل و پردازش گفتارشان صورت پذیرد.
فضای خالی پژوهشی در این حوزه در کنار اهمیت بیشتر تشخیص بیماری اوتیسم در قیاس با گذشته، انگیزههای لازم جهت پرداختن به این حوزه را ایجاد کرده است. از این رو در بخش ابتدایی این مقاله، تحلیل و بررسی رویکردهای تشخیص بیماری اوتیسم مبتنی بر روشهای پردازش گفتار، محور اصلی کار قرار گرفته و از سوی دیگر، فضای خالی پژوهشی در این حوزه در داخل ایران بسیار بیشتر نمایان است؛ بهطوری که متأسفانه در داخل کشور تحقیقاتی در زمینه تشخیص اوتیسم از طریق گفتار منتشر نشده که یکی از دلایل اصلی آن، کمبود دادگان در این حوزه است. لذا گام نخست بومیسازی تشخیص اوتیسم مبتنی بر پردازش گفتار،
[1] این مقاله در تاریخ 29 بهمن ماه 1401 دریافت و در تاریخ 12 اردیبهشت ماه 1402 بازنگری شد.
مریم علیزاده، پژوهشکده فضای مجازی، دانشگاه شهید بهشتی، تهران، ایران، (email: mar_alizadeh@sbu.ac.ir).
شیما طبیبیان (نویسنده مسئول)، پژوهشکده فضای مجازی، دانشگاه شهید بهشتی، تهران، ایران، (email: sh_tabibian@sbu.ac.ir).
[2] . Signal to Noise Ratio
[3] . Basic Features
شکل 1: زنجیره گفتار [5].
افراد مبتلا را به جمعآوری دادگان گفتاری مناسب اختصاص داده که در این مقاله به آن پرداختهایم.
در بخش دوم، کارهای پیشین انجامشده در این حوزه را مرور خواهیم کرد و چارچوبی را برای تشخیص اوتیسم مبتنی بر روشهای پردازش گفتار ارائه میدهیم. تحقیقات انجامشده نشاندهنده این موضوع هستند که دادگان معتبری در این زمینه در ایران جمعآوری نشده است؛ لذا در بخش سوم به معرفی دادگان جدید تحت نظر درمانگر اوتیسم بهعنوان نخستین گام بومیسازی این حوزه در ایران و ارزیابی دادگان ارائهشده با استفاده از مدل مخفی مارکوف 1(HMM) پرداختهایم. در پایان، مقاله در بخش چهارم جمعبندی شده است.
2- مرور ادبیات پیشین
رویکردهای موجود در حوزه تشخیص اوتیسم مبتنی بر پردازش گفتار به دو دسته تقسیم میشوند. دسته اول از طریق پردازش نوع گفتار و احساسات بداهه افراد در واکنش به داستان، جملات و یا سؤالات فرد پرسشگر به تشخیص و تفکیک افراد مبتلا به اوتیسم از افراد سالم میپردازد. دسته دوم از طریق پردازش و تحلیل سیگنال گفتار تولیدشده توسط افراد مورد آزمایش به تشخیص و تفکیک افراد مبتلا به اوتیسم از افراد سالم میپردازد. از میان پژوهشهای دسته اول میتوان به پژوهش جان بنگ و همکارانش اشاره نمود که از طریق خواندن داستان و نشاندادن عکس و نهایتاً با بررسی گفتار و رفتار بداهه و نوع واکنش احساسی کودک، امکان ابتلا به اوتیسم کودکان را تحلیل کردهاند [6]. استفانی شلینسکی و همکارانش از طریق بیان 134 کلمه دوهجایی آلمانی شامل احساسات شادی، غم، ترس، عصبانیت، انزجار و یا حالت خنثی
و پردازش واکنش افراد مورد آزمایش به بررسی امکان ابتلای آنها به اوتیسم پرداختهاند [4]. هانا درایمالا و همکارانش در انجام پژوهششان پاسخ کودکان به سؤالات مورد پرسش را که باید دربرگیرنده احساسات غم، ترس، عصبانیت، انزجار یا شادی باشد برای تشخیص ابتلا به اوتیسم استفاده کردهاند [7]. استفانی شلینسکی از طریق نوع پاسخ و واکنش
به سؤالها، دقت حاصل از تشخیص هویت، درک احساسات و گفتار، به تفکیک افراد سالم از افراد مبتلا به اوتیسم پرداخته است [8]. آلیس برد و همکارانش از طریق داستانسرایی که توسط رباتی انساننما صورت گرفته و بررسی رفتارهای اجتماعی و واکنشهای احساسی نسبت به وقایع داستان «جادوگر شهر اوز» به تفکیک افراد سالم از افراد مبتلا به اوتیسم پرداختهاند [9]. النا لیاکس و همکارانش با بررسی دقت تشخیص معنای واژگان گفتار اداشده و دقت تشخیص سن و جنسیت گویندگان در قالب دو نوع آزمایش به تفکیک افراد سالم از افراد مبتلا به اوتیسم پرداختهاند [10]. همچنین استفانی شلینسکی و همکارانش از آزمون بازشناسی گفتار در حضور نویز و آزمون بررسی درک فرکانس گام2 گفتار توسط افراد مورد آزمایش برای تفکیک افراد سالم از افراد مبتلا به اوتیسم بهره بردهاند [3]. سعید صدیق و همکارانش از طریق بررسی ارتباطات اجتماعی مانند رفتارهای تکراری و کلیشهای به تفکیک افراد سالم از افراد مبتلا به اوتیسم پرداختهاند [11]. ونبو لو و همکارانش بر اساس واکنش افراد به اسامی (سرعت واکنش افراد، مدت برقراری ارتباط چشمی و جهت سر) به تفکیک افراد سالم از افراد مبتلا به اوتیسم پرداختهاند [12]. ولاراتنا و همکارانش از طریق دستهبندی احساسات گفتار کودکان به هشت کلاس مختلف غم، انزجار، تعجب، خنثی، شادی، آرامش، ترس و خشم، افراد سالم را از افراد مبتلا به اوتیسم تفکیک کردهاند [13].
از میان پژوهشهای دسته دوم میتوان به پژوهش دایکی میتسوموتو و همکارانش اشاره نمود که از ویژگیهای صوتی مانند پرکنندهها، خنده و ویژگیهای عروضی3 جهت تشخیص اوتیسم استفاده کردهاند. به دلیل اینکه افراد مبتلا به اوتیسم، توانایی استفاده از پرکنندهها و یا صحبت همراه با خنده را ندارند، استخراج این ویژگیها بهعنوان بهترین معیار جهت تشخیص افراد مبتلا به اوتیسم بهکار رفته است [1]. دونگ سین زو و همکارانش از پردازش سیگنال گفتار مبتنی بر 39 مدل برای واجهای انگلیسی مانند a، t و هفت مدل برای مکث، گریه، تردید و نفسکشیدن استفاده کردهاند [14]. لینا جی پیلای و همکارانش از 14 واحد آوایی در زبان مالایالم4 و اختلاف نرخ بازشناسی گفتار افراد جهت تشخیص افراد مبتلا به اوتیسم استفاده کردهاند [15]. جان ژانگ و همکارانش با بررسی سیگنالهای EEG در دو حالت گفتار و سکوت به تشخیص افراد مبتلا
به اوتیسم پرداختهاند [16]. سیگنالهای گفتاری کودکان مبتلا به اوتیسم دارای اختلالات عروضی شامل فرکانس گام غیرعادی5، لحن یکنواخت و الگوهای تأکید زبانی غیرمرتبط است که در گفتار آنها نمایان میشود. ناتان آ چی و همکارانش با اتکا بر همین امر و ضبط و ثبت رفتارهای معمول و طبیعی کودکان به تفکیک آنها پرداختهاند [17]. آیدا خزایی و همکارانش با استفاده از ویژگیهای گریه به تفکیک افراد سالم از افراد مبتلا به اوتیسم پرداختهاند [18]. تانیا تالکار و همکارانش به محاسبه ارتباط بین ویژگیهای آکوستیکی شامل ویژگیهای سطح بالا و سطح پایین شامل فرکانس اصلی 6)0(F، شدت و ارتباط 0F و شدت در بیان
[1] . Hidden Markov Model
[2] . Vocal Pitch Perception
[3] . Prosodic Features
[4] . Malayalam
[5] . Atypical Pitch
[6] . Fundamental Frequency
شکل 2: فرایند کلی تشخیص افراد مبتلا به اوتیسم از طریق گفتار.
واحدهای آوایی مانند "pa-ta-ka"، ویدئو و دستخط مشتقشده از افراد سالم و مبتلا به اوتیسم پرداختهاند [19]. آبیجیت موهانتا و همکارانش با ارائه پنج واحد آوایی شامل /a/، /e/، /i/، /o/ و /u/ و درنظرگرفتن ناحیه تغییر واحدهای آوایی، افراد سالم را از افراد مبتلا به اوتیسم تشخیص دادهاند [20]. در پژوهش دیگری، تصاویر گیاهان، حیوانات و شمارههای انگلیسی به کودکان نشان داده شده و کودکان نام آنها را گفتهاند. قالب کلماتی که ادا میشود شامل صامت- مصوت- مصوت- صامت 1(CVVC) یا شامل صامت- مصوت- صامت 2(CVC) است [21].
شکل 2 فرایند کلی تشخیص ابتلا به اوتیسم را از طریق پردازش گفتار افراد مشکوک به ابتلا نشان میدهد. همان طور که در شکل آمده است، فرایند تشخیص افراد مبتلا به اوتیسم از طریق گفتار دارای دو مرحله آموزش و آزمون است. در مرحله آموزش ابتدا دادگان آموزش، وارد شده و سپس ویژگیهایی با قابلیت ایجاد بیشترین تمایز در بین دستههای مربوط به دادههای ورودی استخراج میگردند. ویژگیهای استخراجشده بهمنظور آموزش دستهبند استفاده میشوند. در مرحله آزمون ابتدا استخراج ویژگی از دادهها انجام میگیرد و پس از آن، دستهبند آموزشیافته در مرحله آموزش بر روی ویژگیهای استخراجشده از دادگان آزمون اعمال میشود. خروجی حاصل از دستهبند بهطور مستقیم (بر اساس تحلیل واکنش افراد) یا غیرمستقیم (بر اساس دقت بازشناسی گفتار عبارات اداشده توسط افراد مورد آزمایش) برای تفکیک افراد سالم از افراد مبتلا به اوتیسم استفاده میشود. در ادامه به معرفی دادگان، ویژگیها و رویکردهای دستهبندی مطرح این حوزه میپردازیم.
2-1 دادگان مطرح برای تشخیص اوتیسم مبتنی بر رویکردهای پردازش گفتار
دادگان مورد استفاده جهت تشخیص اوتیسم از طریق گفتار به دو دسته تقسیم میشوند. دادگان نوع اول، حاوی صداها یا سخنانی هستند که برای کودکان پخش میشوند و بر اساس تحلیل نوع واکنشهای دریافتشده به تشخیص اوتیسم میپردازند. دادگان نوع دوم حاوی گفتار ضبطشده از افراد مبتلا به اوتیسم و سالم هستند که بر اساس دقت بازشناسی گفتار، تشخیص ابتلا یا عدم ابتلا به اوتیسم صورت میگیرند. جدول 1 مجموعهای از رایجترین پایگاه دادههای انتشاریافته و استفادهشده در این حوزه را نشان میدهد.
2-2 ویژگیهای مطرح برای تشخیص اوتیسم مبتنی بر رویکردهای پردازش گفتار
متناسب با دستهبندی رویکردهای تشخیص اوتیسم مبتنی بر روشهای پردازش گفتار برای استخراج ویژگی نیز دو رویکرد لحاظ میشود. در رویکرد اول، ویژگیهای مورد نیاز بر اساس واکنشهای افراد و در رویکرد دوم، مستقیماً از سیگنال گفتار افراد استخراج میشوند. از سوی دیگر، ویژگیهای استخراجشده به سه دسته ویژگیهای عروضی، آکوستیکی و واکنش و عکسالعملهای اجتماعی تقسیم میشوند.
بر اساس مطالعات انجامشده در رویکرد اول، ویژگیهای آکوستیکی عمدتاً شامل ویژگیهای استخراجشده از مجموعههای [31]، [32] و COMPARE [33] در [9]، ویژگیهای استخراجشده از مجموعههای 3eGeMAPS و COMPARE در [6]
و ویژگیهای MFCC در [11] و [12] هستند. همچنین ویژگیهای عروضی شامل واریانس فرکانس و امتیاز 41F مانند [13] و شیمر، جیتر، فرکانس گام، مکث قبل از تغییر گوینده در گفتمان دونفره و پرکنندهها در [34] هستند. در برخی از پژوهشهای رویکرد اول نیز از ترکیب ویژگیهای آکوستیکی و عروضی مانند فرکانس گام و تن صدا و درک سکوت5 استفاده شده است [8]. در رویکرد دوم، ویژگیهای آکوستیکی عمدتاً شامل MFCC، نرخ گذار از صفر 6(ZCR)، فرمانتهای اول تا پنجم7، انرژی، 0F، ویژگیهای فرکانس غالب 8(1FD و 2FD)، زیر و بمی صدا9، ضرایب کپستروم پیشبینی خطی 10(LPCC) و شدت11 در [15]، [35] و [36] هستند. همچنین مرکز طیفی12، فرکانس گام، میانگین انحراف از لگاریتم توان13، انحراف استاندارد14، 0F، ضریب چولگی طیف15
[1] . Consonant-Vowel-Vowel-Consonant
[2] . Consonant-Vowel-Consonant
[3] . Geneva Minimalistic Acoustic Parameter
[4] . F1 Score
[5] . Non-Vocal Pitch Perception
[6] . Zero Crossing Rate
[7] . The First, Second, Third, Fourth, and Fifth Formants
[8] . Dominant Frequencies
[9] . Pitch
[10] . Linear Prediction Cepstrum Coefficients
[11] . Intensity
[12] . Kurtosis of Centroid
[13] . Mean of Deviation of Log Power
[14] . Standard Deviation
[15] . Skewness
شکل 3: توزیع پرتکرارترین ویژگیهای استفادهشده در مقالات مورد مطالعه.
جدول 1: محبوبترین دادگان مورد استفاده برای تشخیص اوتیسم بر اساس تکنیکهای پردازش گفتار.
رویکرد تشخیص اوتیسم | نام پایگاه داده | مرجع استفادهکننده از دادگان | محتویات دادگان |
دسته اول | CPESD* [22] | [6] | ضبط و ثبت گفتار بداهه شامل سه دسته از احساسات (مثبت، خنثی و منفی) از کودکان دارای اختلالات رشد (توسط نشاندادن عکس و تعریف داستان مربوط به آن عکس) |
ETL-WD** | [23] | کلمات معنادار دو یا سههجایی بدون دارابودن احساسات مثبت یا منفی (خنثی) | |
DE-ENIGMA [9] | [9] | دادههای صوتی جمعآوریشده طی سه تا پنج جلسه کوتاه روزانه. کودکان در یک برنامه آموزشی تشخیص احساسات به رهبری انسان یا ربات بر اساس کتاب کار «آموزش کودکان مبتلا به اوتیسم در خواندن ذهن#» شرکت کردهاند. | |
CPSD## [24] | [25] | 2542 فایل گفتاری کوتاه از چهار نوع لحن بیان برای ارزیابی تواناییهای کودکان در تقلید از انواع لحن بیان | |
AD-Child. Ru [10] | [26] و [10] | فایلهای طولانی (10 تا 15دقیقهای) کودکانی با رشد ذهنی غیرعادی (مانند کودکان مبتلا به اوتیسم، سندروم دان و ...) در سنین بین 4 تا 16 سال؛ حاوی گفتار آزمایشگر، والدین و گاهی اوقات کودکان دیگر به زبان روسی | |
RAVDESS$ [27] | [28] | فایلهای صوتی و تصویری گردآوریشده در آمریکای شمالی همراه با هشت احساس مختلف (شادی، غم، خنثی، تعجب، آرامش، خشم، ترس و انزجار) | |
Response to Name Dataset [12] | [12] | عکسالعملهای کودکان هنگام صدازدن نام کودکان | |
ADOS module [29] | [1] و [30] | الگوهای رفتاری مرتبط با افراد مبتلا به اوتیسم شامل ارتباطات و ویژگیهای رفتاری کلیشهای و تکراری، کیفیت واکنشهای اجتماعی، تماس چشمی غیرعادی، میزان ارتباطات اجتماعی متقابل و طرز ایستادن | |
دسته دوم | Autism Speech Dataset [20] | [20] و [21] | ارائه و معرفی پنج حرف صدادار انگلیسی شامل /a/، /e/، /i/، /o/ و /u/ |
* Child Pathological & Emotional Speech Database
Japanese Phonetically-Balanced Word Speech Database **، تولیدشده توسط مؤسسه ملی علوم و فناوری پیشرفته صنعتی و منتشرشده توسط کنسرسیوم (consortium) منابع گفتاری مؤسسه ملی انفورماتیک در ژاپن
# Teaching Children with Autism to Mind-Read
## Child Pathological Speech Database
$ The Ryerson Audio-Visual Database of Emotional Speech and Song
و ضریب کشیدگی طیف1 بهعنوان ترکیب ویژگیهای عروضی و آکوستیکی در [1] استفاده شدهاند. بر اساس تحقیقات انجامشده، گرایش به استفاده از ویژگیهای آکوستیکی و یا ترکیبات آنها در هر دو رویکرد بیشتر از ویژگیهای عروضی است و همچنین بیش از 50 درصد تحقیقات انجامشده در هر دو رویکرد از ویژگیهای آکوستیکی بیشتر از سایر ویژگیها بهره گرفتهاند. از میان ویژگیهای منتسب به واکنشها و عکسالعملهای اجتماعی که غالباً جزو ویژگیهای رویکرد اول محسوب میشوند، میتوان به خندیدن هنگام صحبت، استفاده از صداهایی مثل «ایم» یا «آه» در زمانی که حرفی برای گفتن نداریم و یا در حال فکر هستیم، اشاره کرد [1]. شکل 3 توزیع پرتکرارترین ویژگیهای استفادهشده در مقالات مورد مطالعه را نشان میدهد. بر اساس شکل، گرایش به استفاده از ویژگیهای MFCC و یا ترکیب آن با سایر ویژگیها بسیار زیاد است.
2-3 روشهای دستهبندی مطرح برای تشخیص اوتیسم مبتنی بر رویکردهای پردازش گفتار
دستهبندهای مورد استفاده در حوزه اوتیسم مبتنی بر رویکردهای پردازش گفتار را میتوان به دو گروه تقسیم کرد. در گروه اول، بر اساس
[1] . Kurtosis
جدول 2: روشهای مختلف دستهبندی مورد استفاده جهت تشخیص اوتیسم مبتنی بر گفتار در رویکرد اول.
دقت تشخیص (%) | نرخ تشخیص گفتار/ احساسات (%) | تکنیکهای دستهبندی | سال | مرجع | |||
افراد سالم | افراد مبتلا به اوتیسم | افراد سالم | افراد مبتلا به اوتیسم | ||||
89 | 10 | گزارشنشده | گزارشنشده | GAN و مقایسه با سایر دستهبندها مانند SVM خطی، SVM همراه با کرنل تابع پایه شعاعی (RBF)* و MLP | 2017 | [6] | |
گزارشنشده | 7/73 | گزارشنشده | گزارشنشده | شبکه عصبی پیچشی (CNN)** (برای دستهبندی تصاویر) و SVM (برای دستهبندی گفتار) | 2017 | [9] | |
گزارشنشده | 93# | گزارشنشده | گزارشنشده | درخت تصمیم | 2017 | [12] | |
گزارشنشده | 78 | گزارشنشده | گزارشنشده | جنگل تصادفی، SVM (برای دستهبندی گفتار) و CNN (برای دستهبندی تصاویر) | 2018 | [7] | |
گزارشنشده | گزارشنشده | 7/84 | حافظه کوتاهمدت ماندگار (LSTM)## | 2019 | [11] | ||
گزارشنشده | گزارشنشده | 36 (فرکانس گام)، 82 (احساسات گفتار) و 82 (درک بدون فرکانس گام) | 65 (فرکانس گام)، 62 (احساسات گفتار) و 81 (درک بدون فرکانس گام) | رویکردهای دستهبندی ارائهشده در سیستم ANOVA | 2019 | [4] | |
گزارشنشده | 77 | گزارشنشده | گزارشنشده | استفاده از دستهبند SVM و مقایسه با دستهبندهای درخت تصمیم، پرسپترون و رگرسیون لجستیک | 2020 | [28] | |
گزارشنشده | گزارشنشده | 90 | CNN | 2021 | [13] |
* Radial Basis Function
** Convolutional Neural Networks
# این مقاله از تشخیص خودکار نام در هنگام صدازدن مبتنی بر تشخیص گفتار استفاده میکند و به این ترتیب، پایگاه داده "Response to Name Dataset" را جهت تشخیص اختلال طیف اوتیسم ارائه داده است. همچنین از طریق تشخیص صورت و تخمین موقعیت سر با درنظرگرفتن سرعت واکنش، مدت برقراری ارتباط چشمی و جهت سر استفاده کرده است.
## Long Short-Term Memory
تحلیل واکنش فرد به یک گفتار، موزیک یا سیگنال خاص به تفکیک افراد سالم از افراد مبتلا به اوتیسم میپردازند. در گروه دوم بر اساس استخراج ویژگی گفتار بیانشده توسط خود فرد و تحلیل گفتارشان با استفاده از انواع دستهبندها به تفکیک افراد سالم از افراد مشکوک به ابتلا به اوتیسم پرداخته میشود. معمولاً در این گروه، اختلاف بارز نرخ بازشناسی خودکار گفتار افراد سالم و افراد مبتلا به اوتیسم برای تفکیک این دو دسته از هم استفاده میشود.
جدولهای 2 و 3، روشهای مختلف دستهبندی در دو رویکرد مذکور را ارائه کردهاند. در بعضی از تحقیقات مورد بررسی در جدول 2 (بهویژه در دسته اول)، روشهای دستهبندی به تفکیک افراد سالم از افراد مبتلا به اوتیسم پرداختهاند. در این مقالات، نتایج ارزیابی برحسب دقت تشخیص افراد سالم و دقت تشخیص افراد مبتلا به اوتیسم گزارش شدهاند. با این حال در سایر مطالعات انجامشده (بهویژه در دسته دوم)، نتایج بهدستآمده از روشهای دستهبندی باید تجزیه و تحلیل شوند تا افراد سالم از افراد مبتلا به اوتیسم تفکیک گردند. نتایج ذکرشده معمولاً نرخ بازشناسی صحیح1 گفتار افراد سالم یا مبتلا به اوتیسم است. تفاوت بارز بین نرخ بازشناسی صحیح برای جداسازی افراد سالم از افراد مبتلا به اوتیسم استفاده میشود.
شکل 4 توزیع استفاده از انواع دستهبندها و ترکیباتشان را در مقالات مطالعهشده نشان میدهد. مطابق با جدول 2 و نمودار توزیع دستهبندها در شکل 4، در اکثر تحقیقات بررسیشده از دستهبند SVM یا ترکیبی از این دستهبند با سایر دستهبندها برای تشخیص افراد مبتلا به اوتیسم از افراد سالم استفاده شده است. محققان از روشهای دیگری نیز مانند پردازش تصویر به تشخیص افراد مبتلا به اوتیسم پرداختهاند. مثلاً [37] با بهکارگیری تصاویر MRI از مغز فرد مشکوک به ابتلا و با استفاده از شبکههای عصبی عمیق به تشخیص افراد مبتلا به اوتیسم پرداخته است.
در این بخش، دادگان و تحقیقات موجود در حوزه تشخیص اوتیسم از طریق گفتار را مورد بررسی قرار دادهایم. متأسفانه داخل ایران تحقیقاتی در زمینه تشخیص اوتیسم از طریق گفتار منتشر نشده که از دلایل اصلی آن، کمبود دادگان در این حوزه است. لذا گام نخست بومیسازی تشخیص خودکار اوتیسم را به جمعآوری دادگان گفتاری مناسب اختصاص دادیم. بخش بعدی، جزئیات مربوط به طراحی و جمعآوری دادگان و نتایج تحلیل و ارزیابی این دادگان را توضیح میدهد.
3- جمعآوری دادگان گفتاری مستقل از گوینده به زبان فارسی برای تشخیص کودکان مبتلا به اوتیسم (PersianSIChASD)
برای جمعآوری دادگان گفتاری مناسب علاوه بر مطالعات و تحقیقات انجامشده که نتایج آنها در بخشهای قبلی منعکس شد، به مشاوره با یک متخصص درمانگر در حوزه اوتیسم پرداختیم. توجه به بازه سنی کودکان در این پژوهش از آنجا نشأت میگیرد که هرچه تشخیص ابتلای به اوتیسم در سنین پایینتری انجام شود، احتمال درمان و کیفیت تعاملات اجتماعی افراد افزایش مییابد. لازم به ذکر است که دادگان گفتاری 2PersianSIChASD بهطور مختصر در یک مقاله کنفرانسی بینالمللی به زبان انگلیسی [2] معرفی شده است. اما در مقاله حاضر این دادگان با جزئیات بیشتری، معرفی و با رویکردی متفاوت از رویکرد مقاله کنفرانسی، ارزیابی و تحلیل شده است. همچنین مرور کامل و تحلیل و دستهبندی پژوهشهای انجامشده در حوزه اوتیسم برای اولین بار در کار حاضر ارائه شدهاند. در ادامه روند جمعآوری و ارزیابی دادگان آمده است.
[1] . True Detection Rates
[2] . Persian Speaker-Independent Dataset to Diagnose Children with Autism Spectum Disorder
جدول 3: روشهای مختلف دستهبندی مورد استفاده جهت تشخیص اوتیسم مبتنی بر گفتار در رویکرد دوم.
دقت تشخیص (%) | نرخ تشخیص گفتار/ احساسات (%) | تکنیکهای دستهبندی | سال | مرجع | |||
افراد سالم | افراد مبتلا به اوتیسم | افراد سالم | افراد مبتلا به اوتیسم | ||||
گزارشنشده | 4/87 | گزارشنشده | گزارشنشده | روش بدون نظارت خوشهبندی k-means* | 2009 | [14] | |
17/96 | گزارشنشده | گزارشنشده | SVM | 2013 | [38] | ||
58/93 | 42/69 | گزارشنشده | گزارشنشده | SVM و رگرسیون بردار پشتیبان | 2016 | [34] | |
گزارشنشده | گزارشنشده | 98 | 56 | DNN همراه با خود رمزگذار | 2017 | [15] | |
گزارشنشده | 85 | گزارشنشده | گزارشنشده | SVM، جنگل تصادفی، نزدیکترین همسایه و دستهبند بیز ساده (NB)** | 2021 | [30] | |
گزارشنشده | گزارشنشده | 38/69 | 5/70 | استفاده از ابزار عدم تطابق منفی (MMN)# و دامنه پاسخ عدم تطابق (MMR)## | 2019 | [16] | |
گزارشنشده | 78 (عبارات گفتاری) | گزارشنشده | 72 (تشخیص الگو) | شبکههای عصبی | 2019 | [39] | |
64 | 79 | گزارشنشده | گزارشنشده | SVM | 2019 | [1] | |
گزارشنشده | گزارشنشده | این مقاله چندین وظیفه را تعیین میکند: 1) دقت برای فرمانتها، 0F و ... 2) دقت AUC: 84 حاصل از بیان واحدهای آوایی خاص مانند 'pa-ta-ka'. 3) بیان صامتهای مشخصی که بهترین نتیجه را در فرمانتها (88 AUC:) و 0F و شدت (84AUC:) دارند. 4) گفتار آزاد دارای بهترین نتیجه در 0F (100AUC:) است. 5) تمام وظایف گفتاری دارای بهترین نتیجه در 0F (100AUC:) است. | مدل مخلوط گوسی (GMM)$$ | 2020 | [19]$ | ||
گزارشنشده | گزارشنشده | گزارشنشده | میانگین همبستگی 72/0 با نمرات صحیح ADOS@ | CNN | 2020 | [40] | |
100 | دقت میانگین دخترها و پسرها: 81@@ | گزارشنشده | گزارشنشده | درخت تصمیم | 2020 | [18] | |
1/97 | گزارشنشده | گزارشنشده | SVM و KNN | 2020 | [20]، [21] | ||
جنگل تصادفی: 70 CNN: 79 | گزارشنشده | گزارشنشده | CNN و جنگل تصادفی | 2022 | [17] |
* Unsupervised K-Means Clustering
** Naive Bayes
# Mismatch Negativity
## Mismatch Response
$ There is no clear difference between people with autism and healthy people
$$ Gaussian Mixture Model
@ True ADOS Scores
@@ دقت 7/85 درصد برای 24 پسر مبتلا به اوتیسم و دقت 4/71 درصد برای 7 دختر مبتلا به اوتیسم
3-1 طراحی و جمعآوری دادگان
بر اساس مشاورهها و نظرات متخصص درمانگر در حوزه اوتیسم، از ویژگیهای افراد مبتلا به اوتیسم، کمتوانی در تولید بعضی از واحدهای آوایی میباشد. با توجه به نقاط ضعف افراد مبتلا به اوتیسم، پیشنهادهایی از طرف درمانگر جهت تشخیص ابتلا به اوتیسم مطرح گردید که شامل موارد زیر است:
1) بیان کلمهای توسط سیستم و درخواست بیان کلماتی نزدیک به آن توسط فرد مشکوک به ابتلا
2) بیان صفت سادهای به کودک و درخواست از او برای ساخت موصوف و صفت
3) بیان یک واحد آوایی به کودک و درخواست جهت وصلکردن واحد آوایی دوم به آن
4) بیان کلمهای به کودک و درخواست از او برای تکرار واحد آوایی آخر
5) بیان کلمهای به کودک و درخواست ساخت جمله با آن کلمه
6) بیان یک واحد آوایی (بهعنوان مثال "ت") به کودک و درخواست بیان دو نوع غذا، اسباببازی، گل و ... که با آن واحد آوایی شروع میشود.
7) بیان کلمهای به کودک و درخواست بیان متضاد آن
8) بیان کلمهای بیمعنا به کودک و درخواست بیان کلمه معنادار
9) بیان یک نوع غذا به کودک و درخواست بیان یک نوع غذای دیگر
10) بیان یک عدد به کودک و درخواست گفتن دو عدد قبل یا بعد از آن
11) درخواست از کودک جهت بیان کلمهای با لبهایش یا انتهای حلقش یا زبانش و یا بالعکس (مثلاً سؤال شود که واحد آوایی "ب" با کدام اندام گفتاری بیان میشود).
شکل 4: توزیع استفاده از انواع دستهبندها و ترکیباتشان در مقالات مطالعهشده.
12) بیان واحدهای آوایی سایشی مانند "س" و"ش" به مدت دو یا سه ثانیه همراه با کشش
13) بیان یک واحد آوایی مثل تاتایا و درخواست تغییر نسبتهای واحدهای آواییشان و تکرار یک تعداد مشخص از آن واحد آوایی
14) درخواست بیان با لحن افتان یا خیزان کلمه و یا واحد آوایی
15) بیان حروف یک کلمه معنادار و درخواست از کودک برای بیان درست کلمه. مثلاً میگوییم ک ف ش و کودک باید بگوید کفش.
بر اساس مقالات مطالعهشده و جلسات پرسش و پاسخی که با فرد درمانگر گذاشته شد، واحدهای آوایی جدول 4 جهت تفکیک افراد مبتلا به اوتیسم از افراد سالم، محور جمعآوری دادگان قرار گرفتند. پیشنهادهای دیگر بهدلیل ایجاد سوگیری در نتایج حاصل از آنها و سختی در برقراری ارتباط با افراد مبتلا به اوتیسم استفاده نشدند.
برای ویرایش دادگان PersianSIChASD از نرمافزار کول ادیت1 استفاده گردید و هر فایل ضبطشده در محیط نرمافزار، باز و نمایش داده میشود. چنانچه صداهایی از قبیل کلیک، سرفه، باز و بستهشدن در و ... در بخشهای سکوت فایل وجود داشته باشد، با استفاده از امکانات نرمافزار حذف میشود و سایر نویزهای محیطی در فایل با همان شدت باقی میمانند. البته با توجه به آنکه ضبط صدای گویندگان در محیط تمیز و عاری از نویز انجام شده است، میزان این نویز قابل توجه نیست و بنابراین میتوان ادعا کرد که تمام فایلها بدون هیچ گونه نویز قابل توجهی جمعآوری شدهاند. برچسبگذاری دادگان در سطح واحد آوایی، ادا شده و بهصورت دستی انجام گردیده و همچنین برای قسمتهای سکوت از برچسب sil استفاده شده است. بنابراین دادگان آموزش و آزمون گویندگان سالم حاوی 330 فایل با پسوند wav (30 فایل بهازای هر واحد آوایی) و 330 فایل با پسوند lab (برچسب متناظر با هر فایل واحد آوایی) میباشد. همچنین دادگان آزمون حاوی فایلهای گویندگان مبتلا به اوتیسم حاوی 88 فایل با پسوند wav (8 فایل بهازای هر واحد آوایی) و 88 فایل با پسوند lab (برچسب متناظر با هر فایل واحد آوایی) است.
3-2 ارزیابی دادگان PersianSIChASD مبتنی بر HMM
برای ارزیابی دادگان PersianSIChASD از یک سیستم بازشناس واحدهای آوایی مبتنی بر مدل مخفی مارکوف استفاده شده است. هدف اصلی از ارزیابی دادگان جمعآوریشده، تحلیل و بررسی تناسب واحدهای آوایی انتخابشده در دادگان با سطح توانمندی کودکان مبتلا به اوتیسم است. برای انجام این تحلیل، اختلاف نرخ بازشناسی گفتار در کودکان سالم و کودکان مبتلا به اوتیسم مورد توجه است. برای بازشناسی گفتار میتوانیم از روشهای سنتی مانند مدلهای مخفی مارکوف و ماشین
جدول 4: واحدهای آوایی پیشنهادشده جهت تفکیک افراد مبتلا به اوتیسم از افراد سالم.
شماره | واحدهای آوایی | نمایش معادل در سیستم IPA |
1 | اِی | eɪ |
2 | آی | aɪ |
3 | اِه | əh |
4 | ای | iː |
5 | اوی | uːi |
6 | اُی | ɔːi |
7 | اُوّو | ɔːvvə |
8 | ایّی | iːjjə |
9 | گپگ | gæpægæ |
10 | کشش صامت "س" | ss |
11 | کشش صامت "ش" | ʃʃ |
بردار پشتیبان یا روشهای جدیدی مانند حافظه کوتاهمدت ماندگار یا حتی رویکردهای بازشناسی گفتار پایانه به پایانه استفاده کنیم. هرچه دادگان ضبطشده از کودکان، تناسبی بیشتر با سطح توانمندیهای کودکان مبتلا به اوتیسم در بیان گفتار داشته باشد، اختلاف نرخ دقت بازشناسی گفتار بین کودکان سالم و مبتلا به اوتیسم بالاتر خواهد بود؛ زیرا کودکان سالم، واحدهای آوایی را بدون مشکل خاصی تلفظ میکنند؛ لیکن کودکان مبتلا به اوتیسم یا قادر به تلفظ آنها نبوده یا آنها را بسیار ناقص ادا میکنند. بنابراین رویکرد بازشناسی گفتار، مشروط به انتخاب واحدهای آوایی مناسب، فارغ از نوع روش مورد استفاده (یادگیری عمیق یا روشهای سنتی)، نرخ بازشناسی گفتار بسیار پایینی برای گفتار ضبطشده کودکان مبتلا به اوتیسم دارند و اختلاف نرخ دقت بازشناسی گفتار میان کودکان سالم و مبتلا به اوتیسم، عدد قابل توجهی خواهد بود. با توجه به مشاهده ضعف بارز کودکان مبتلا به اوتیسم در بیان واحدهای آوایی انتخابشده، حجم محدود مجموعه دادگان جمعآوریشده در این پژوهش در قیاس
با نیازمندیهای آموزشی رویکردهای یادگیری عمیق به دادگان بزرگ، کمبودن تعداد واحدهای آوایی مورد نیاز (یازده واحد) و دقت بازشناسی کافی و قابل قبول رویکردهای مبتنی بر مدل مخفی مارکوف بهعنوان یکی از رویکردهای همچنان مطرح در حوزه بازشناسی گفتار در سطح کلمه با دادگان محدود، نیازی به صرف هزینه بالا برای آموزش رویکرد بازشناسی گفتار مبتنی بر روشهای یادگیری عمیق که معمولاً برای بازشناسی گفتار محاورهای مورد استفاده قرار میگیرند، نبوده، روشهای مبتنی بر مدلهای مخفی مارکوف با توجه به هدف پژوهش حاضر از دقت مورد نیاز برخوردار خواهند بود. ارزیابی نتایج بر اساس دو معیار دقت2 و صحت3 انجام شده که با استفاده از (1) و (2) محاسبه میشوند
(1)
(2)
که تعداد تشخیصهای درست، تعداد کل کلمات قابل مقایسه و تعداد خطاهای درج کلمات است.
برای تنظیم پارامترهای مدل مخفی مارکوف، دادگان گویندگان سالم به دو بخش آموزش و آزمون تقسیم شدهاند. مجموعه آزمون گویندگان
جدول 5: بهترین خروجی حاصل از مقدار متغیر بین 10- تا 120- بهازای وضعیتهای 4، 6، 8، 10 و 12 و تعداد توابع گوسی ثابت 16 و تعداد ویژگیهای MFCC 39.
دقت | صحت | p | وضعیت | تعداد ضرایب ویژگی | تعداد مخلوط گوسی |
6/93 | 9/93 | 120- | 4 | 39 | 16 |
9/92 | 6/93 | 150- | 6 | 39 | 16 |
2/91 | 2/92 | 120- | 8 | 39 | 16 |
2/89 | 9/89 | 160- | 10 | 39 | 16 |
5/90 | 2/91 | 130- | 12 | 39 | 16 |
جدول 6: بهترین خروجی حاصل از تعداد گوسی متغیر بین اعداد 4، 8، 16 و 32 بهازای تعداد وضعیت ثابت چهار، تعداد توابع گوسی ثابت 16 و تعداد ضرایب ویژگی ثابت 39.
دقت | صحت | تعداد مخلوط گوسی | p | وضعیت | تعداد ضرایب ویژگی |
60/93 | 61/94 | 4 | 120- | 4 | 39 |
28/94 | 62/95 | 8 | 120- | 4 | 39 |
60/93 | 94/93 | 16 | 120- | 4 | 39 |
27/93 | 94/93 | 32 | 120- | 4 | 39 |
سالم حاوی 99 فایل 9 گوینده اول و مجموعه آموزش حاوی 242 فایل 21 گوینده آخر میباشد و بدیهی است که گویندگان دو مجموعه آزمون و آموزش کاملاً مستقل از هم هستند. تعداد مدلهای مخفی مارکوف شامل 12 مدل بهازای 11 واحد آوایی و سکوت میباشد. بهمنظور انتخاب تعداد بهینه برای وضعیت4، 100 مجموعه مدل مخفی مارکوف (هر یک حاوی 11 مدل برای واحدهای آوایی و یک مدل سکوت) با انتخاب وضعیتهای 4، 6، 8، 10 و 12 آموزش دادیم. در هر وضعیت مقدار جریمه 5(p) را بهازای اندازه مقیاس 6(s) برابر یک بین 10- تا 200- تغییر دادیم. در تمام این وضعیتها تعداد ضرایب ویژگی ثابت و برابر با 39 و همچنین تعداد توابع گوسی نیز ثابت و برابر با 16 هستند. بهترین خروجی حاصل از مقدار p متغیر بین 10- تا 120- بهازای هر کدام از وضعیتها در جدول 5 قرار داده شده است. در بین وضعیتها، دقت و صحت حاصل از تعداد وضعیت چهار دارای بیشترین مقدار است.
در مرحله بعد بهمنظور انتخاب تعداد بهینه برای توابع مخلوط گوسی در هر وضعیت، چهار مجموعه مدل مخفی مارکوف (هر یک حاوی 11 مدل برای واحدهای آوایی و یک مدل سکوت) با انتخاب اعداد 4، 8، 16 و 32 برای تعداد مخلوطهای گوسی با تعداد ویژگیهای MFCC 39 و تعداد وضعیت ثابت چهار آموزش یافتهاند. نتایج حاصل از این ارزیابی در جدول 6 آمده است. همچنین جهت انتخاب تعداد ویژگیهای MFCC، چهار مجموعه مدل مخفی مارکوف (هر یک حاوی 11 مدل برای واحدهای آوایی و یک مدل سکوت) شامل چهار دسته ویژگی مختلف (12 ضریب مل کپستروم و یک ضریب انرژی و در مجموع 13 ضریب) یا 12 ضریب مل کپستروم و یک ضریب انرژی به همراه مشتقات اولشان (در مجموع 26 ضریب) یا 12 ضریب مل کپستروم و یک ضریب انرژی به همراه مشتقات اول یا دومشان (در مجموع 39 ضریب) و یا 12 ضریب مل کپستروم و یک ضریب انرژی به همراه مشتقات اول یا دوم و سومشان (در مجموع 52 ضریب) استخراج شدهاند. نتایج حاصل از ارزیابی این چهار
جدول 7: بهترین خروجی حاصل از تغییر تعداد ضرایب ویژگی بین اعداد 13، 26، 39 و 52 بهازای تعداد وضعیت ثابت چهار، تعداد توابع گوسی ثابت 8 و جریمه ثابت 120-.
دقت | صحت | تعداد ضرایب ویژگی | تعداد مخلوط گوسی | p | وضعیت |
58/91 | 92/91 | 13 | 8 | 120- | 4 |
59/92 | 60/93 | 26 | 8 | 120- | 4 |
28/94 | 62/95 | 39 | 8 | 120- | 4 |
61/93 | 28/95 | 52 | 8 | 120- | 4 |
مدل در جدول 7 آمده است. با توجه به نتایج جدول، بهترین تعداد ضرایب ویژگی بهازای تعداد وضعیت چهار و تعداد توابع مخلوط گوسی هشت، تعداد ضرایب ویژگی برابر با 39 معادل با 12 ضریب اصلی کپستروم فرکانس مل و یک ضریب انرژی به همراه مشتقات اول یا دومشان میباشد. این تنظیم دارای دقت 28/94 درصد و صحت 62/95 درصد بر روی دادگان آزمون کودکان سالم است. در ادامه به ارزیابی دادگان برای هر دو گروه کودکان سالم و مبتلا به اوتیسم با استفاده از تکنیک ارزیابی متقابل چهاربخشی7 میپردازیم. لازم به ذکر است که معمولاً در ارزیابی رویکردهای مبتنی بر مدل مخفی مارکوف که روش مشخصی برای مقداردهی اولیه پارامترها دارند، از تکنیک ارزیابی متقابل بخشی استفاده نمیشود. دلیل استفاده از این تکنیک در این مقاله برای ارزیابی مدل مخفی مارکوف، محدودبودن حجم دادگان و نگرانی نویسندگان مقاله از سوگیری پارامترهای مدل مخفی مارکوف به دادگان گویندگان انتخابشده در مجموعه آموزش بوده است. با انتخاب تکنیک ارزیابی متقابل چهاربخشی، در هر بار آموزش مدلهای مخفی مارکوف از دادگان گفتاری گویندگان متفاوتی در مجموعه آموزش استفاده شده و اطمینان بیشتری از صحت نتایج حاصل میگردد.
در این بخش، 12 مدل مخفی مارکوف را با استفاده از تنظیمات حاصل از بهترین نتایج جدول 7 جهت تشخیص افراد مبتلا به اوتیسم آموزش میدهیم. بخش مربوط به کودکان سالم در دادگان به چهار قسمت مساوی تقسیم شده و هر بار، سه قسمت از چهار قسمت برای آموزش 12 مدل مخفی مارکوف و یک قسمت از چهار قسمت به همراه بخش مربوط به کودکان مبتلا به اوتیسم در دادگان برای ارزیابی استفاده شده است. نهایتاً برای تحلیل، نتایج مربوط به این چهار ارزیابی میانگینگیری شدهاند. جدول 8 نتایج حاصل از شیوه ارزیابی متقابل چهاربخشی را برای دادگان PersianSIChASD با استفاده از بهترین تنظیمات حاصل از جدول 7 (تعداد ضرایب ویژگی 39، وضعیت 4، تعداد گوسی 8 و جریمه 120-) نشان میدهد.
نتایج نشاندهنده این موضوع است که افراد مبتلا به اوتیسم در بیان این مجموعه از واحدهای آوایی دارای اختلال هستند. در بین این واحدهای آوایی، نرخ بازشناسی گفتار واحدهای آوایی "ایّی" و "اِی" دارای نرخ بازشناسی گفتار صفر درصد هستند که نشان از عدم توانایی کودکان مبتلا به اوتیسم در بیان این واحدهای آوایی است. دقت بازشناسی گفتار در [15] که بهعنوان پایه پژوهش ما بهشمار میآید، دارای میانگین نرخ بازشناسی 56 درصد برای افراد مبتلا به اوتیسم است؛ در حالی که HMM دارای میانگین دقت نرخ بازشناسی گفتار 68/15درصد میباشد. افراد مبتلا به اوتیسم در ادای مجموعه واحدهای آوایی پیشنهادشده دارای اختلالاتی هستند؛ لذا انتظار میرود که نرخ بازشناسی گفتار برای افراد
[1] . Cool Edit
[2] . Accuracy
[3] . Correctness
[4] . State
[5] . Penalty
[6] . Scale
[7] . 4-Fold Cross Validation
جدول 8: نتایج حاصل از ارزیابی دادگان شامل بیان واحدهای آوایی با تکنیک ارزیابی متقابل چهاربخشی
توسط افراد سالم و افراد مبتلا به اوتیسم با استفاده از بهترین تنظیمات حاصل از جدول 7.
واحدهای آوایی پیشنهادشده | بخش اول (%) | بخش دوم (%) | بخش سوم (%) | بخش چهارم (%) | ||||
افراد سالم | افراد مبتلا به اوتیسم | افراد سالم | افراد مبتلا به اوتیسم | افراد سالم | افراد مبتلا به اوتیسم | افراد سالم | افراد مبتلا به اوتیسم | |
EY | 2/85 | 0 | 71/68 | 0 | 72/71 | 0 | 80 | 0 |
AY | 81/77 | 33 | 71/75 | 25 | 74 | 30 | 71/79 | 62/16 |
AXHH | 95/76 | 0 | 85/71 | 0 | 73 | 0 | 79 | 0 |
IY | 63/75 | 0 | 71/74 | 37/8 | 71/76 | 0 | 75 | 0 |
UWY | 97/81 | 26 | 28/79 | 75/8 | 14/84 | 2/9 | 80 | 75/5 |
OWY | 86/89 | 8 | 42/87 | 75/17 | 83 | 28/11 | 57/79 | 10 |
OWVAE | 06/80 | 8/35 | 71/81 | 27 | 42/76 | 57/34 | 42/76 | 28/39 |
IYYAE | 17/80 | 7 | 14/79 | 12/8 | 71/80 | 5/16 | 42/78 | 28/9 |
GAEPAEGAE | 47/84 | 3/43 | 25/84 | 75/42 | 42/76 | 65 | 78 | 5/44 |
S | 77/53 | 1/7 | 28/61 | 17 | 42/59 | 0 | 85/60 | 87/6 |
SH | 78/53 | 6/15 | 54 | 24 | 85/58 | 14/18 | 59/71 | 57/17 |
میانگین | میانگین افراد سالم در بین 4 بخش | 85/74 | میانگین افراد مبتلا به اوتیسم در بین 4 بخش | 68/15 |
مبتلا به اوتیسم کم و نزدیک به صفر باشد که نتایج تأییدکننده این واقعیت است. اختلاف میانگین دقت بازشناسی واحدهای آوایی میان افراد سالم و افراد مبتلا به اوتیسم حدود 60 درصد (18/59) میباشد؛ لذا میتوان با استفاده از همین اختلاف نرخ بازشناسی واحدهای آوایی بین افراد سالم و افراد مبتلا به اوتیسم، تفکیک دو گروه از یکدیگر را انجام داد. انجام این کار و ارائه سیستم تشخیص اوتیسم کودکان بر اساس پردازش گفتارشان، گام دوم از بومیسازی تشخیص اوتیسم کودکان ایرانی است که در پژوهش آتی به آن خواهیم پراخت.
4- جمعبندی
اوتیسم نوعی اختلال رشدی- مغزی به شمار میآید. افراد مبتلا به اوتیسم دارای اختلالاتی در لحن و نوع بیان واحدهای آوایی، کلمات و جملات و همچنین در مکالمات دو یا چندنفره و تکگوییهایی مانند داستانسرایی هستند؛ بنابراین تشخیص اوتیسم بهخوبی از طریق رویکردهای پردازش گفتار انجام میشود. دو نوع رویکرد جهت تشخیص و تفکیک افراد سالم از افراد مبتلا به اوتیسم مبتنی بر رویکردهای پردازش گفتار استفاده میشود. در رویکرد اول بر اساس تحلیل نوع واکنش حسی افراد اعم از حس غم یا شادی و لحن صدا نسبت به داستان، جملات یا مکالمات، به تفکیک افراد سالم از افراد مبتلا به اوتیسم پرداخته میشود. در رویکرد دوم بر اساس دقت بازشناسی گفتار اداشده اعم از واحدهای آوایی، کلمات و یا جملات توسط افراد مشکوک به اوتیسم، به تفکیک افراد سالم از افراد مبتلا به اوتیسم پرداخته میشود.
فرایند تشخیص افراد مبتلا به اوتیسم از طریق گفتار شامل دو مرحله آموزش و آزمون است. در مرحله آموزش، ابتدا دادگان آموزشی، وارد و سپس جهت استخراج ویژگی، ویژگیهایی با قابلیت ایجاد بیشترین تمایز میان دستهبندهای هدف از دادگان آموزشی استخراج میشود. برای استخراج ویژگیهای گفتاری جهت تفکیک افراد مبتلا به اوتیسم از
افراد سالم، ویژگیهای آکوستیکی، ویژگیهای عروضی یا ترکیبی از ویژگیهای آکوستیکی و عروضی از گفتار استخراج میشود. ویژگیهای آکوستیکی مورد استفاده جهت تفکیک افراد سالم از افراد مبتلا به اوتیسم شامل ضرایب مل کپستروم، نرخ گذار از صفر، فرمانتهای اول تا سوم و انرژی است. همچنین ویژگیهای عروضی مورد استفاده جهت تفکیک افراد سالم از افراد مبتلا به اوتیسم شامل جیتر، تن صدا و شیمر میباشد. در مرحله بعد، از ویژگیهای استخراجشده جهت آموزش دستهبند استفاده میشود. برای آموزش دستهبند از دستهبندهایی استفاده میشود که قابلیت ایجاد بیشترین تمایز مابین ویژگیهای استخراجشده از دادگان آموزشی را داشته باشند. محبوبترین روشهای دستهبندی برای تفکیک افراد سالم و مبتلا به اوتیسم شامل ماشین بردار پشتیبان، شبکه عصبی پیچشی، شبکه عصبی عمیق، بیز ساده، رگرسیون لجستیک بیزی، جنگل تصادفی، کا نزدیکترین همسایه و شبکه مولد تخاصمی هستند. تحقیقات انجامشده در این زمینه نشان میدهند که ترکیب روش دستهبند مبتنی بر ماشین بردار پشتیبان با سایر روشهای دستهبندی دارای بالاترین دقت است (1/97 درصد دقت برای تشخیص افراد مبتلا به اوتیسم و 58/93 درصد دقت برای تشخیص افراد سالم). خروجی حاصل از دستهبند بهطور مستقیم یا غیرمستقیم جهت تفکیک افراد سالم از افراد مبتلا به اوتیسم مورد استفاده قرار میگیرد. در روش مستقیم بر اساس تحلیل واکنش حسی توسط افراد مورد بررسی نسبت به جملات، کلمات و ... به تفکیک افراد سالم از افراد مبتلا به اوتیسم پرداخته میشود. روش غیرمستقیم بر اساس دقت بازشناسی گفتار اداشده توسط افراد مورد بررسی به تفکیک افراد سالم از افراد مبتلا به اوتیسم میپردازد.
مطالعات انجامشده حاکی از آن است که تحقیقی در زمینه تشخیص اوتیسم از طریق گفتار برای زبان فارسی و یا کودکان ایرانی منتشر نشده که این کاستی میتواند به دلیل عدم وجود دادگان معتبر در این زمینه باشد. فضای خالی در این حوزه در کنار اهمیت بیشتر تشخیص بیماری اوتیسم در قیاس با گذشته، انگیزههای لازم جهت پرداختن به این موضوع را ایجاد کرده است. از این رو در ادامه، مرور و تحلیل پژوهشهای انجامشده در حوزه تشخیص اوتیسم بر مبنای رویکردهای پردازش گفتار، بومیسازی این حوزه از طریق پرداختن به گام نخست آن یعنی معرفی دادگان محور اصلی کار قرار گرفت. بنابراین با مشورت و همفکری متخصص درمانگر در حوزه اوتیسم، مجموعه دادگانی طراحی و گردآوری شد. این دادگان شامل واحدهای آوایی است که افراد مبتلا به اوتیسم در بیان آنها دارای مشکل بوده یا قادر به تلفظ صحیح این واحدهای آوایی نیستند؛ در حالی که افراد سالم قادر به بیان درست و کامل آن واحدهای آوایی میباشند. مثلاً برای اولین بار از ترکیب واحد آوایی "پ" و واحد آوایی "گ" (واحد آوایی "گپگ")، جهت تشخیص و تفکیک افراد سالم از افراد مبتلا به اوتیسم استفاده شده است. نتایج حاصل از درخواست بیان این واحد آوایی، نشانگر عدم توانایی کودکان مبتلا به اوتیسم در تلفظ این واحد آوایی و همچنین، تمام واحدهای آوایی شامل صامتهایی که افراد مبتلا به اوتیسم در تلفظ آنها مشکل دارند یا قادر به تلفظ آن واحدهای آوایی نیستند، است. مثلاً افراد مبتلا به اوتیسم در بیان صامت "ش" یا "س"به صورت کشیده به مدت 5 ثانیه و یا تلفظ واحدهای آوایی که تداعیکننده خنده در صورت فرد هستند (مانند واحدهای آوایی ی) مشکل دارند. همچنین بیان ترکیباتی مانند "ایّی"، "آی"، "اِه"، "اِی"، "اُی" و "ای کشیده" برای آنها سخت است؛ لذا این افراد بهسختی با دنیای پیرامون خود ارتباط برقرار میکنند. نتایج ارزیابی متقابل چهاربخشی روی این دادگان، مبتنی بر مدل مخفی مارکوف بیانگر آن است که میانگین نرخ بازشناسی گفتار واحدهای آوایی پیشنهادشده برای افراد مبتلا به اوتیسم 68/15 درصد است؛ در حالی که میانگین نرخ بازشناسی گفتار واحدهای آوایی پیشنهادی برای افراد سالم حدود 75 درصد میباشد. اختلاف بین افراد سالم و افراد مبتلا به اوتیسم دارای مقدار قابل توجهی (60 درصد) است؛ لذا از این اختلاف بارز نرخ بازشناسی واحدهای آوایی میتوان جهت تشخیص و تفکیک افراد سالم از افراد مبتلا به اوتیسم استفاده کرد. انجام این کار و ارائه سیستم تشخیص اوتیسم کودکان بر اساس پردازش گفتارشان، گام دوم از بومیسازی تشخیص اوتیسم کودکان ایرانی است که در کارهای آتی به آن خواهیم پرداخت. همچنین باید این مسئله را در نظر گرفت که افراد مبتلا به اوتیسم دارای طیفی از ناهنجاریها با شدتهای مختلف در گفتار (ناتوانی در تلفظ بعضی از واحدهای آوایی، کلمات و ساختار جملات)، رفتار (حرکات ناهنجار دست، پا و چشم) و تعاملات اجتماعی (پاسخهای نادرست به جملات) و یا عدم توانایی استفاده از جملات و کلمات در جایگاه مناسب، عدم توانایی خندیدن همزمان با گفتار و استفاده از کلمات پرکننده مانند "ایم" یا "اه" (زمانی که در حین گفتمان دونفره فکر میکنند و یا حرفی برای گفتن ندارند) هستند؛ لذا پیشنهاد میشود که از تلفیق صدا، حالات بدنی، نوع نگاه، حرکات بدن و تصاویر MRI از مغز فرد جهت بررسی دقیقتر این ناهنجاری استفاده شود.
مراجع
[1] D. Mitsumoto, et al., "Autism spectrum disorder discrimination based on voice activities related to fillers and laughter," in Proc. 53rd Annual Conf. on Information Sciences and Systems, CISS'19, 6 pp., Baltimore, MD, USA, 20-22 Mar. 2019.
[2] M. Alizadeh and S. Tabibian, "A Persian speaker-independent dataset to diagnose autism infected children based on speech processing techniques," in Proc. 7th Int. Conf. on Signal Processing and Intelligent Systems, ICSPIS'21, 5 pp., Tehran, Iran, 29-30 Dec. 2021.
[3] S. Schelinski and K. V. Kriegstein, "Speech-in-noise recognition and the relation to vocal pitch perception in adults with autism spectrum disorder and typical development," J. of Autism Development Disorder, vol. 50, no. 1, pp. 356-363, Jan. 2020.
[4] S. Schelinski and K. V. Kriegstein, "The relation between vocal pitch and vocal emotion recognition abilities in people with autism spectrum disorder and typical development," J. of Autism and Developmental Disorders, vol. 49, pp. 68-82, 2019.
[5] P. P. Denes, The Speech Chain, WH Freeman Company, 1993.
[6] J. Deng, et al., "Speech-based diagnosis of autism spectrum condition by generative adversarial network representations," in Proc. of the Inte. Conf. on Digital Health, pp. 53-57, Londres, UK, 2-5 Jul. 2017.
[7] H. Drimalla, et al., "Detecting autism by analyzing a simulated social interaction," in Proc. Joint European Conf. on Machine Learning and Knowledge Discovery in Databases, pp. 193-208, 10-14 Sept. 2018.
[8] S. Schelinski, Mechanisms of Voice Processing: Evidence from Autism Spectrum Disorder, Ph.D. Thesis, Humboldt University in Berlin, 2018.
[9] A. Baird, et al., "Automatic classification of autistic child vocalisations: a novel database and results," in Proc. InterSpeech'17, pp. 849-853, Stockholm, Sweden, 20-24 Aug. 2017.
[10] E. Lyakso, et al., "AD-Child. Ru: speech corpus for Russian children with atypical development," in Proc. Int. Conf. on Speech and Computer, SPECOM'19, pp. 299-308, Istanbul, Turkey, 20-25 Aug. 2019.
[11] S. Sadiq, et al., "Deep learning based multimedia data mining for autism spectrum disorder (ASD) diagnosis," in Proc. Int. Conf. on Data Mining Workshops, ICDMW'19, pp. 847-854, Beijing, China, 8-11 Nov. 2019.
[12] W. Liu, T. Zhou, C. Zhang, X. Zou, and M. Li, "Response to name:
a dataset and a multimodal machine learning framework towards autism study," in Proc. 7th Int. Conf. on Affective Computing and Intelligent Interaction, ACII'17, pp. 178-183, San Antonio, TX, USA, 23-26 Oct. 2017.
[13] K. Welarathna, V. Kulasekara, K. Pulasinghe, and V. Piyawardana, "Automated sinhala speech emotions analysis tool for autism children," in Proc. 10th Int. Conf. on Information and Automation for Sustainability, ICIAfS'21, pp. 500-505, Negambo, Sri Lanka, 11-13 Aug. 2021.
[14] D. Xu, et al., "Automatic childhood autism detection by vocalization decomposition with phone-like units," in Proc. of the 2nd Workshop on Child, Computer and Interaction, WOCCI '09, Article ID: 5, 7 pp., Cambridge, MA, USA, 5-5 Nov. 2009.
[15] L. G. Pillai and E. Sherly, "A deep learning based evaluation of articulation disorder and learning assistive system for autistic children," International J. on Natural Language Computing, vol. 6, no. 5, pp. 19-36, Oct. 2017.
[16] J. Zhang, Y. Meng, C. Wu, Y. T. Xiang, and Z. Yuan, "Non-speech and speech pitch perception among cantonese-speaking children with autism spectrum disorder: an ERP study," Neuroscience Letters,
vol. 703, pp. 205-212, Jun. 2019.
[17] N. A. Chi, et al., "Classifying autism from crowdsourced semistructured speech recordings: machine learning model comparison study," JMIR Pediatrics and Parenting, vol. 5, Article ID: e35406, Apr. 2022.
[18] A. Khozaei, H. Moradi, R. Hosseini, H. Pouretemad, and B. Eskandari, "Early screening of autism spectrum disorder using cry features," PloS One, vol. 15, Article ID: e0241690, Dec. 2020.
[19] T. Talkar, J. R. Williamson, D. J. Hannon, H. M. Rao, S. Yuditskaya, K. T. Claypool, et al., "Assessment of speech and fine motor coordination in children with autism spectrum disorder," IEEE Access, vol. 8, pp. 127535-1275452020.
[20] A. Mohanta and V. K. Mittal, "Acoustic features for characterizing speech of children affected with ASD," in Proc. IEEE 16th India Council Int. Conf., INDICON'19, 4 pp., Rajkot, India, 13-15 Dec. 2019.
[21] A. Mohanta, P. Mukherjee, and V. K. Mirtal, "Acoustic features characterization of autism speech for automated detection and classification," in Proc. National Conf. on Communications, NCC'20, 6 pp., Kharagpur, India, 21-23 Feb. 2020.
[22] F. Ringeval, et al., "Automatic analysis of typical and atypical encoding of spontaneous emotion in the voice of children," in Proc. 17th Annual Conf. of the Int. Speech Communication Association, ISCA'16, pp. 1210-1214, San Francisco, CA, USA, 8-12 Sept. 2016.
[23] I. F. Lin, et al., "Vocal identity recognition in autism spectrum disorder," PloS One, vol. 10, Article ID: e0129451, Jun. 2015.
[24] F. Ringeval, et al., "Automatic intonation recognition for the prosodic assessment of language-impaired children," IEEE Trans. on Audio, Speech, and Language Processing, vol. 19, no. 5, pp. 1328-1342, Oct. 2010.
[25] M. Asgari, A. Bayestehtashk, and I. Shafran, "Robust and accurate features for detecting and diagnosing autism spectrum disorder,"
in Proc. Annual Conf. of the Int. Speech Communication Association, - pp. 191-194, 25-29 Aug. 2013.
[26] E. Lyakso, et al., "Speech features of 13-15 year-old children with autism spectrum disorders," in Proc. Int. Conf. on Speech and Computer, SPECOM'20, pp. 291-303, St. Petersburg, Russia, 7-9 Oct. 2020.
[27] S. R. Livingstone and F. A. Russo, "The ryerson audio-visual database of emotional speech and song (RAVDESS): a dynamic, multimodal set of facial and vocal expressions in north american english," PloS One, vol. 13, Article ID: e0196391, May 2018.
[28] R. Matin and D. Valles, "A speech emotion recognition solution-based on support vector machine for children with autism spectrum disorder to help identify human emotions," in Proc. Intermountain Engineering, Technology and Computing, IETC'20, 6 pp., Orem, UT, USA, 2-3 Oct. 2020.
[29] C. Küpper, et al., "Identifying predictive features of autism spectrum disorders in a clinical sample of adolescents and adults using machine learning," Scientific Reports, vol. 10, Article ID: 4805, 11 pp., 2020.
[30] Y. K. Kim, et al., "Analyzing short term dynamic speech features for understanding behavioral traits of children with autism spectrum disorder," in Proc. Interspeech'21, pp. 2916-2920, Brno, Czech Republic, 30 Aug.-3 Sept. 2021.
[31] B. Schuller, S. Steidl, and A. Batliner, "The Interspeech 2009 emotion challenge," in Proc. Interspeech'09, pp. 312-315, Brighton, UK, 6-10 Sept. 2009.
[32] B. Schuller, et al., "The INTERSPEECH 2010 paralinguistic challenge," in Proc. Interspeech'10, pp. 2794-2797, Makuhari, Japan, 26-30 Sept. 2010.
[33] B. Schuller, et al., "The INTERSPEECH 2013 computational paralinguistics challenge: social signals, conflict, emotion, autism," in in Proc. Interspeech'13, pp. 148-152, Lyon, France, 25-29 Aug. 2013.
[34] A. Pahwa, G. Aggarwal, and A. Sharma, "A machine learning approach for identification & diagnosing features of neurodevelopmental disorders using speech and spoken sentences," in Proc. Int. Conf. on Computing, Communication and Automation, ICCCA'16, pp. 377-382, Greater Noida, India, 29-30 Apr. 2016.
[35] S. A. Majeed, H. Husain, S. A. Samad, and T. F. Idbeaa, "Mel frequency cepstral coefficients (MFCC) feature extraction enhancement in the application of speech recognition: a comparison study," J. of Theoretical & Applied Information Technology, vol. 79, no. 1, pp. 38-56, Sept. 2015.
[36] A. Mohanta, P. Mukherjee, and V. K. Mirtal, "Acoustic features characterization of autism speech for automated detection and classification," in Proc. National Conf. on Communications, NCC'20, 6 pp., haragpur, India, 21-23 Feb. 2020.
[37] Z. Sherkatghanad, et al., "Automated detection of autism spectrum disorder using a convolutional neural network," Frontiers in Neuroscience, vol. 13, Article ID: 1325, Jan. 2020.
[38] S. H. R. E. Motlagh, H. Moradi, and H. Pouretemad, "Using general sound descriptors for early autism detection," in Proc. 9th Asian Control Conf., ASCC'13, 5 pp., Istanbul, Turkey, 23-26 Jun. 2013.
[39] A. Wijesinghe, P. Samarasinghe, S. Seneviratne, P. Yogarajah, and K. Pulasinghe, "Machine learning based automated speech dialog analysis of autistic children," in Proc. 11th Int. Conf. on Knowledge and Systems Engineering, KSE'19, 5 pp., Da Nang, Vietnam, 24-26 Oct. 2019.
[40] M. Eni, et al., "Estimating autism severity in young children from speech signals using a deep neural network," IEEE Access, vol. 8, pp. 139489-139500, 2020.
مریم علیزاده تحصيلات خود را در مقطع کارشناسی مهندسی کامپیوتر- نرم افزار در سال 1394 به پایان رسانده است. ایشان مقطع كارشناسي ارشد خود را در رشته مهندسي فناوری اطلاعات- گرايش چندرسانهای در سال 1397 در دانشگاه شهید بهشتی گذرانده است. در حال حاضر دانشجوی دكترای رشته مهندسي كامپيوتر- گرايش هوش مصنوعي و رباتیک در دانشگاه شهید بهشتی میباشد. زمینه تحقیقاتی مورد علاقه ایشان، پردازش سیگنال و گفتار است.
شيما طبيبيان تحصيلات خود را در مقطع كارشناسي رشته مهندسي كامپيوتر- گرايش نرمافزار از دانشگاه صنعتي اصفهان در سال 1383 به پایان رسانده است. ايشان مقطع كارشناسي ارشد و دكتراي خود را در رشته مهندسي كامپيوتر- گرايش هوش مصنوعي و رباتيك در سالهاي 1386 تا 1392 در دانشگاه علم و صنعت ايران گذرانده است.
نامبرده قبل از پيوستنش به دانشگاه شهيد بهشتي در سمت استاديار و عضو هيات علمي پژوهشكده فضاي مجازي در سالهاي 1393 الي 1396 استاديار پژوهشگاه هوافضا بوده است. زمينههاي تحقيقاتي مورد علاقه ايشان عبارتند از: بازشناسي گفتار، واژه¬يابي گفتار، بهسازي گفتار، تشخيص فرامين صوتي، طراحي واسطهاي كاربري مبتني بر گفتار، تشخيص احساس از گفتار، روشهاي يادگيري ماشين، پايش سلامت و
روشهاي بهينهسازي.