شناسایی ژنهای عامل سرطان در شبکه ژنی با استفاده از معماری شبکه عصبی پیشخور
محورهای موضوعی : مهندسی برق و کامپیوترمصطفی اخوان صفار 1 * , عباسعلی رضایی 2
1 - دانشكده مهندسي كامپيوتر و فناوری اطلاعات، دانشگاه پیام نور
2 - دانشكده مهندسي كامپيوتر و فناوری اطلاعات، دانشگاه پیام نور
کلید واژه: یادگیری عمیق, ژنهای عامل سرطان, شبکه عصبی پیشخور, سرطان سینه,
چکیده مقاله :
شناسایی ژنهای آغازگر سرطان یا عامل سرطان یکی از موضوعات تحقیقاتی مهم در زمینه سرطانشناسی و زیستدادهورزی است. ژنهای عامل سرطان، ژنهایی هستند که بعد از اینکه جهش در آنها اتفاق میافتد، آن جهش را از طریق برهمکنشهای پروتئین- پروتئین به دیگر ژنها منتقل کرده و از این طریق، باعث اختلال در عملکرد سلول و بروز بیماری و سرطان میشوند. تا کنون روشهای مختلفی برای پیشبینی و دستهبندی ژنهای عامل سرطان پیشنهاد شده که اکثراً متکی به دادههای ژنومی و ترنسکریپتومیک هستند و از این رو میانگین هارمونیک پایینی در نتایج دارند. تحقیقات در این زمینه بهمنظور بهبود دقت نتایج ادامه دارد و از این رو روشهای مبتنی بر شبکه و زیستدادهورزی به کمک این حوزه آمدهاند. در این مطالعه ما رویکردی را پیشنهاد دادهایم که متکی به دادههای جهش نیست و از روشهای شبکهای برای استخراج ویژگی و از شبکه عصبی سهلایه پیشخور برای دستهبندی ژنها استفاده میکند. برای این منظور، ابتدا شبکه زیستی مورد نظر که شبکه تنظیم رونویسی سرطان سینه است، تشکیل و سپس ویژگیهای مختلف هر ژن بهصورت بردارهایی استخراج گردید. نهایتاً بردارهای بهدستآمده جهت دستهبندی به یک شبکه عصبی پیشخور داده شد. نتایج بهدستآمده نشان میدهند که استفاده از روشهای مبتنی بر شبکههای عصبی چندلایه میتواند صحت و میانگین هارمونیک را بهبود بخشد و باعث بهبود عملکرد نسبت به سایر روشهای محاسباتی شود.
Identifying the genes that initiate cancer or the cause of cancer is one of the important research topics in the field of oncology and bioinformatics. After the mutation occurs in the cancer-causing genes, they transfer it to other genes through protein-protein interactions, and in this way, they cause cell dysfunction and the occurrence of disease and cancer. So far, various methods have been proposed to predict and classify cancer-causing genes. These methods mostly rely on genomic and transcriptomic data. Therefore, they have a low harmonic mean in the results. Research in this field continues to improve the accuracy of the results. Therefore, network-based methods and bioinformatics have come to the aid of this field. In this study, we proposed an approach that does not rely on mutation data and uses network methods for feature extraction and feedforward three-layer neural network for gene classification. For this purpose, the breast cancer transcriptional regulatory network was first constructed. Then, the different features of each gene were extracted as vectors. Finally, the obtained vectors were given to a feedforward neural network for classification. The obtained results show that the use of methods based on multilayer neural networks can improve the accuracy and harmonic mean and improve the performance compared to other computational methods.
[1] M. H. Bailey, et al., "Comprehensive characterization of cancer driver genes and mutations," Cell, vol. 173, no. 2, pp. 371-385, Apr. 2018.
[2] L. Ding, et al., "Somatic mutations affect key pathways in lung adenocarcinoma," Nature, vol. 455, no. 7216, pp. 1069-1075, Oct. 2008.
[3] L. Mularoni, R. Sabarinathan, J. Deu-Pons, A. Gonzalez-Perez, and N. López-Bigas, "OncodriveFML: a general framework to identify coding and non-coding regions with cancer driver mutations," Genome Biology, vol. 17, Article ID: 128, 13 pp, Dec. 2016.
[4] J. Reimand, O. Wagih, and G. D. Bader, "The mutational landscape of phosphorylation signaling in cancer," Scientific Reports, vol. 3, no. 1, Article ID: 2651, 9 pp., 2013.
[5] M. Helmy, M. Awad, and K. A. Mosa, "Limited resources of genome sequencing in developing countries: challenges and solutions," Applied & Translational Genomics, vol. 9, pp. 15-19, Jun. 2016.
[6] A. Youn and R. Simon, "Identifying cancer driver genes in tumor genome sequencing studies," Bioinformatics, vol. 27, no. 2, pp. 175-181, Jan. 2011.
[7] J. Zhao, S. Zhang, L. Y. Wu, and X. S. Zhang, "Efficient methods for identifying mutated driver pathways in cancer," Bioinformatics, vol. 28, no. 22, pp. 2940-2947, 15 Nov. 2012.
[8] F. Vandin, E. Upfal, and B. J. Raphael, "De novo discovery of mutated driver pathways in cancer," Genome Research, vol. 22, no. 2, pp. 375-385, Feb. 2012.
[9] A. Gonzalez-Perez and N. Lopez-Bigas, "Functional impact bias reveals cancer drivers," Nucleic Acids Research, vol. 40, no. 21, Article ID: e169, Nov. 2012.
[10] G. Ciriello, E. Cerami, C. Sander, and N. Schultz, "Mutual exclusivity analysis identifies oncogenic network modules," Genome Research, vol. 22, no. 2, pp. 398-406, Feb. 2012.
[11] A. Bashashati, G. Haffari, J. Ding, G. Ha, K. Lui, J. Rosner, D. G. Huntsman, C. Caldas, S. A. Aparicio, and S. P. Shah, "DriverNet: uncovering the impact of somatic driver mutations on transcriptional networks in cancer," Genome Biology, vol. 13, no. 12, pp. 1-4, Dec. 2012.
[12] F. Vandin, E. Upfal, and B. J. Raphael, "De novo discovery of mutated driver pathways in cancer," Genome Research, vol. 22, no. 2, pp. 375-385, Feb. 2012.
[13] J. Reimand, O. Wagih, and G. D. Bader, "The mutational landscape of phosphorylation signaling in cancer," Scientific Reports, vol. 3, no. 1, Article ID: 2651, Oct. 2013.
[14] M. R. Aure, et al., "Identifying in-trans process associated genes in breast cancer by integrated analysis of copy number and expression data," PloS One, vol. 8, no. 1, Article ID: e53014, Jan. 2013.
[15] M. S. Lawrence, et al., "Mutational heterogeneity in cancer and the search for new cancer-associated genes," Nature, vol. 499, pp. 214-218, 2013.
[16] D. Tamborero, A. Gonzalez-Perez, and N. Lopez-Bigas, "OncodriveCLUST: exploiting the positional clustering of somatic mutations to identify cancer genes," Bioinformatics, vol. 29, no. 18, pp. 2238-2244, Sept. 2013.
[17] E. Porta-Pardo and A. Godzik, "E-Driver: a novel method to identify protein regions driving cancer," Bioinformatics, vol. 30, no. 21, pp. 3109-3114, Nov. 2014.
[18] J. P. Hou and J. Ma, "DawnRank: discovering personalized driver genes in cancer," Genome Medicine, vol. 6, Article ID: 56, 16 pp., Jul. 2014.
[19] J. Zhang, L. Y. Wu, X. S. Zhang, and S. Zhang, "Discovery of co-occurring driver pathways in cancer," BMC Bioinformatics, vol. 15, Article ID: 271, 14 pp., 2014.
[20] D. Arneson, A. Bhattacharya, L. Shu, V. P. Mäkinen, and X. Yang, "Mergeomics: a web server for identifying pathological pathways, networks, and key regulators via multidimensional data integration," BMC Genomics, vol. 17, Article ID: 772, 9 pp., 2016.
[21] M. Rahimi, B. Teimourpour, and S. A. Marashi, "Cancer driver gene discovery in transcriptional regulatory networks using influence maximization approach," Computers in Biology and Medicine, vol. 114, Article ID: 103362, Nov. 2019.
[22] M. Akhavan-Safar, B. Teimourpour, and M. Kargari, "GenHITS: a network science approach to driver gene detection in human regulatory network using gene's influence evaluation," J. of Biomedical Informatics, vol. 114, Article ID: 103661, Feb. 2021.
[23] Y. Lu, Y. Wang, N. Sheng, H. Wang, Y. Fu, and Y. Tian, "RDDriver: a novel method based on multi-layer heterogeneous transcriptional regulation network for identifying pancreatic cancer biomarker," in Proc.IEEE Int. Conf. on Bioinformatics and Biomedicine, BIBM'22, pp. 497-502, Las Vegas, NV, USA, 6-8 Dec. 2022.
[24] S. Lee, H. Jung, J. Park, and J. Ahn, "Accurate prediction of cancer prognosis by exploiting patient-specific cancer driver genes," International J. of Molecular Sciences, vol. 24, no. 7, Article ID: 6445, Apr. 2023.
[25] J. M. Vaquerizas, S. K. Kummerfeld, S. A. Teichmann, and N. M. Luscombe, "A census of human transcription factors: function, expression and evolution," Nature Reviews Genetics, vol. 10, no. 4, pp. 252-263, Apr. 2009.
[26] H. Han, et al., "TRRUST v2: an expanded reference database of human and mouse transcriptional regulatory interactions," Nucleic Acids Research, vol. 46-D1, pp. 380-386, Jan. 2018.
[27] S. M. Cheng, V. Karyotis, P. Y. Chen, K. C. Chen, and S. Papavassiliou, "Diffusion models for information dissemination dynamics in wireless complex communication networks," J. of Complex Systems, vol. 2013, Article ID: 972352, 13 pp., 2013.
[28] I. F. Chung, C. Y. Chen, S. C. Su, C. Y. Li, K. J. Wu, H. W. Wang, and W. C. Cheng, "DriverDBv2: a database for human cancer driver gene research," Nucleic Acids Research, vol. 44-D1, pp. 975-979, Jan. 2016.
[29] P. Shannon, et al., "Cytoscape: a software environment for integrated models of biomolecular interaction networks," Genome Research, vol. 13, no. 11, pp. 2498-2504, Nov. 2003.
نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 21، شماره 3، پاییز 1402 211
مقاله پژوهشی
شناسایی ژنهای عامل سرطان در شبکه ژنی
با استفاده از معماری شبکه عصبی پیشخور
مصطفی اخوان صفار و عباسعلی رضایی
چکیده: شناسایی ژنهای آغازگر سرطان یا عامل سرطان یکی از موضوعات تحقیقاتی مهم در زمینه سرطانشناسی و زیستدادهورزی است. ژنهای عامل سرطان، ژنهایی هستند که بعد از اینکه جهش در آنها اتفاق میافتد، آن جهش را از طریق برهمکنشهای پروتئین- پروتئین به دیگر ژنها منتقل کرده و از این طریق، باعث اختلال در عملکرد سلول و بروز بیماری و سرطان میشوند. تا کنون روشهای مختلفی برای پیشبینی و دستهبندی ژنهای عامل سرطان پیشنهاد شده که اکثراً متکی به دادههای ژنومی و ترنسکریپتومیک هستند و از این رو میانگین هارمونیک پایینی در نتایج دارند. تحقیقات در این زمینه بهمنظور بهبود دقت نتایج ادامه دارد و از این رو روشهای مبتنی بر شبکه و زیستدادهورزی به کمک این حوزه آمدهاند. در این مطالعه ما رویکردی را پیشنهاد دادهایم که متکی به دادههای جهش نیست و از روشهای شبکهای برای استخراج ویژگی و از شبکه عصبی سهلایه پیشخور برای دستهبندی ژنها استفاده میکند. برای این منظور، ابتدا شبکه زیستی مورد نظر که شبکه تنظیم رونویسی سرطان سینه است، تشکیل و سپس ویژگیهای مختلف هر ژن بهصورت بردارهایی استخراج گردید. نهایتاً بردارهای بهدستآمده جهت دستهبندی به یک شبکه عصبی پیشخور داده شد. نتایج بهدستآمده نشان میدهند که استفاده از روشهای مبتنی بر شبکههای عصبی چندلایه میتواند صحت و میانگین هارمونیک را بهبود بخشد و باعث بهبود عملکرد نسبت به سایر روشهای محاسباتی شود.
کلیدواژه: یادگیری عمیق، ژنهای عامل سرطان، شبکه عصبی پیشخور، سرطان سینه.
1- مقدمه
پیشبینی و دستهبندی ژنهای عامل سرطان مولکولی در حوزه سرطانشناسی بسیار حائز اهمیت است [1]. تا کنون تحقیقات مختلفی در خصوص یافتن ژنهای عامل سرطان صورت گرفته [2] تا [4] که از طریق روشهای مختلفی انجام میشوند که اکثراً از نوع محاسباتی و آماری هستند. با توجه به پژوهشهای صورتگرفته، محققان بسیاری از فرایندی با عنوان توالییابی ژنوم بهره میگیرند که در آن از طریق شبیهسازی جهشهای ژنتیکی، ژنهای مرتبط با بروز سرطان را بررسی مینمایند [5]. این روشها بسیار زمانبر و پرهزینه است و از این رو استفاده از روشهای محاسباتی و آماری و تحلیل دادههای ژنومیک و در ادامه استفاده از روشهای زیستدادهورزی و شبکهای پیشنهاد شده است. هر کدام از این روشها به تعیین جهشهای سرطانی کمک مینمایند؛ اما چالش اصلی این است که در بین روشهای ارائهشده برای تعیین ژنهای عامل سرطان، کدام یک از آنها نتایج دقیقتری را نشان میدهند.
روشهای پیشنهادی برای شناسایی ژنهای عامل سرطان به دو دسته کلی روشهای محاسباتی و شبکهای قابل تقسیم است. اکثر روشهای پیشنهادی، ژنهای عامل سرطان را از روی تعداد جهشهای رخداده و بررسی داده ژنومیک شناسایی میکنند که جزء روشهای محاسباتی محسوب میشوند. از چالشها و محدودیتهای موجود در این روشها آن است که بهدلیل عدم قطعیت دادههای زیستی، دارای مقدار زیادی نویز و دادههای پرت هستند که این باعث ایجاد نرخ مثبت کاذب بالا در نتایج میشود. این روشها اکثراً دارای محاسبات پیچیده و هزینه بالا و از نظر کارایی دارای میانگین هارمونیک پایین هستند. از این رو ایده استفاده از روشهای مبتنی بر شبکه یادگیری ماشین و استفاده از ساختار شبکه برای یافتن ژنهای عامل بیماری مطرح گردید تا برخی محدودیتهای موجود در روشهای محاسباتی مرتفع گردد. بهعنوان مثال روش Simon از جمله روشهای محاسباتی است که برای بهبود شناسایی ژنهای عامل سرطان از تخمین جهشهای پسزمینه استفاده میکند [6]. این روش با سه معیار این کار را انجام میدهد؛ تأثیر عملیاتی جهش بر پروتئینها، تغییر در میزان جهش پسزمینه در بین تومورها و افزونگی کد ژنتیکی. تمایز قائلشدن بین جهشهای تأثیرگذار در عملکرد پروتئین و دیگر جهشها و نیز تفاوت بین تعداد جهش پسزمینه در نمونهها و بیماران مختلف، از ویژگیهای این روش است. روش MDPFinder یکی دیگر از روشهای شناسایی ژنهای عامل سرطان میباشد [7] که تلاش میکند تا مسئله ماتریس وزن بیشینه [8] را که برای شناسایی مسیرهای درایور جهشیافته طراحی شده، حل کند. برای این کار از الگوریتم ژنتیک به همراه یک رویکرد تلفیقی برای یافتن مسیر جهشهای سرطانی و سپس پیداکردن ژنهای عامل سرطان استفاده میکند. در این روش، دادههای بیان ژن و جهش با یکدیگر ادغام میشوند. یکی دیگر از روشهای محاسباتی Oncodrive-fm است [9] که برای غلبه بر محدودیتهای موجود در رویکردهای سنتی مانند سختی تخمین درست میزان جهش و متکیبودن به افزایش تغییرات در آن، معیاری با نام FM bias محاسبه میشود. روش MeMo یکی دیگر از روشهای محاسباتی است که به بررسی نظاممند ماژولهای مسیرهای آنکوژنیک2 میپردازد [10] و در آن برای تشخیص ماژولها از تحلیل همبستگی و آزمونهای آماری استفاده میشود. روش DriverNet یک چهارچوب محاسباتی است که در آن جهشهای سرطانی از طریق شبکههای بیان miRNA شناسایی میشوند
[1] این مقاله در تاریخ 1 بهمن ماه 1401 دریافت و در تاریخ 16 اردیبهشت ماه 1402 بازنگری شد.
مصطفي اخوان صفار (نویسنده مسئول)، دانشكده مهندسي كامپيوتر و فناوری اطلاعات، دانشگاه پیام نور، تهران، (email: akhavansaffar@pnu.ac.ir).
عباسعلي رضایی، دانشكده مهندسي كامپيوتر و فناوری اطلاعات، دانشگاه پیام نور، تهران، (email: a_rezaee@pnu.ac.ir).
[2] . Oncogenic
شکل 1: روند کلی رویکرد پیشنهادی.
[11]. در این روش با استفاده از برهمکنشهای بین ژنی، ارتباط بین انحرافات موجود در ژنوم و الگوهای رونویسی استخراج میگردند. روش Dendrix با ترکیب دو ویژگی پوشش یعنی پیداکردن ژنها در نمونههای مختلف بیماران و انحصاریبودن، یعنی جهشهایی که بهندرت در بیماران خاصی دیده میشود، جهشهای سرطانی و غیرسرطانی را دستهبندی میکند [12]. اغلب ژنهای عامل سرطان از طریق جهشهای پرتکرار در نمونههای مختلف تومور شناسایی میگردند؛ با این حال برخی جهشها برای عملکرد پروتئین از دیگر جهشها مهمتر تلقی میشوند. از این رو روش ActiveDriver با توجه به محل جهش و مکان عملکردی پروتئین میتواند مکانیسم آنها را پیشبینی کرده و تشخیص ژنهای عامل سرطان را بهبود بخشد [13]. روش iPAC یک رویکرد نظارتنشده است که در آن بر اساس آنالیز ترکیبی تعداد کپیها و دادههای بیان ژن، بهطور نظاممند دنبالهای از آزمونهای آماری بر روی فهرستی از ژنها انجام میشود و از این طریق، لیست ژنهای عامل سرطان بهدست میآید [14]. در روش MutsigCV با حل مسئله ناهمگونی در فرایندهای جهش و فرکانس جهش ژنها تغییرات غیرعادی در ژنها کشف و از این طریق، ژنهای سرطانی شناسایی میشوند [15]. در این روش از طریق بررسی فعالیتهای رونویسی و مقایسه تعداد وقوع جهش در انواع سرطان و تعداد وقوع جهش در ژنوم انسان، سرطانیبودن ژن تشخیص داده میشود. روش OncodriveCLUST ژنهایی که تمایل زیادی برای خوشهبندی جهش در توالی پروتئین دارند، شناسایی میکند [16] و از طریق ارزیابی جهشهای خاموش کدکننده1، یک مدل دستهبندی ژنها را ایجاد مینماید. روش e-Driver یکی دیگر از روشهای شناسایی ژنهای عامل سرطان است [17] که در آن، توزیع داخلی جهشهای بین نواحی عملکردی پروتئینها بهمنظور یافتن نرخ جهش در مقایسه با دیگر نواحی همان پروتئین استخراج میشود. در صورت مثبتبودن مشاهدات، آن ژنها میتوانند عامل بروز سرطان باشند. روش DawnRank با استفاده از دادههای جهش و تمرکز روی ژنهای سرطانی مخصوص هر بیمار، ژنهای نادر و خاص هر بیمار را بهعنوان ژن سرطانی کشف میکند [18]. این روش از اطلاعات فردی تنها یک بیمار برای تشخیص ژن سرطانی استفاده میکند و در آن، ژنهای جهشیافته در یک بیمار از طریق شبکه برهمکنش مولکولی رتبهبندی میشوند. نهایتاً ژنهای با رتبه بالاتر بهعنوان عامل سرطان معرفی میگردند. روش CoMDP که یکی دیگر از روشهای محاسباتی است برخلاف سایر روشها که بر روی ژنها تمرکز دارند، ژنهای عامل سرطان را با کمک مسیرهای مشترک جهشیافته شناسایی میکند [19]. مسیرهای انتخابی که منجر به انتخاب ژنهای سرطانی میشوند باید همزمان دو ویژگی داشته باشند؛ یکی اینکه دارای پوشش زیاد باشند و دیگری اینکه از نظر آماری، جهش رخداده بین دو مسیر باید همبستگی بالایی داشته باشد. روش MSEA یک چهارچوب کلی و یکپارچه از طرز کار بیماری بهجای بررسی مجزای داده ارائه میکند [20]. این روش شامل یک خط لوله محاسباتی است که در آن از دادههای چندبعدی مرتبط با بیماری، عملکردهای بیولوژیکی و شبکههای مولکولی برای بازیابی مسیرهای بیولوژیکی و نهایتاً شناسایی ژنهای عامل سرطان استفاده میکند. تمام روشهای ذکرشده متکی به دادههای جهش و از نوع محاسباتی هستند. البته برخی روشها مانند Netbox، DownRank،DriverNet ، Memo و MSEA در کنار دادههای ژنومیک و جهش از ساختار شبکه نیز کمک گرفتهاند. برخی از روشها که اخیراً پیشنهاد شدهاند به دادههای جهش متکی نبوده و تنها از ساختار شبکه استفاده میکنند که iMaxDriver-N و iMaxDriver-W از جمله این روشها هستند [21] که در آنها با استفاده از بیشینهسازی انتشار، ژنها رتبهبندی میشوند. ژنهای دارای رتبه بالاتر بهعنوان عامل سرطان معرفی میگردند. روش GenHITS یکی دیگر از روشهای شبکهای است که در آن، ژنها از طریق تحلیل ساختار برهمکنشهای تنظیمی در شبکه تنظیم ژنی بر اساس مفهوم نفوذ در تئوری اطلاعات رتبهبندی میشوند [22]. ژنهای دارای رتبه بالاتر بهعنوان عامل سرطان معرفی میگردند. روش rDDriver یکی دیگر از روشهای شبکهای است که با ترکیب شبکه عمیق و کانولوشنال به شناسایی ژنهای تأثیرگذار در مجموعه پان کنسر میپردازد که در آن علاوه بر ژنهای mRNA، دیگر نوعهای RNA نیز شناسایی میشوند [23]. در مطالعه لی و همکاران [24] با استفاده از شبکه ژنی هر بیمار و یادگیری ماشین، روشی برای پیشبینی دقیق پیشآگهی سرطان پیشنهاد شده که از الگوریتم اصلاحشده پیجرنک برای محاسبه بردارهای ویژگی استفاده میکند.
با توجه اهمیت موضوع، تحقیقات در این خصوص با هدف بهبود عملکرد الگوریتمهای پیشنهادی ادامه دارد. در این مطالعه ابتدا با استفاده از دادههای بیان ژن و دادههای تنظیمی و بدون نیاز به دادههای جهش، شبکه ژنی مربوط به سرطان سینه، ایجاد و ویژگیهای مربوط به ژن از طریق ساختار شبکه استخراج میشود. در ادامه با استفاده از بردارهای ویژگی بهدستآمده، یک شبکه عصبی پیشخور بهمنظور دستهبندی ژنها به دو دسته عادی و عامل سرطان یادگیری میشود. استفاده از معماریهای شبکه عصبی چندلایه و یادگیری عمیق در شبکه تنظیم ژنی برای شناسایی ژنهای عامل سرطان بهتازگی مورد توجه قرار گرفته است. نمودار کلی رویکرد پیشنهادی در شکل 1 آمده است. نتایج رویکرد پیشنهادی از نظر معیارهای کارایی با 19 روش محاسباتی و شبکهای پیشین مقایسه شدند.
شکل 2: شبکه ژنی سرطان سینه با 2499 ژن و 7540 برهمکنش.
2- ساخت شبکه
شبکههای زیستی با توجه به نوع ژنها و ارتباطات بین آنها در انواع مختلفی درون سلول وجود دارند. یکی از این نوع شبکهها که در زمینه سرطان نیز مورد مطالعه قرار میگیرد شبکه تنظیم ژنی است که از دادههای بیان ژن استخراج میشوند. در این شبکه جهتدار، گرهها شامل قطعات مختلف DNA مانند فاکتورهای رونویسی و RNAها میشوند. ارتباط بین این ژنها در شبکه و ردوبدلکردن پیام بین آنها از طریق محصولات نهایی خودشان یعنی پروتئینها انجام میشود. ژنها با تأثیر مثبت یا منفی بر هم، باعث افزایش یا کاهش بیان یکدیگر میشوند و این تأثیرگذاری باید بهگونهای باشد که عملکرد سلول همیشه در وضعیت عادی باقی بماند. در این شبکه، ژنها با تأثیر بر میزان بیان یکدیگر، باعث افزایش یا کاهش نرخ تولید پروتئین و در نتیجه تنظیم عملکرد سلول میشوند [25]. ژنهایی که با ایجاد ناهنجاری، باعث تولید بیش از حد پروتئین و برهمزدن عملکرد تنظیمی سلول میشوند بهعنوان عامل مؤثر در سرطان معرفی میگردند. در این مطالعه، شبکه تنظیم ژنی سرطان سینه با استفاده از لیست برهمکنشهای تنظیمی و دادههای بیان ژن، ساخته و لیست برهمکنشهای تنظیمی از پایگاه داده 2TRRUST v [26] بارگیری گردید2. این پایگاه داده شامل لیست برهمکنشهای تنظیمی مربوط به شبکههای تنظیم ژنی انسان و موش است. لیست برهمکنشهای مربوط به انسان شامل 8427 برهمکنش تنظیمی مربوط به 2867 ژن بارگیری شد. همچنین دادههای بیان ژن سرطان سینه از پایگاه داده GEO بارگیری گردید3. در این پایگاه داده، دادههای بیان ژن هر سرطان بهصورت مجزا برای بافت سرطانی و بافت سالم مجار آن با فرمت .CEL گزارش شده که این مجموعه دادهها برای هر سرطان توسط نرمافزار آنالیز تصاویر ریزآرایه4 ایجاد گردیده است. این فایلها قبل از استفاده نیاز به پیشپرداز دارند. خروجی این پیشپردازش فایل حاوی دادههای سطری است که در هر سطر شناسه ژن، مقدار بیان بافت نرمال و مقدار بیان بافت سرطانی مجاور آن میباشد. با استفاده از این مجموعه، دادههای بهدستآمده و لیست برهمکنشهای تنظیمی شبکه مربوط، ساخته و برای هر شبکه، ژن مبدأ و مقصد در دادههای بیان جستجو شد. در صورتی که هم مبدأ و هم مقصد دارای داده بیان ژن بودند یال مورد نظر، حفظ و در غیر این صورت آن برهمکنش از لیست نهایی حذف شد. تصویر نهایی شبکه ایجادشده با نرمافزار مصورسازی گردید و در شکل 2 آمده است. در این شکل، ساختار برهمکنشها و نیز میانگین درجات هر ژن در شبکه برای نمایش بهتر بهصورت لگاریتمی رسم شده که نشان میدهد شبکه از نوع توانی است.
Cytoscape یک پروژه نرمافزاری منبع باز برای یکپارچهسازی شبکههای برهمکنش مولکولی با دادههای بیان و سایر حالات مولکولی در یک چارچوب مفهومی یکپارچه است. Cytoscape برای هر سامانهای از اجزای مولکولی و برهمکنشها قابل استفاده است، اما این نرمافزار، زمانی قدرتمندتر است که در ارتباط با پایگاههای داده بزرگ پروتئین- پروتئین، پروتئین- دنا و برهمکنشهای ژنتیکی که بهطور فزایندهای برای انسان و موجودات در دسترس هستند، استفاده شود [27].
3- استخراج ویژگیها
برای ساخت و آموزش یک مدل یادگیری نظارتشده برای دستهبندی ژنها به بردار ویژگی برای هر ژن نیاز است. بردار ویژگی مربوط به هر ژن بر اساس معیارهای انتشار در شبکه جهتدار تنظیم ژنی محاسبه میشود. در کنار آن نیز از معیار زیستی اختلاف بیان ژن 5(DGE) در بافت سالم و سرطانی استفاده گردیده تا تأثیر تغییرات زیاد برخی ژنها
در بافت سالم و بافت سرطانی مجاور آنها در دستهبندی در نظر گرفته شود. این بردارهای ویژگی در مرحله بعد برای ساخت مدل مورد استفاده قرار میگیرند.
انتشار و تحلیل مسیر آن؟؟؟ از فرایندهای مهم در شبکههای اجتماعی است [28]. هر چیزی که بتواند بهصورت فیزیکی یا مجازی بین گرهها جابهجا شود میتواند در این فرایند در نظر گرفته شود. برخی از آنها بهصورت آشکار رخ نمیدهد و تنها قادریم نتایج آن را مشاهده کنیم. مثلاً در گسترش بیماری، تنها افراد را که یکی پس از دیگری بیمار میشوند مشاهده میکنیم. برای درک آنکه چگونه این انتقال صورت گرفته است باید از طریق شبکه و الگوهای موجود، جریان تبادل اطلاعات را کشف کنیم. مدلهای مختلفی برای این منظور وجود دارد که بر اساس آنها میتوانیم اثرگذاری موجودیتی در شبکه را ارزیابی کنیم؛ از جمله برخی الگوریتمها و مرکزیتهای شبکه. در این مطالعه در کنار ویژگی DGE- یعنی اختلاف میزان بیان ژن در بافت سالم و سرطانی- از مرکزیتهای پیج رنک، هیتز، تحلیل تصادفی لینک و کتز برای محاسبه ویژگیهای مربوط به هر ژن از طریق شبکه استفاده گردید. هر کدام از الگوریتمهای
[1] . Coding-Silent Mutations
[2] . Download from https://www.grnpedia.org in Aug. 27, 2020
[3] . Download from https://www.ncbi.nlm.nih.gov/geo
[4] . Affymetrix DNA Microarray Image
[5] . Differential Gene Expression
شکل 3: متوازنسازی کلاسهای داده.
کلیدی ابتدا بر اساس دادههای زیستی متناسبسازی شدهاند. روابط کلی هر معیار بهصورت زیر است
(1)
(2)
(3)
(4)
(5)
(6)
که در روابط فوق تعداد لینکهای خروجی از ، تعداد ژنها، مجموعه ژنهایی که به متصل هستند، ماتریس مجاورت شبکه ژنی، فاکتور دمپینگ بین 0 و 1 (معمولاً 85/0)، رتبه ژن ، رتبه کتز ژن ، ضریب میرایی، درجه ورودی ژن ، درجه خروجی ژن و احتمال انتقال از به است.
4- ساخت مدل و تنظیم پارامترها
قبل از ساخت مدل نیاز است تا دادهها برچسبگذاری شوند و برای برچسبزدن دادهها به پایگاه داده استاندارد و تأییدشده ژنهای عامل سرطان نیاز است. برای این منظور از مجموعه ژنهای سرطانی استاندارد و تأییدشده 1CGC استفاده گردید. مجموعه ژنهای مربوط به سرطان سینه با نام TCGA-BRCA از طریق تارنما2 در دسترس است.
ژنهای مربوط بارگیری و سپس ژنهای مشخصشده توسط CGC بهعنوان ژنهای نهایی پالایه شدند و سایر اطلاعات ژنها از مجموعه داده ارزیابی حذف گردیدند. نهایتاً برای سرطان سینه، 572 ژن عامل سرطان استخراج شد که این مجموعه ژنها با 1 به معنی عامل سرطان و مابقی با 0 به معنی عادی برچسبگذاری شدند.
اطلس ژنوم سرطان (TCGA) پروژهای است برای فهرستنویسی جهشهای ژنتیکی عامل سرطان با استفاده از توالییابی ژنوم و بیوانفورماتیک و یکی از مهمترین پروژهها در پایگاه دادههای بیولوژیکی از حوزه زیستدادهورزی میباشد. این مجموعه برای سرعتدادن به درک محققین این حوزه از مبنای مولکولی سرطان با استفاده از فناوریهای تجزیه و تحلیل ژنوم، از جمله توالیبندی ژنوم در مقیاس بزرگ تهیه شده است. مجموعه داده TCGA که حاوی بیش از دو پتابایت داده ژنومی میباشد، بهصورت عمومی در دسترس است و این اطلاعات ژنومیکی به جامعه پژوهشی سرطان کمک میکند تا پیشگیری، تشخیص و درمان سرطان را بهبود بخشد.
به دلیل اینکه اکثر دادهها دارای برچسب نرمال بودند تا سرطانی، مجموعه دادهها دارای عدم تعادل کلاسها بود. برای آنکه مدل به سمت کلاس اکثریت تمایل پیدا نکند و پیشبینی مدل جانبدارانه نباشد، مجموعه دادهها متوازنسازی شدند. برای رفع مشکل از روش کم نمونهگیری تصادفی 3(RUS) که یکی از روشهای بازنمونهگیری در سطح داده میباشد، استفاده گردید و بدین ترتیب توازن دو کلاس ایجاد شد که در شکل 3 آمده است.
4-1 تعریف معماری شبکه عصبی
برای ساخت مدل از یک شبکه سهلایه پیشخور4 با BatchNorm و Dropout استفاده گردید. ویژگیهای بهدستآمده برای هر ژن که در بخش 3 توضیح داده شد بهعنوان ورودی به شبکه عصبی وارد شدند. برای پیادهسازی شبکه عصبی مورد استفاده از زبان برنامهنویسی پایتون و کتابخانه پایتورچ5 برای ساخت مدل استفاده گردید. از تابع فعالسازی سیگموئید در لایه نهایی در طول آموزش استفاده نشد و بهجای آن از تابع موجود در کتابخانه پایتورچ که بهطور خودکار فعالسازی سیگموئید را انجام میدهد استفاده گردید.
4-2 تنظیم پارامترها
انتخاب پارامترهای مختلف مدل از جمله تعداد دورهها و نرخ یادگیری از طریق انتخاب مقادیر مختلف و آزمایش مدل بهمنظور رسیدن به بهترین نتیجه، انجام و برای تابع هزینه از آنتروپی متقاطع6 استفاده شد. تابع هزینه، تفاوت نتیجه واقعی و نتیجه پیشبینیشده را مشخص میکند و با استفاده از این تابع هزینه، مقادیر وزنها بهروزرسانی میشوند و باعث میگردد که شبکه به سمت جوابهای بهینهتر حرکت کند. زمانی که قصد داریم آنتروپی یک سری نمونه و بیتهای متناظر آن را به حداکثر برسانیم، احتمال آماری آن نماد را در لگاریتم ضرب میکنیم تا تعداد بیتهای بهینه آن را به دست آوریم. در این تابع بهجای لگاریتم، مقدار
شکل 4: نمودار میزان سرعت کاهش هزینه در هر تکرار.
جدول 1: ماتریس اغتشاش و بخشهای مختلف آن.
مقادیر واقعی |
| ||
منفی | مثبت | ||
نادرست مثبت خطای نوع یک | درست مثبت | مثبت | مقادیر پیشبینیشده |
درست منفی | نادرست منفی خطای نوع دو | منفی |
نتیجهگرفتهشده از شبکه عصبی را در آن ضرب میکنیم. اگر مقدار درستی نباشد باعث بالارفتن مقدار آنتروپی متقاطع میشود و ما متوجه خطای شبکه میشویم. همچنین هرچه این اختلاف بین مقدار ارائهشده توسط شبکه عصبی و مقدار واقعی بیشتر باشد، شبکه بهصورت لگاریتمی رشد میکند؛ یعنی برای مقادیر کوچک، کوچکتر و برای مقادیر بزرگ، بزرگتر میشود و خطا مشخص میگردد. این تابع حتی در حالتی که مشتق گرهها نزدیک به صفر است نیز تأثیر خطا در وزنها را ایجاد و بهطور کلی مانند اسمش یعنی آنتروپی عمل میکند. این تابع برای ارزیابی شبکههایی که گرههای پایانی آن به مفهوم یا دسته خاصی اشاره دارند و فایرشدن یک گره بهمنزله احتمال صحت آن مفهوم یا دسته است، میتواند انتخاب مناسبی باشد
(7)
که در رابطه فوق اگر هدف 0 باشد بخش اول رابطه و در صورتی که هدف 1 باشد بخش دوم رابطه در نظر گرفته نمیشود. برای پیادهسازی تابع هزینه نیز از تابع BCELoss کتابخانه پایتورچ که تابع هزینه آنتروپی متقاطع استاندارد برای استفاده در مسائل طبقهبندی دودویی است استفاده گردید. برای شبکه مورد مطالعه، نرخ یادگیری برابر 01/0، تعداد تکثیر رفتوبرگشت7 برابر 700 و همچنین پارامتر BATCH_SIZE برابر 64 در نظر گرفته شد. هرچند استفاده از دورههای بیشتر منجر به دقت بیشتر در شبکه میشود، اما زمان یادگیری شبکه افزایش مییابد. بهعلاوه اگر تعداد دورهها بیش از حد زیاد باشد، ممکن است که هضم آن برای شبکه سنگین باشد و شبکه دچار بیشبرازش8 گردد. برای ساخت مدل، ابتدا دادهها به مجموعههای آموزش و آزمون تقسیم شدند و برای این منظور 33 درصد از دادهها برای قرارگرفتن در مجموعه آزمون انتخاب گردیدند. سپس برای فهم ماشین، ژنهای عادی با 0 و عامل سرطان با 1 برچسب زده شدند.
شکل 5: نمودار میزان افزایش دقت در هر تکرار.
4-3 تحلیل مدل
میزان دقت و هزینه در هر دوره برای بررسی تغییر مدل در طول آموزش ترسیم شد. برای محاسبه نسبت یادگیری، میزان سرعت کاهش هزینه در هر تکرار محاسبه گردید که در شکلهای 4 و 5 آمده است. نسبت یادگیری باید با دقت زیادی انتخاب شود تا به اندازهای زیاد نباشد که حالت بهینه را رد کنیم و بهاندازهای کم نباشد که یادگیری شبکه، سالها زمان ببرد. همان طور که مشاهده میشود هزینهها در هر تکرار بهطور قابل توجهی کاهش مییابد. شکلهای 4 و 5 نشان میدهند که مدل ایجادشده بهخوبی یادگیری شده است.
5- معیارهای ارزیابی
رویکرد پیشنهادی با 19 روش محاسباتی و مبتنی بر شبکه که در بخش ادبیات موضوع توضیح داده شد، مقایسه گردید. اکثر معیارهای ارزیابی با استفاده از ماتریس اغتشاش حاصل از اجرای مدل، محاسبه شدهاند. استفاده از ماتریس اغتشاش در مسائل دستهبندی بانظارت معمول است. بر اساس این ماتریس مقادیر میتوانند در یکی از دستههای منفی صحیح9، مثبت صحیح10، منفی کاذب11 و مثبت کاذب12 قرار گیرند. در مسائل درمانی و زمانی که دستهبندی بهصورت بیمار و سالم است، دستهبندی درست نمونهها در هر دسته، اهمیت بالایی دارد. مثبت صحیح یعنی مدل نمونه را در دسته مثبت طبقهبندی کرده و نمونه هم مثبت است. مثبت کاذب یعنی مدل نمونه را در دسته مثبت طبقهبندی کرده اما نمونه منفی است. منفی صحیح یعنی مدل نمونه را در دسته منفی طبقهبندی کرده و نمونه هم منفی است و منفی کاذب یعنی مدل نمونه را در دسته منفی طبقهبندی کرده اما نمونه مثبت است. بخش های مختلف ماتریس اغتشاش در جدول 1 نشان داده شده است.
فهرست ژنهای عامل سرطان پیشبینیشده با روشهای NetBox، Simon، DriverNet، OncodriveFM، Dendrix، MDPFinder، ActiveDriver، iPac، oncodriveCLUST، MutSigCV، e-driver، dawnRank، CoMDP و MSEA از پایگاه داده 2DriverDB v بهدست آمدند [29]. این پایگاه داده حاوی ژنهای عامل سرطان پیشبینیشده توسط 15 ابزار رایج است که در آن برای پیشبینی ژنهای بیماری توسط هر روش از مجموعه دادههای استاندارد TCGA-BRCA
(الف)
(ب)
(ج)
شکل 6: مقایسه معیارهای کارایی روش پیشنهادی و دیگر روشهای پیشین.
استفاده گردیده و برای سایر روشها از مقالات منتشرشده مربوط گرفته شده است. برای اعتبارسنجی روش پیشنهادی و دیگر روشها از مجموعه ژنهای استاندارد و تأییدشده CGC که در بخش قبل توضیح داده شد استفاده گردید. برای بررسی میزان کارایی الگوریتم پیشنهادی و مقایسه آن با دیگر روشها از معیارهای فراخوانی13 یا حساسیت، صحت14 و میانگین هارمونیک15 که در ارزیابی روشهای دستهبندی مرسوم میباشد استفاده شده است. معیار فراخوانی نسبت تعداد ژنهایی را که بهصورت درست بهعنوان عامل سرطان تشخیص داده شدهاند به تعداد کل ژنهای عامل سرطان نشان میدهد. این معیار بیانکننده نسبت تعداد ژنهای درست دستهبندیشده در یک کلاس خاص به تعداد کل ژنهایی است که باید در همان کلاس خاص دستهبندی شوند
(8)
استفاده از معیار حساسیت بهتنهایی برای ارزیابی عملکرد سیستم درست نیست و باید در کنار معیار صحت مورد استفاده قرار گیرد. صحت در حقیقت درستی پیشبینی را نشان میدهد و معادل تعداد ژنهای عامل سرطانی است که بهعنوان عامل سرطان تشخیص داده میشوند. صحت، نسبت تعداد پیشبینیهای صحیح انجامشده برای نمونههای یک کلاس خاص به تعداد کل پیشبینیها برای نمونههای همان کلاس خاص را ارزیابی میکند. مقدار بالا برای معیار دقت، بیانگر تعداد کم دادههایی است که به اشتباه در کلاس خاص دستهبندی شدهاند. این معیار، بیشتر زمانی استفاده میشود که مدل دستهبندی، تعلق یک نمونه به یک کلاس خاص را پیشبینی کرده باشد؛ یعنی زمانی که مثبت کاذب دارای ارزش بالایی باشد. در هنگام ارزیابی عملکرد یک مدل دستهبندی متن، بهتر است که از این معیار در کنار معیار حساسیت استفاده شود
(9)
صحت و حساسیت بهتنهایی برای نشاندادن عملکرد سیستم کافی نیستند. میانگین ریاضی هم برای محاسبه این دو معیار مناسب نیست و به همین جهت از میانگین هارمونیک استفاده میشود. این معیار، پارامترهای صحت و حساسیت را با هم ترکیب میکند تا مشخص شود مدل تا چه حد عملکرد خوبی از خود نشان میدهد. به این معیار، میانگین هارمونیک دو معیار صحت و حساسیت نیز گفته میشود. این معیار، نسبت به معیار صحت، تصویر دقیقتری از نحوه عملکرد مدل پیشبینی برای تمامی کلاسهای موجود در دادهها نشان میدهد و در بهترین حالت، یک و در بدترین حالت صفر است
(10)
معیار دقت16 به این معناست که مدل به چه میزان توانسته که خروجی را درست پیشبینی کند و بر اساس آن میتوان فهمید که آیا مدل، درست آموزش دیده یا خیر و کارایی مدل در چه حدی است. این معیار تنها اطلاعات کلی را درباره کارایی مدل ارائه میدهد و چیزی در خصوص اطلاعات جزئی بازگو نمیکند
(11)
6- نتایج
در این مطالعه، ابتدا با استفاده از دادههای برهمکنش تنظیمی و دادههای بیان ژن و پس از پیشپردازشهای لازم، شبکه تنظیم ژنی سرطان سینه ساخته شد. سپس ویژگیهای مبتنی بر انتشار مختلف که نشاندهنده میزان تأثیر یک ژن بر ژنهای هدف است از طریق شبکه سرطان سینه ساختهشده محاسبه گردیدند و ویژگیهای بهدستآمده برای طبقهبندی ژنها به یک شبکه عصبی پیشخور وارد شدند. پس از تنظیم پارامترها و اجرای مدل خروجی بهصورت فهرستی حاوی ژنهای عامل سرطان و ژنهای عادی به دست آمد. نتایج بهدستآمده از رویکرد پیشنهادی و 19 روش دیگر با استفاده از معیارهای اشارهشده در بخش قبل مورد ارزیابی قرار گرفتند. همان طور که در شکل 6 مشاهده میشود روش پیشنهادی با مقدار فراخوانی برابر 46/0، بالاترین مقدار فراخوانی را در بین همه روشهای شبکهای و محاسباتی مورد مقایسه دارد و بعد از آن، iPac با فراخوانی 43/0 در رتبه دوم قرار دارد. از نظر معیار حساسیت نیز بعد از روشهای محاسباتی Netbox، Memo و Simon در رتبه بعد قرار دارند. همچنین روش پیشنهادی از نظر معیار F-measure که میانگین هارمونیک دو معیار قبل است از همه روشهای پیشین عملکرد بالاتری دارد. هرچند برخی روشهای صحت بالاتری را داشتند اما از میانگین هارمونیک مناسبی برخوردار نیستند. مقایسه معیارهای ارزیابی نشان میدهد که روش پیشنهادی عملکرد مناسبتری نسبت به سایر روشها دارد. علاوه بر این، روش پیشنهادی با دقت برابر 66/0 بالاترین دقت را در بین همه روشها به خود اختصاص داد و MSEA با 26/0 و GenHITS در رتبههای بعدی قرار گرفتند.
7- نتیجهگیری
روشهای مختلفی برای شناسایی ژنهای عامل سرطان پیشنهاد شده که اکثر آنها متکی به دادههای جهش بوده و دارای مقادیر کاذب زیاد در نتایج هستند. در این مطالعه، یک رویکرد مبتنی بر شبکه عصبی چندلایه برای شناسایی ژنهای عامل سرطان سینه در شبکه تنظیم ژنی انسان پیشنهاد شد و در آن ابتدا با استفاده از دادههای بیان ژن و برهمکنشهای ژنی، شبکه تنظیم ژنی سرطان سینه ساخته شد. سپس دادهها برای آموزش مدل برچسبگذاری شدند. با توجه به اینکه دادهها نامتوازن بودند، با استفاده از روش کم نمونهگیری تصادفی، متوازنسازی شدند. کلیه مراحل با استفاده از زبان پایتون و کتابخانه پایتورچ پیادهسازی گردیده است. سپس بردارهای ویژگی بر اساس اختلاف بیان هر ژن در بافت
سالم و سرطانی و همچنین معیارهای انتشار که بر اساس دادههای زیستی متناسبسازی شده بودند، بهدست آمد. بردارهای بهدستآمده به یک شبکه سهلایه پیشخور داده شد و نهایتاً پس از آموزش مدل، ژنها به دو دسته عامل سرطان و نرمال دستهبندی گردیدند. نتایج بهدستآمده نشان میدهند که رویکرد پیشنهادی توانسته از نظر معیارهای کارایی بهتر از سایر روشهای محاسباتی و شبکهای پیشین عمل کند؛ بهطوری که توانست به ترتیب 41/56 درصد میانگین هارمونیک و 5 درصد فراخوانی را بهبود بخشد. همچنین روش پیشنهادی بالاترین مقدار دقت را در بین همه روشها به خود اختصاص داده است. نتایج حاصل از این مطالعه نشان میدهند که استفاده از رویکردهای مبتنی بر شبکههای عصبی و یادگیری عمیق برای شناسایی ژنهای عامل سرطان میتواند باعث بهبود کارایی روشهای موجود شده و در مطالعات آینده، بیشتر مورد توجه قرار گیرد.
مراجع
[1] M. H. Bailey, et al., "Comprehensive characterization of cancer driver genes and mutations," Cell, vol. 173, no. 2, pp. 371-385, Apr. 2018.
[2] L. Ding, et al., "Somatic mutations affect key pathways in lung adenocarcinoma," Nature, vol. 455, no. 7216, pp. 1069-1075, Oct. 2008.
[3] L. Mularoni, R. Sabarinathan, J. Deu-Pons, A. Gonzalez-Perez, and N. López-Bigas, "OncodriveFML: a general framework to identify coding and non-coding regions with cancer driver mutations," Genome Biology, vol. 17, Article ID: 128, 13 pp, Dec. 2016.
[4] J. Reimand, O. Wagih, and G. D. Bader, "The mutational landscape of phosphorylation signaling in cancer," Scientific Reports, vol. 3, no. 1, Article ID: 2651, 9 pp., 2013.
[5] M. Helmy, M. Awad, and K. A. Mosa, "Limited resources of genome sequencing in developing countries: challenges and solutions," Applied & Translational Genomics, vol. 9, pp. 15-19, Jun. 2016.
[6] A. Youn and R. Simon, "Identifying cancer driver genes in tumor genome sequencing studies," Bioinformatics, vol. 27, no. 2, pp. 175-181, Jan. 2011.
[7] J. Zhao, S. Zhang, L. Y. Wu, and X. S. Zhang, "Efficient methods for identifying mutated driver pathways in cancer," Bioinformatics, vol. 28, no. 22, pp. 2940-2947, 15 Nov. 2012.
[8] F. Vandin, E. Upfal, and B. J. Raphael, "De novo discovery of mutated driver pathways in cancer," Genome Research, vol. 22,
no. 2, pp. 375-385, Feb. 2012.
[9] A. Gonzalez-Perez and N. Lopez-Bigas, "Functional impact bias reveals cancer drivers," Nucleic Acids Research, vol. 40, no. 21, Article ID: e169, Nov. 2012.
[10] G. Ciriello, E. Cerami, C. Sander, and N. Schultz, "Mutual exclusivity analysis identifies oncogenic network modules," Genome Research, vol. 22, no. 2, pp. 398-406, Feb. 2012.
[11] A. Bashashati, G. Haffari, J. Ding, G. Ha, K. Lui, J. Rosner, D. G. Huntsman, C. Caldas, S. A. Aparicio, and S. P. Shah, "DriverNet: uncovering the impact of somatic driver mutations on transcriptional networks in cancer," Genome Biology, vol. 13, no. 12, pp. 1-4, Dec. 2012.
[12] F. Vandin, E. Upfal, and B. J. Raphael, "De novo discovery of mutated driver pathways in cancer," Genome Research, vol. 22,
no. 2, pp. 375-385, Feb. 2012.
[13] J. Reimand, O. Wagih, and G. D. Bader, "The mutational landscape of phosphorylation signaling in cancer," Scientific Reports, vol. 3, no. 1, Article ID: 2651, Oct. 2013.
[14] M. R. Aure, et al., "Identifying in-trans process associated genes in breast cancer by integrated analysis of copy number and expression data," PloS One, vol. 8, no. 1, Article ID: e53014, Jan. 2013.
[15] M. S. Lawrence, et al., "Mutational heterogeneity in cancer and the search for new cancer-associated genes," Nature, vol. 499, pp. 214-218, 2013.
[16] D. Tamborero, A. Gonzalez-Perez, and N. Lopez-Bigas, "OncodriveCLUST: exploiting the positional clustering of somatic mutations to identify cancer genes," Bioinformatics, vol. 29, no. 18, pp. 2238-2244, Sept. 2013.
[17] E. Porta-Pardo and A. Godzik, "E-Driver: a novel method to identify protein regions driving cancer," Bioinformatics, vol. 30, no. 21, pp. 3109-3114, Nov. 2014.
[18] J. P. Hou and J. Ma, "DawnRank: discovering personalized driver genes in cancer," Genome Medicine, vol. 6, Article ID: 56, 16 pp., Jul. 2014.
[19] J. Zhang, L. Y. Wu, X. S. Zhang, and S. Zhang, "Discovery of co-occurring driver pathways in cancer," BMC Bioinformatics, vol. 15, Article ID: 271, 14 pp., 2014.
[20] D. Arneson, A. Bhattacharya, L. Shu, V. P. Mäkinen, and X. Yang, "Mergeomics: a web server for identifying pathological pathways, networks, and key regulators via multidimensional data integration," BMC Genomics, vol. 17, Article ID: 772, 9 pp., 2016.
[21] M. Rahimi, B. Teimourpour, and S. A. Marashi, "Cancer driver gene discovery in transcriptional regulatory networks using influence maximization approach," Computers in Biology and Medicine, vol. 114, Article ID: 103362, Nov. 2019.
[22] M. Akhavan-Safar, B. Teimourpour, and M. Kargari, "GenHITS:
a network science approach to driver gene detection in human regulatory network using gene's influence evaluation," J. of Biomedical Informatics, vol. 114, Article ID: 103661, Feb. 2021.
[23] Y. Lu, Y. Wang, N. Sheng, H. Wang, Y. Fu, and Y. Tian, "RDDriver: a novel method based on multi-layer heterogeneous transcriptional regulation network for identifying pancreatic cancer biomarker," in Proc.IEEE Int. Conf. on Bioinformatics and Biomedicine, BIBM'22, pp. 497-502, Las Vegas, NV, USA, 6-8 Dec. 2022.
[24] S. Lee, H. Jung, J. Park, and J. Ahn, "Accurate prediction of cancer prognosis by exploiting patient-specific cancer driver genes," International J. of Molecular Sciences, vol. 24, no. 7, Article ID: 6445, Apr. 2023.
[25] J. M. Vaquerizas, S. K. Kummerfeld, S. A. Teichmann, and N. M. Luscombe, "A census of human transcription factors: function, expression and evolution," Nature Reviews Genetics, vol. 10, no. 4, pp. 252-263, Apr. 2009.
[26] H. Han, et al., "TRRUST v2: an expanded reference database of human and mouse transcriptional regulatory interactions," Nucleic Acids Research, vol. 46-D1, pp. 380-386, Jan. 2018.
[27] S. M. Cheng, V. Karyotis, P. Y. Chen, K. C. Chen, and S. Papavassiliou, "Diffusion models for information dissemination dynamics in wireless complex communication networks," J. of Complex Systems, vol. 2013, Article ID: 972352, 13 pp., 2013.
[28] I. F. Chung, C. Y. Chen, S. C. Su, C. Y. Li, K. J. Wu, H. W. Wang, and W. C. Cheng, "DriverDBv2: a database for human cancer driver gene research," Nucleic Acids Research, vol. 44-D1, pp. 975-979, Jan. 2016.
[29] P. Shannon, et al., "Cytoscape: a software environment for integrated models of biomolecular interaction networks," Genome Research, vol. 13, no. 11, pp. 2498-2504, Nov. 2003.
مصطفی اخوان صفار مدرک كارشناسي ارشد خود را در سال 1388در رشته مهندسی فناوری اطلاعات از دانشگاه علم و صنعت ایران و نیز مدرک دكتري خود را در سال 1400 در رشته مهندسی فناوری اطلاعات – مدیریت سیستمهای اطلاعاتی از دانشگاه تربیت مدرس دریافت نمود. نامبرده هماکنون بعنوان استادیار گروه مهندسی فناوری اطلاعات، در دانشکده مهندسی کامپیوتر و فناوری اطلاعات دانشگاه پیام نور مشغول به کار است. زمينههاي علمي مورد علاقه ایشان متنوع بوده و شامل موضوعاتي مانند بایوانفورماتیک، یادگیری ماشین، دادهکاوی، سیستمهای اطلاعاتی و تحلیل شبکههای اجتماعی ميباشد.
عباسعلی رضایی در سال 1373 مدرک کارشناسی خود را در رشته مهندسی کامپیوتر گرایش سخت افزار از دانشگاه شهید بهشتی تهران و در سال 1380 مدرک کارشناسی ارشد خود را در رشته کامپیوتر گرایش معماری سیستمهای کامپیوتری از دانشگاه اصفهان و در سال 1392 مدرک دکترای خود را در رشته کامپیوتر گرایش سخت افزار از دانشگاه علوم و تحقیقات تهران دریافت نمود. زمینههای تحقیقاتی مورد علاقه ایشان عبارتند از: سیستمهای توزیع شده، شبکههای کامپیوتری، شبکههای حسگر بیسیم، شبکههای نسل جدید و محاسبات نرم.
[1] . Cancer Gene Census
[2] . https://cancer.sanger.ac.uk/census
[3] . Random Under Sampling
[4] . Feed-Forward
[5] . PyTorch
[6] . Cross Entropy
[7] . Epoch
[8] . Over-Fit
[9] . True Negative
[10] . True Positive
[11] . False Negative
[12] . False Positive
[13] . Recall
[14] . Precision
[15] . F-Measure
[16] . Accuracy