تشخیص ناهنجاری در مسیرخودرو با استفاده از از آموزش لغت نامه و بازسازی تنک
محورهای موضوعی : مهندسی برق و کامپیوترریحانه تقی زاده خانکوک 1 , عباس ابراهیمی مقدم 2 * , مرتضی خادمی 3
1 - دانشگاه فردوسی،دانشکده مهندسی
2 - دانشگاه فردوسی،دانشکده مهندسی
3 - دانشگاه فردوسی،دانشکده مهندسی
کلید واژه: آموزش لغتنامه, استخراج ویژگی, بازسازی تنک تشخیص ناهنجاری,
چکیده مقاله :
در سامانههای کنترل ترافیک و ثبت تخلفات وسایل نقلیه همواره دستیابی به سامانهای که بتوان با استفاده از آن به طور خودکار رفتارهای ناهنجار رانندگان را شناسایی کرد، چالشی اساسی به شمار میآید. در این تحقیق سامانهای با مشخصات مذکور برای تشخیص ناهنجاری مسیر خودروها پیشنهاد گردیده که در آن ابتدا به استخراج ویژگیهای زمانی- مکانی و تشکیل یک طبقهبند با کمک لغتنامه حاصل از آن ویژگیها پرداخته میشود. طبقهبند از پردازشهایی چون خوشهبندی بهینهشده با الگوریتم جفتگیری زنبور عسل و پردازش تنک روی ویژگیهای زمانی- مکانی حاصل از دادههای آموزشی تشکیل میگردد. طبقهبند طراحیشده روی دادههای آزمون، به منظور تشخیص ناهنجاری اعمال میشود. وجه تمایز این پژوهش نسبت به پژوهشهای پیشین علاوه بر شیوه نوین در پیشپردازش صورتگرفته به منظور ایجاد ماتریس لغتنامه، تشخیص ناهنجاری بر پایه ارزیابی ماتریس حاصل از تعلق دادهها به هر طبقه است که منجر به دقت بالاتر روش پیشنهادی نسبت به سایر روشهای رقیب میشود. برای ارزیابی بهتر روش پیشنهادی، ابتدا آن را روی پایگاه داده UCSD و سپس روی دنبالههای ویدئویی استخراجشده از عبور و مرور خودروها در ضلع شمالی دانشگاه فردوسی مشهد اعمال نموده و سپس نتایج حاصل، با نتایج سایر پژوهشهای شناختهشده در این حوزه مقایسه میگردد.
In traffic control and vehicle registration systems a big challenge is achieving a system that automatically detects abnormal driving behavior. In this paper a system for detection of vehicle anomalies proposed, which at first extracts spatio-temporal features form clusters then creates dictionary from these features. This classification stage consists of processes such as, optimized clustering with the bee mating algorithm and sparse processing on spatiotemporal features derived from the training data. Finally the trained classifier is applied to the test data for anomaly detection. The distinction of this study from previous research is using new method of pre-processing to create a dictionary matrix and anomaly detection based on evaluation of matrix that related to each class dependency, which leads to higher accuracy of the proposed method compared to other leading methods. To evaluate the proposed method, UCSD database and video sequences recorded from vehicle traffic on Vakilabad Boulevard at the north side of Ferdowsi University of Mashhad are used and the performance of the proposed method is compare to other competing methods in this field. By analyzing the evaluation standards, we find that the proposed method performance is better than other methods.
[1] J. Wrigh, A. Y. Yang, A. Ganesh, S. Shankar Sastry, and Y. Ma, "Robust face recognition via sparse representation," IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 31, no. 2, pp. 210-227, Feb. 2009.
[2] Y. Chong, W. Chen, et al., "Method for preceding vehicle type classification based on sparse representation," Transportation Research Record, J. of the Transportation Research Board, vol. 2243, no. 1, pp. 74-80, 2011.
[3] A. G. Okyere and N. Attoh-Okine, "Traffic sign recognition using sparse representations and active contour models," Transportation Research Record: J. of the Transportation Research Board, vol. 2463, no. 1, pp. 35-45, 2014.
[4] Y. Cong, J. Yang, and J. Liu, "Abnormal event detection in crowded scenes using sparse representation," Pattern Recognition, vol. 46, no. 7, pp. 1851-1864, Jul. 2013.
[5] R. Chartrand, "Nonconvex regularization for shape preservation," in Proc. IEEE Int. Conf. Image Process., vol. 1, pp. 293-296, San Antonio, CA, USA, 16-19 Sept. 2007.
[6] R. Chartrand, "Exact reconstruction of sparse signals via nonconvex minimization," IEEE Signal Processing Letters, vol. 14, no. 10, pp. 707-710, Oct. 2007.
[7] J. Fan and R. Li, "Variable selection via nonconcave penalized likelihood and its oracle properties," J. of the American Statistical Association, vol. 96, no. 456, pp. 1348-1360, Dec. 2001.
[8] M. Nikolova, "Analysis of the recovery of edges in images and signals by minimizing nonconvex regularized least-squares," Multiscale Modeling & Simulation, vol. 4, no. 3, pp. 960-991, 2005.
[9] M. Izadi, Z. Azimifar, and G. H. Jowkar, "Abnormal event detection in indoor video using feature coding," in Proc. IEEE Artificial Intelligence and Signal Processing Conf., pp. 151-155, Shiraz, Iran, 25-27 Oct. 2017.
[10] S. Li, C. Liu, and Y. Yang, "Anomaly detection based on sparse coding with two kinds of dictionaries," Signal, Image and Video Processing, vol. 12, no. 5, pp. 983-989, Jul. 2018.
[11] S. Biswas and V. Gupta, "Abnormality detection in crowd videos by tracking sparse components," Machine Vision and Applications, vol. 28, no. 1, pp. 35-48, Feb. 2017.
[12] X. Chen, F. Xu, and Y. Ye, "Lower bound theory of nonzero entries in solutions of \ell_2-\ell_p minimization," SIAM J. on Scientific Computing, vol. 32, no. 5, pp. 2832-2852, 2010.
[13] A. Adam, E. Rivlin, I. Shimshoni, and D. Reinitz, "Robust real-time unusual event detection using multiple fixed-location monitors," Pattern Analysis and Machine Intelligence, IEEE Trans. on, vol. 30, no. 3, pp. 555-560, Mar. 2008.
[14] R. Mehran, A. Oyama, and M. Shah, "Abnormal crowd behavior detection using social force model," in Proc. IEEE Conf. on Computer Vision and Pattern Recognition, pp. 935-942, Miami, FL, USA, 20-25 Jun. 2009.
[15] J. Kim and K. Grauman, "Observe locally, infer globally: a space-time MRF for detecting abnormal activities with incremental updates," in Proc. IEEE Conf. on Computer Vision and Pattern Recognition, pp. 2921-2928, FL, USA, 20-25 Jun. 2009.
[16] T. Hospedales, S. Gong, and T. Xiang, "A Markov clustering topic model for mining behaviour in video," in Proc. IEEE 12th Int. Conf. on Computer Vision, pp. 1165-1172, Kyoto, Japan, 29 Sept.- 2 Oct. 2009.
[17] V. Kaltsa, A. Briassouli, I. Kompatsiaris, L. J. Hadjileontiadis, and M. G. Strintzis, "Swarm intelligence for detecting interesting events in crowded environments," IEEE Trans. on Image Processing, vol. 24, no. 7, pp. 2153-2166, Jul. 2015.
[18] S. Zhou, et al., "Spatial-temporal convolutional neural networks for anomaly detection and localization in crowded scenes," Signal Processing, Image Communication, vol. 47, pp. 358-368, Sept. 2016.
[19] K. Doshi and Y. Yilmaz, "An efficient approach for anomaly detection in traffic videos," in Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition, pp. 4236-4244, Nashville, TN, USA, 19-25 Jun. 2021.
[20] M. Liatsikou, S. Papadopoulos, L. Apostolidis, and Y. Kompatsiaris, "A denoising hybrid model for anomaly detection in trajectory sequences," in Proc. EDBT/ICDT Workshops, 23-26 Mar. 2021.
[21] H. Mohimani, M. Babaie-Zadeh, and C. Jutten, "A fast approach for overcomplete sparse decomposition based on smoothed l0 norm," IEEE Trans. on Signal Processing, vol. 57, no. 1, pp. 289-301, Jan. 2008.
[22] H. Zayyani, M. Babaie-Zadeh, and C. Jutten, "An iterative Bayesian algorithm for sparse component analysis in presence of noise," IEEE Trans. on Signal Processing, vol. 57, no. 11, pp. 4378-4390, Jun. 2009.
[23] Y. Bosi, Y. Liu, and Q. Sun, "Low-rank approximation based abnormal detection in the video sequence," in Proc. IEEE Int. Conf. on Digital Signal Processing, pp. 129-133, Beijing, China, 16-18 Oct. 2016.
[24] A. Afshar, O. Bozorg Haddad, M. A. Marino, B. J. Adams, "Honey-bee mating optimization (HBMO) algorithm for optimal reservoir operation," J. of the Franklin Institute, vol. 344, no. 5, pp. 452-462, Aug. 2007.
[25] C. Yang, J. Yuan, and J. Liu, "Sparse reconstruction cost for abnormal event detection," in Proc. IEEE Conf. on Computer Vision and Pattern Recognition, pp. 3449-3456, Colorado Springs, CO, USA, 20-25 Jun. 2011.
[26] L. Cewu, J. Shi, and J. Jia, "Abnormal event detection at 150 fps in MATLAB," in Proc. of the IEEE Int. Conf. on Computer Vision, pp. 2720-2727, Sydney, Australia, 1-8 Dec. 2013.
[27] C. Zhi-Jun, et al., "Vehicle behavior learning via sparse reconstruction with l2 – lp minimization and trajectory similarity," IEEE Trans. on Intelligent Transportation Systems, vol. 18, no. 2, pp. 236-247, Feb. 2017.
[28] UCSD Anomaly Detection Dataset, http://www.svcl.ucsd.edu/projects/anomaly/dataset.htm.
[29] B. Auslander, K. Moy Gupta, and D. W. Aha, "A comparative evaluation of anomaly detection algorithms for maritime video surveillance," Proceedings Volume 8019, Sensors, and Command, Control, Communications, and Intelligence (C3I) Technologies for Homeland Security and Homeland Defense X, Article ID: 801907, 2011.
نشریه مهندسی برق و مهندسی كامپیوتر ایران، ب- مهندسی کامپیوتر، سال 20، شماره 1، بهار 1401 57
مقاله پژوهشی
تشخیص ناهنجاری در مسیرخودرو با استفاده از آموزش لغتنامه
و بازسازی تنک
ریحانه تقیزاده خانکوک، عباس ابراهیمی مقدم و مرتضی خادمی درح
چكیده: در سامانههای کنترل ترافیک و ثبت تخلفات وسایل نقلیه همواره دستیابی به سامانهای که بتوان با استفاده از آن به طور خودکار رفتارهای ناهنجار رانندگان را شناسایی کرد، چالشی اساسی به شمار میآید. در این تحقیق سامانهای با مشخصات مذکور برای تشخیص ناهنجاری مسیر خودروها پیشنهاد گردیده که در آن ابتدا به استخراج ویژگیهای زمانی- مکانی و تشکیل یک طبقهبند با کمک لغتنامه حاصل از آن ویژگیها پرداخته میشود. طبقهبند از پردازشهایی چون خوشهبندی بهینهشده با الگوریتم جفتگیری زنبور عسل و پردازش تنک روی ویژگیهای زمانی- مکانی حاصل از دادههای آموزشی تشکیل میگردد. طبقهبند طراحیشده روی دادههای آزمون، به منظور تشخیص ناهنجاری اعمال میشود. وجه تمایز این پژوهش نسبت به پژوهشهای پیشین علاوه بر شیوه نوین در پیشپردازش صورتگرفته به منظور ایجاد ماتریس لغتنامه، تشخیص ناهنجاری بر پایه ارزیابی ماتریس حاصل از تعلق دادهها به هر طبقه است که منجر به دقت بالاتر روش پیشنهادی نسبت به سایر روشهای رقیب میشود. برای ارزیابی بهتر روش پیشنهادی، ابتدا آن را روی پایگاه داده UCSD و سپس روی دنبالههای ویدئویی استخراجشده از عبور و مرور خودروها در ضلع شمالی دانشگاه فردوسی مشهد اعمال نموده و سپس نتایج حاصل، با نتایج سایر پژوهشهای شناختهشده در این حوزه مقایسه میگردد.
کلیدواژه: آموزش لغتنامه، استخراج ویژگی، بازسازی تنک تشخیص ناهنجاری.
1- مقدمه
با بهرهگیری از یک سامانه هوشمند نظارت ویدئویی، امکان کنترل بیوقفه رانندگی صحیح، بررسی سیر حرکت وسایل نقلیه در بین خطوط و تشخیص رفتارهای پرخطر رانندگی فراهم میگردد. اگر تحلیل و بررسی خروجی دوربینهای ویدئوهای نظارتی به صورت دستی انجام شود، با افزایش تعداد دوربینها، هزینه و حجم ذخیره دادههای ویدئویی افزایش خواهد یافت. بنابراین مزیت عمده روشهای خودکار، سرعت بالاتر و هزینه کمتر برای کمک به عملیات ترافیکی، خدمات عمومی و اجرای قانون است. آموزش خودکار رفتار وسایل نقلیه از طریق ویدئوهای نظارتی یک کار بسیار چالشبرانگیز است که به طور کلی در سه مرحله استخراج اطلاعات، نمایش اطلاعات و درک رفتار وسایل نقلیه، انجام میپذیرد.
در ادامه، ابتدا پژوهشهای مشهور در این حوزه مرور و سپس شیوه پیشنهادی بیان میشود. در بخش شبیهسازی، روش پیشنهادی روی دنبالههای ویدئویی پیادهسازی شده و با سایر روشهای رقیب مورد مقایسه قرار میگیرد. بخش آخر به جمعبندی اختصاص دارد.
2- پیشینه تحقیق
الگوریتم طبقهبندی بر اساس بازسازی تنک، اولین بار در زمینه تشخیص چهره پیشنهاد شد [1] و نویسندگان ادعا کردند که نمایش تنک میتواند مقدار قابل توجهی از نویز را از بین ببرد.
در حوزه دادههای ویدئویی ترافیکی نیز، یک روش طبقهبندی کارامد از دادههای ویدئویی جمعآوری شده برای طبقهبندی انواع وسایل نقلیه به نام طبقهبندی مبتنی بر بازسازی تنک 2(SRCVT) ارائه شد [2]. در این روش از بازسازی تنک برای ساخت مدل طبقهبندی استفاده گردیده و در نهایت به نتایج قابل قبولی نیز منجر شده است. روش SRCVT نسبت به روشهای قدیمیتر طبقهبندی همچون ماشین بردار پشتیبان، دقت بالاتر و سهولت بیشتری را در جهت انواع وسایل نقلیه از خود نشان میدهد. مرجع [3] نیز روش نمایش تنک را برای تشخیص پایگاه داده علایم راهنمایی به کار برده و نتایج حاصل، بیانگر کیفیت بالای نمایش تنک
در کار انجامشده است. در [4]، معیار جدیدی بر پایه نرخ بازسازی تنک برای تشخیص ناهنجاری در صحنههای ویدئویی شلوغ ارائه شده است. همچنین در این پژوهش مرجع [4]، دستیابی به یک لغتنامه3 مناسب با حداقل ابعاد و حداکثر انعطاف را ممکن ساخته که منجر به تشخیص ناهنجاریهای محلی4 و سراسری5 با کیفیت بسیار مطلوبی شده است.
مطالعات [5] تا [8] نشان دادهاند که برای ساخت مدلهای یادگیری بازسازی تنک، علاوه بر حلکردن کمینهساز نرم یک و دو، کمینهساز
نیز میتواند به راه حلهای تنک دست پیدا کند. حتی راه حلهای بهینه محلی از کمینهساز ممکن است از
راه حلهای بهینه محلی کمینهساز و تنکتر باشد.
در [9] از شيوههاي مرسوم بدون مربي بينايي ماشين جهت يافتن ناهنجاري در ويدئوهاي مربوط به دوربينهاي نظارتي در ورودي و خروجي مترو استفاده شده است. در اين پژوهش براي تشخيص ناهنجاري، از هيستوگرام گراديان جهتدار و هيستوگرام مرزي حرکت، در جهت تحليل توصيفگرهاي زماني- مکاني به منظور تشکيل ديکشنري مناسب در فرايند تشخيص ناهنجاري استفاده گردیده و نهایتاً نیز با استفاده از تحلیل تنک، لغتنامه ایجاد و به روز رسانی شده است. سپس در گام آخر، با استفاده از آستانه به دست آمده از دادههای آموزشی، فرایند تشخیص ناهنجاری کامل میشود.
در [10] با استفاده از تحلیل تنک و استفاده از دو گونه لغتنامه بر پایه توزیع حرکتهای سراسری و الگوهای محلی به دست آمده از دادههای آموزشی، به تشخیص ناهنجاری پرداخته شده است. در مرحله آزمون،
ابتدا از لغتنامه سراسری و سپس از لغتنامه بر پایه الگوهای محلی برای به روز رسانی لغتنامه برخط و نهایتاً تشخیص ناهنجاری استفاده میگردد.
در [11] ابتدا با استفاده از شار نوری به استخراج اطلاعات نهفته در دنباله ویدئویی پرداخته میشود و سپس با استفاده از مدل مخلوط گوسی، فرایند مدلسازی صورت میپذیرد. گام بعد به تبدیل ماتریس ویژگیهای استخراجی با استفاده از تجزیه ماتریس به ماتریسهای تنک، اختصاص دارد و در گام آخر با استفاده شیوه پیشنهادی از پالایه کالمن به تشخیص ناهنجاری میپردازد.
نویسندگان [12] شیوهای بر مبنای استفاده از نرم پیشنهاد دادهاند که امکان تغییر کمینهساز محلی برای تنکتربودن را دارد. بنابراین میتوان از مشکلات محاسباتی کمینهساز دوری کرد و ممکن است به راه حلهای تنککردن بدون استفاده از راه حلهای جدید دست یافت. این به طور قابل توجهی به افزایش دقت بازسازی مسیر در هنگام استفاده از مسیرهای آموزشدیده کمک میکند.
علاوه بر موارد فوق، پژوهشهای دیگری نیز در حوزه تشخیص رفتار ناهنجار صورت پذیرفته است. برای نمونه در [13] با کمک شار نوری و تحلیلهای مرتبط با سرعت فرد به تشخیص ناهنجاری در ویدئوهای مربوط به محیطهای شلوغ پرداخته شده است. در پژوهش [14] از شار نوری برای فرایند تشخیص ناهنجاری استفاده شده که این پژوهش
روی پایگاه داده UMN مرتبط با دانشگاه مینوستا6 مورد ارزیابی قرار گرفته است. در این روش علاوه بر شار نوری خالص از روش 7SF نیز در تشخیص ناهنجاری استفاده شده است.
در [15] برای ساخت مدلی در شناسایی رفتارهای ناهنجار از 8MRF در حوزه زمان استفاده شده است. در این پژوهش برای یادگیری الگوهای شار نوری در گرههای محلی از 9MPPCA استفاده شده است. در گام بعد مؤلفههای MRF بر پایه مدل آموختهشده مورد محاسبه قرار میگیرند و در گام آخر نیز از مدل بیزی برای تشخیص هنجار یا ناهنجاربودن هر گره محلی استفاده میشود.
مرجع [16] با استفاده از 10MDT به مدلسازی رفتار هنجار و ناهنجار پرداخته و با توجه به الگوهای زمانی- مکانی استخراجی از دنبالههای ویدئویی پایگاه دادههای مشهوری از قبیل UCSD، به تشخیص ناهنجاری میپردازد. در [17] از نظریه ازدحام11 برای تحلیل رویدادهایی که در یک صحنه شلوغ اتفاق میافتد استفاده شده است. نتایج شبیهسازی روش پیشنهادی بیانگر این موضوع میباشد که این روش علیرغم حجم پایین محاسباتی به دقت بالاتری نسبت به جدیدترین روشهای این حوزه منجر میشود.
علاوه بر آنچه تا کنون مطرح شد، استفاده از شبکههای عصبی عمیق در حوزه تشخیص ناهنجاری هم با نتایج خوبی همراه بوده است. برای نمونه، [18] استفاده از شبکههای عصبی عمیق کانولوشنی روی مؤلفههای زمانی- مکانی استخراجی را مورد ارزیابی قرار میدهد. نتایج این پژوهش حاکی از آن بوده که این روش در صحنههای ویدئویی بسیار شلوغ، از جمله آنچه که در پایگاه داده UCSD رخ میدهد، با عملکرد خوبی همراه خواهد بود.
در [19] نیز شیوهای نوین در تشخیص ناهنجاری در دنباله ویدئویی ترافیکی پیشنهاد شده است. در این پژوهش برای تشخیص ناهنجاری از یک الگوریتم کارامد، متشکل از یک بخش تشخیص شیء مبتنی بر یادگیری عمیق و دو بخش مجزا برای تصمیمگیری آماری استفاده شده است. از نتایج ارائهشده در این مقاله به خوبی میتوان دریافت که روش پیشنهادی این مقاله در مقایسه با سایر روشهای نوین، از بار محاسباتی کمتری در فاز آموزش برخوردار است.
در [20] بررسی و ردیابی مسیرهای مربوط به اجسام متحرک، مورد توجه قرار گرفته است. با توجه به این که تشخیص ناهنجاریها در اجسام متحرک مسیر یک حوزه تحقیقاتی در حال تکامل است و با تحقیق در آن میتوان مدیریت ترافیک و ایمنی عمومی را بهبود بخشید، در این مقاله شیوهای نوین برای ارزیابی و تحلیل وابستگیهای مکانی- زمانی غیر خطی پیشنهاد شده است. در این کار ترکیبی از تکنیکهای یادگیری عمیق با یک روش کلاسیک برای تشخیص مسیرهای ناهنجار پیشنهاد شده است. در روش پیشنهادی این پژوهش دو نوع معماری شامل شبکههای بدون نظارت خودرمزگذار برای حذف نویز و یک شبکه خودرمزگذار مبتنی بر 12LSTM پیشنهاد شده است. مدل پیشنهادی در این پژوهش بر روی انواع مختلف ناهنجاریهای مصنوعی اعمال شده و نتایج حاصل از این پیادهسازی نشاندهنده عملکرد خوب آن به نسبت سایر روشهای پیشنهادی در این حوزه است.
در [21] روشی سریع برای تجزیه تنک پیشنهاد شده است. روش پیشنهادی در این پژوهش در واقع با هدف دستیابی به پاسخی تنک برای سیستمهایی با معادلات خطی نامعین شکل گرفته است. در این فرایند برخلاف پژوهشهای مرسوم که از کمینهسازی نرم بهره میبردند، از طریق کمینهسازی مستقیم نرم برای دستیابی به این هدف استفاده میشود. با توجه به آزمایشها و شبیهسازی صورتگرفته میتوان دریافت که روش پیشنهادی 2 تا 3 برابر نسبت به روشهای مرسوم سریعتر است.
در [22] نیز از مدل بیزی برای دستیابی به آنالیز مؤلفههای تنک برای موارد نویزی استفاده میشود. در این پژوهش، روش پیشنهادی عملکرد خوبی در یافتن پاسخ تنک برای سیستمهایی با معادلات خطی نامعین به همراه نویز جمعشونده گوسی از خود نشان میدهد. روش پیشنهادی در این پژوهش بر پایه تخمین مؤلفههای مرجع و بیشینه تخمین پسین آن شکل گرفته است. نتایج حاصل از پیادهسازی این روش بیانگر عملکرد خوب روش پیشنهادی به نسبت پژوهشهای مشابه و فارغ از تغییر مؤلفههای شبیهسازی است.
3- روش پیشنهادی
روش پیشنهادی این مقاله در شکل 1 آمده و مراحل تشخیص ناهنجاری در ادامه شرح داده شده است.
[1] این مقاله در تاریخ 9 آذر ماه 1398 دریافت و در تاریخ 21 آذر ماه 1400 بازنگری شد.
ریحانه تقیزاده خانکوک، گروه برق دانشکده مهندسی، دانشگاه فردوسی مشهد، مشهد، ایران، (email: r.taghizadeh5@stu.um.ac.ir).
عباس ابراهیمی مقدم (نویسنده مسئول)، گروه برق دانشکده مهندسی، دانشگاه فردوسی مشهد، مشهد، ایران، (email: a.ebrahimi@um.ac.ir).
مرتضی خادمی درح، گروه برق دانشكده مهندسي، دانشگاه فردوسی مشهد، مشهد، ایران، (email: khademi@um.ac.ir).
[2] . Sparse Representation Classifier Vehicle Transportation
[3] . Dictionary
[4] . Local
[5] . Global
[6] . University of Minnesota
[7] . Social Force
[8] . Markov Random Field
[9] . Mixture of Probabilistic Principal Component Analyzers
[10] . Mixture of Dynamic Textures
[11] . Swarm Intelligence
[12] . Long Short-Term Memory
شکل 1: رویهنمای سامانه پیشنهادی.
شکل 2: استخراج ویژگی زمانی- مکانی دنبالههای ویدئویی برگرفته از [19].
3-1 پیشپردازش
همان طور که در رویهنمای سامانه پیشنهادی (شکل 1) مشخص شده است، اولین مرحله در روش پیشنهادی پس از دریافت دنبالههای ویدئویی ورودی، اعمال پیشپردازش میباشد. برای این منظور، ابتدا با استفاده از روش میانگینگیری فریمهای متوالی، به تشخیص پسزمینه در کل تصویر پرداخته میشود و پس از حذف آن از تکتک فریمها، فرایند استخراج مسیر خودروها انجام میگردد. لازم به ذکر است که در دنبالههای ویدئویی عوامل مزاحمی چون حرکت برگهای درختان و عابران پیاده وجود دارد که این موارد قادر به تأثیرگذاری در کیفیت عملکرد روش پیشنهادی میباشد. چون در تصویربرداری، دوربین ثابت است، با ضرب تصویر حاصل در ماسک مناسب، تصویری ایجاد میگردد که در آن
تنها نواحی جاده مورد پردازش، باقی مانده است. این ماسک با توجه به ثابتبودن دوربین نظارتی و عدم تغییر موقعیت آن در تمام فریمهای موجود به صورت باینری است؛ یعنی در نواحی مورد نظر پردازش، یک و سایر نواحی، صفر در نظر گرفته میشود.
3-2 استخراج ویژگی زمانی- مکانی
مرحله بعد در روش پیشنهادی، مربوط به استخراج ویژگیهای زمانی- مکانی 1(STF) است که این مرحله شامل چندین گام میباشد. ابتدا نمونهبرداری زمانی- مکانی از دادههای حاصل از مرحله پیشپردازش صورت میگیرد که منجر به استخراج ویژگیهای 2STV میشود. برای این امر ابتدا یک سری نقاط کلیدی روی ناحیه جاده مورد نظر به صورت تصادفی انتخاب میشوند. گام بعدی به استخراج گرادیان سهبعدی از STVها اختصاص داشته و نهایتاً با کنار هم قرار دادن این گرادیانهای حاصل از تمام فریمهای دنباله ویدئویی، STF نهایی حاصل میشود [23]. شکل 2 بیانگر این بخش از روش پیشنهادی میباشد. برخلاف بسیاری از مقالات، در این پژوهش علاوه بر ویژگیهای مکانی، ویژگیهای زمانی نیز توأماً استخراج و مورد تحلیل قرار میگیرند. خروجی این مرحله ماتریسهایی با ابعاد بزرگ هستند که نیازمند کاهش ابعاد میباشند.
3-3 کاهش ابعاد با خوشهبندی HBM
ویژگیهای حاصل با اعمال الگوریتم تکاملی 3HBM (الگوریتم جفتگیری زنبور عسل) آماده خوشهبندی میشوند [24]. این الگوریتم برای بهبود خوشهبندی و جلوگیری از تله بهینههای محلی استفاده شده و با الهام از آنچه که در طبیعت و زندگی زنبورهای عسل وجود دارد، به
حل مسایل بهینهسازی میپردازد. با اعمال این مرحله به فضای ویژگی جدیدی دست خواهیم یافت که پیچیدگی محاسباتی کمتری دارد. همچنین از نظر زمان آموزش سامانه، عملکرد بهتری حاصل خواهد شد و امکان پیادهسازی برخط روش پیشنهادی نیز وجود خواهد داشت. بنابراین در این مرحله ویژگیهای به دست آمده نماینده خوبی از یک طبقه مسیر میباشند. مزیت این بخش از روش پیشنهادی آن است که به جای تشکیل ماتریس لغتنامه با استفاده از تکتک مسیرها (خروجی بلوک استخراج ویژگی)، با نماینده آن مسیرها که حاصل این خوشهبندی است، کار ادامه پیدا میکند.
3-4 تشکیل ماتریس لغتنامه
در این مرحله با استفاده از الگوریتم تجزیه مقادیر تکین 4K-SVD و ویژگیهای به دست آمده از مرحله قبل، ماتریس لغتنامه ایجاد میشود.
این مرحله به منظور آموزش لغتنامههای تنک گروهی مهم (که بهترین توصیف را با کمترین حجم اطلاعات ارائه میدهند) طراحی شده و ما را در دستیابی به یک لغتنامه مناسب یاری میرساند. لغتنامه ایجادشده، نسبت به لغتنامه فراکاملشده [25] یا مجموعه لغتنامههایی با مقادیر مشابه پایهها [26]، با دقت بیشتری به شرح ویژگیهای ساختاری میپردازد.
در بعضی تحقیقات، سلولهای لغتنامه را مستقیماً از روی ویژگیهای استخراجشده مسیر ساختهاند [27]، در صورتی که آموزش لغتنامه
با K-SVD سبب رسیدن به بهترین نمایندگی از دادههای آموزشی خواهد شد. برای تشکیل ماتریس لغتنامه در ابتدای امر، مقدار میانگین تمام
جدول 1: جزئیات پایگاه داده مورد استفاده.
خودساخته | 2PED | 1PED |
|
179 | 6 | 24 | تعداد ویدئوهای آموزشی |
146 | 14 | 36 | تعداد ویدئوهای آزمایشی |
200 | 200 | 200 | تعداد فریمها در هر ویدئو |
720 × 1280 | 240 × 360 | 158 × 238 | اندازه تصویر |
STFها از هر طبقه از مقادیر آن طبقه کم میشود تا مقادیر به صورت نرمالشده در اختیار باشند. علاوه بر مشکل ابعاد بالای STFها ابعاد مورد استفاده برای هر طبقه نیز بزرگ است. برای این منظور، یک راه، استفاده از افکنش تصادفی5 است [28].
3-5 طراحی طبقهبند
حال نوبت به طراحی یک طبقهبند بهینه به منظور طبقهبندی دادههای آزمون مرحله آزمایش، با استفاده از ماتریس لغتنامه قسمت قبل و تشکیل کمینهساز تفاضل نرم و نرم میرسد. با توجه به تحقیقاتی چون [3] که کمینهساز، تفاضل نرم و نرم را به عنوان پاسخ تنکتر نسبت به سایر نرمها معرفی میکند، این کمینهساز در طراحی طبقهبند به کار برده میشود. انتخاب تلفیق نرمهای مذکور به این دلیل است که مسئله مورد نظر در این پژوهش، پیداکردن تنکترین پاسخ است. از آنجا که در نرم به طور قابل توجهی مقادیر مجذور عناصر تخریب میگردند، از تلفیق آن با نرم برای دستیابی به انعطاف بهتر بهره گرفته میشود و در نتیجه این تلفیق، رفتار متعادلتری مشاهده میگردد که حاصل کار، یک طبقهبندی با حجم محاسباتی کمتر خواهد بود. برای توضیح بیشتر میتوان گفت که فرایند طبقهبندی با دو مرحله، کدکردن داده ورودی با استفاده از ماتریس لغتنامه و سپس بازسازی داده آزمایشی با استفاده از ضرایب تنک صورت میپذیرد. به دلیل پردازشهای قسمتهای قبل، انتظار میرود که این طبقهبندی با کیفیت مطلوبتر، حجم محاسباتی کمتر و همچنین با زمان عملکرد مناسبتری نسبت به سایر تحقیقات انجام پذیرد.
3-6 مرحله آزمایش
در مرحله آزمایش، ابتدا ویژگیهای زمانی- مکانی را از دادههای آزمایش که پیشپردازش روی آنها اعمال شده است، استخراج کرده و با استفاده از طبقهبند طراحیشده در مرحله آموزش، طبقهبندی روی آنها صورت میپذیرد. حاصل این طبقهبندی، ماتریس با ابعاد میباشد که در این ماتریس تا بیانگر احتمال تعلق هر داده به طبقه مورد نظر است. پس از آن که احتمال تعلقها به دست آمد و برای تکتک دستههای موجود در ماتریسی ذخیره شد، به محاسبه کمینه فاصله پرداخته میشود. در صورتی که این کمینه فاصله در دو یا چند سلول تکرار شده باشد یا اختلاف کمی داشته باشند، تشخیص ناهنجاری اعلام میشود. حالت دیگر نیز زمانی است که اختلاف کمینه فاصله یک سلول با سایر سلولها از حدی بیشتر باشد که در این صورت، کمینه فاصله به دست آمده با آستانهای مقایسه میشود. اگر کمینه به دست آمده از آن آستانه، فاصله فاحشی داشته باشد، تشخیص ناهنجاری اعلام میشود و در غیر این موارد، رویداد عادی است و مقدار این آستانه به صورت تجربی تعیین میگردد. لازم به ذکر است که تعیین معیاری برای تشخیص ناهنجاری ضروری بوده و در صورتی که این معیار برای تمام طبقهها ارضا نشود یا به عبارت دیگر بیشترین درصد تعلق داده به یکی از طبقهها از آن کمتر باشد، برچسب ناهنجاری برای آن داده اعلام میگردد. این معیار طبق تجربه به صورت (1) تعریف میشود
(1)
که در آن، بیانگر میانگین درصد تخصیص داده مورد نظر به تمام طبقهها و و به ترتیب بیانگر بیشترین و کمترین درصد تخصیص میباشد. موضوع دیگری که باید مورد ارزیابی قرار گیرد، عدم تعلق همزمان به دو طبقه متفاوت است. برای بررسی این مسئله ابتدا ماتریس به دست آمده (که عناصر آن بیانگر تعلق به کلاسهای مختلف است) را به صورت نزولی مرتب نموده و در گام بعد، تفاضل اولین عنصر آن با دومین عنصر محاسبه میشود. اگر این تفاضل از آستانهای کمتر باشد، به معنای بروز ناهنجاری خواهد بود و این آستانه با استفاده از (2) تعریف میگردد
, (2)
نوآوریهای مطرحشده در روش پیشنهادی که منجر به بهبود کارایی سامانه تشخیص ناهنجاری میشود، شامل موارد زیر است: اولین مورد اعمال الگوریتم بهینهسازی HBM در پیشپردازش میباشد. مورد دیگر تشکیل ماتریس لغتنامه از روی دادههای کاهش بعد یافته و طراحی طبقهبند مناسب با کمک آن است. آخرین مورد نیز مربوط به فرایند تشخیص ناهنجاری میباشد که با استفاده از دو معیار و صورت میپذیرد.
4- شبیهسازی و ارزیابی روش پیشنهادی
4-1 دنبالههای ویدئویی ورودی
در این تحقیق، دو نوع دنباله ویدئویی برای ارزیابی شیوه پیشنهادی استفاده شده است. دنباله مورد استفاده اول، از پایگاه داده UCSD استخراج گردیده که این پایگاه داده از دو مجموعه 1PED و 2PED تشکیل شده که در هر یک، از دوربینی با زاویهای متفاوت از بالا برای ثبت یک صحنه از عبور و مرور عادی افراد به همراه برخی از مسیرهای ناهنجار، به صورت چندین دنباله ویدئویی استفاده شده است. فرایند فیلمبرداری در این دنبالههای ویدئویی با سرعت 30 فریم بر ثانیه انجام شده است. جزئیات پایگاه داده UCSD در جدول 1 موجود میباشد. در شکل 3 نیز تصاویر مرتبط با نمونهای از رویدادهای ناهنجار از این پایگاه داده قابل ملاحظه است و لازم به ذکر میباشد که رویدادهای ناهنجار با مستطیل قرمزرنگ مشخص شده است.
دنبالههای ویدئویی دسته دوم خودساخته بوده و از تصاویر هوایی بولوار منتهی به ضلع شمالی دانشگاه فردوسی مشهد انتخاب شده است.
در شکل 4 یک فریم از این دنباله ویدئویی به همراه یک نمونه از ناهنجاریها قابل مشاهده میباشد. این مجموعه شامل هشت دنباله ویدئویی به طول 8 دقیقه و 32 ثانیه بوده که با سرعت 30 فریم بر
ثانیه فیلمبرداری شده است. دریچه دیافراگم دوربین روی 7/1F تنظیم گردیده و تصاویر با فاصله کانونی 2/4 میلیمتر به همراه 6ISO برابر
40 به دست آمده است. تصویربرداری در روز و از نمای بالای خودروها
(الف)
(ب)
(ج)
(د)
شکل 3: دنباله ویدئویی مورد آزمایش UCSD [28]، (الف) یک فریم از دنباله 1PED، (ب) نمونهای از ناهنجاری در 1PED، (ج) یک فریم از دنباله 2PED و (د) نمونهای از ناهنجاری در 2PED.
صورت گرفته است. این دنبالهها از نظر نوع وسیله نقلیه، به 10 دسته تقسیم میشوند. این دستهها شامل موتورسیکلت، ماشین سواری کوچک، معمولی و شاسیبلند، وانت کوچک و بزرگ، ماشین ون، کامیون بزرگ و کامیون کوچک (خاور) و اتوبوس میباشند. این 8 دنباله ویدئویی به زیردنبالههای 200 فریمی تقسیم شده و برای آموزش سامانه مورد استفاده قرار گرفتند.
(الف)
(ب)
شکل 4: دنباله ویدئویی مورد آزمایش خودساخته، (الف) نمونهای از ناهنجاریها و (ب) یک فریم از دنباله ویدئویی.
جدول 2: فراوانی ناهنجاریهای موجود در دنباله ویدئویی UCSD.
رفتار ناهنجار | 1PED | 2PED |
حرکت ماشین کوچک | 6 | 1 |
حرکت دوچرخه | 24 | 14 |
حرکت ویلچر | 2 | 0 |
حرکت اسکیت | 10 | 3 |
حرکت چرخدستی | 1 | 0 |
حرکت داخل چمن | 3 | 0 |
ایستادن وسط مسیر | 2 | 0 |
جدول 3: فراوانی ناهنجاریهای موجود در دنباله ویدئویی خودساخته.
رفتار ناهنجار | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
عدم حرکت بین خطوط | 10 | 9 | 3 | 2 | 9 | 8 | 5 | 9 |
حرکت مارپیچ | 2 | 2 | 1 | 1 | 0 | 1 | 1 | 3 |
تغییر ناگهانی مسیر | 2 | 5 | 1 | 0 | 2 | 1 | 4 | 3 |
سبقت از راست | 3 | 4 | 3 | 1 | 3 | 5 | 2 | 5 |
عدم رعایت فاصله | 4 | 6 | 5 | 0 | 7 | 2 | 4 | 5 |
توقف در حاشیه | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
رفتارهای پرخطر و ناهنجار، شامل توقف در حاشیه بزرگراه، سبقت از راست، حرکت مارپیچ، عدم حرکت بین خطوط، عدم رعایت فاصله طولی و عرضی و همچنین تغییر ناگهانی مسیر میباشند که توسط کارشناس راهنمایی و رانندگی، روی دادههای ویدئویی برچسبگذاری شده است.
شکل 5: تشخیص پسزمینه و حذف آن برای دنباله ویدئویی خودساخته.
لازم به ذکر است که در تعریف ناهنجاری، اگر وسیله نقلیه به منظور سبقت از روی خط عبور نماید به عنوان ناهنجاری در نظر گرفته نخواهد شد. جدول 2 به فراوانی و نوع ناهنجاریهای موجود در پایگاه داده UCSD اختصاص دارد. فراوانی ناهنجاریها نیز برای هر یک از هشت دنباله ویدئویی به تفکیک در جدول 3 مشاهده میشود. با ارزیابی بیشتر جداول 2 و 3 میتوان دریافت که دو مجموعه از نظر تعداد دنبالههای ویدئویی، تعداد ناهنجاری و نوع وسیله و اهدافی که به واسطه آن ناهنجاری پدید آمده است، تفاوتهای شاخصی دارند.
4-2 پیادهسازی روش پیشنهادی
همان طور که در شکل 1 مشهود است، مرحله اول در پیادهسازی شیوه پیشنهادی، پردازش اولیه فریمهای دنباله ویدئویی به منظور استخراج مسیر خودروهای موجود میباشد. شکل 5 حاصل این حذف پسزمینه به همراه دودوییشده پیشزمینه صرفاً برای پایگاه داده خودساخته قابل مشاهده است. در شکل 6 نیز نتیجه فرایند حذف عوامل مزاحم از قبیل حرکت برگهای درختان و عابران پیاده که در شکل 5 نیز قابل تشخیص است قابل مشاهده میباشد. لازم به ذکر است با این که کلیه فرایندهای فوق روی هر دو پایگاه داده اعمال میگردد، تنها اعمال فرایند مزبور روی پایگاه داده خودساخته به تصویر کشیده شده است.
مرحله دوم به استخراج ویژگیهای زمانی- مکانی (STF) اختصاص دارد و با توجه به تعداد STVها که برای هر دنباله ویدئویی متغیر میباشد، تعداد STFها نیز برای هر دنباله ویدئویی از 460 تا 1749 متغیر است. مرحله بعد از استخراج STFها، اعمال خوشهبندی روی آنها میباشد تا مشکل ابعاد بالای آنها حل شود. برای تحقق این هدف، یک خوشهبندی بهینه با استفاده از الگوریتم بهینهسازی جفتگیری زنبور عسل مورد استفاده قرار گرفته است که نتیجه این فرایند، نماینده مناسبی از STFها میباشد.
انتخاب روش خوشهبندی بهینه با استفاده از الگوریتم بهینهسازی جفتگیری زنبور عسل، منجر به ایجاد بستری مناسب در جهت انتخاب STFهایی با قدرت تعمیم بالاتر میشود. شایان ذکر است که یکی از مهمترین مراحل فرایند خوشهبندی، مقداردهی اولیه به مراکز خوشههای نخستین است. در صورتی که این مقادیر با استفاده از الگوریتم بهینهسازی جفتگیری زنبور عسل انتخاب شود، خوشهبندی با نتایج بهتری همراه خواهد بود.
در الگوریتم فوق، نرخ تزویج برابر 01/0 و تعداد تکرارها برابر 1000 در نظر گرفته شده است و بعد از اعمال این فرایند، ابعاد تا یکچهارم کاهش مییابند. با داشتن نماینده مناسبی از STFها، تشکیل ماتریس لغتنامه امکانپذیر است و سپس با اعمال افکنش تصادفی، ابعاد مذکور به طور چشمگیری کاهش یافته و این امر، سبب کمشدن حجم محاسبات میشود
شکل 6: ضرب تصویر در ماسک مناسب به منظور حذف زواید برای دنباله ویدئویی خودساخته.
و در نهایت سرعت پردازش بالاتر را در مرحله آزمایش سامانه در پی خواهد داشت.
گام آخر در مرحله آموزش سامانه، طراحی یک طبقهبند بر پایه ماتریس لغتنامه تولیدشده میباشد. این طبقهبند با استفاده از توزیع تنک مقاوم، یک توصیف مناسب از دادههای آموزشی، ایجاد و امکان طبقهبندی صحیح داده آزمایشی را فراهم مینماید.
5- نتایج شبیهسازی
برای مقایسه روش پیشنهادی با سایر روشها، معیارهای نرخ تشخیص غلط 7(FPR)، نرخ تشخیص صحیح 8(TPR) و مساحت زیر نمودار 9(AUC) مورد استفاده قرار گرفتهاند. اولین معیار برای ارزیابی یعنی TPR، طبق رابطه زیر مورد محاسبه قرار میگیرد [29]
(3)
در این رابطه بیانگر تعداد ناهنجاریهایی است که توسط هر روش و نیز بیانگر تعداد ناهنجاریهایی است که در دنباله ویدئویی توسط فرد متخصص تشخیص داده شده است. مقدار نسبت مستقیمی با عملکرد روش مورد نظر در طبقهبندی درست دادهها دارد و هرچه این میزان بالاتر باشد، عملکرد آن روش بهتر است.
نرخ تشخیص غلط هم مؤلفه مهمی است که در کنار نرخ تشخیص صحیح باید مد نظر قرار گیرد. روشی که به ازای کمترین نرخ ، بالاترین مقدار را داشته باشد، روش بهتری به شمار میرود. محاسبه طبق رابطه زیر صورت میگیرد
(4)
ابزار دیگری که برای ارزیابی عملکرد شیوه پیشنهادی میتواند مورد بررسی قرار گیرد، منحنی 10ROC و سطح زیر آن میباشد. این معیار هرچه به یک نزدیکتر باشد، عملکرد روش مورد نظر بهتر خواهد بود و هرچه به سمت 5/0 متمایل شود، عملکرد آن ضعیفتر و به انتخاب تصادفی نزدیکتر خواهد بود.
نرخ 11EER مؤلفه دیگری است که از نمودار ROC استخراج میگردد.
(الف)
(ب)
(ج)
شکل 7: منحنی ROC شیوه پیشنهادی در قیاس با سایر روشها روی پایگاه داده UCSD، (الف) 1PED، (ب) 2PED و (ج) پایگاه داده خودساخته.
زمانی که نرخ تشخیص مثبت و نرخ تشخیص منفی با هم برابر باشند، نرخ EER بیانگر خطای کلی سامانه است. بدیهی است که هرچه اندازه این معیار کمتر باشد، سامانه دارای عملکرد بهتری خواهد بود. برای محاسبه EER، محل تلاقی خط واصل دو نقطه مهم از نمودار با منحنی ROC محاسبه شده و مقدار FPR مربوط به آن نقطه به عنوان EER گزارش میشود. این دو نقطه شامل نقاط (1 و 0) و (0 و 1) میباشد که به ترتیب بیانگر نقطه حداکثر FPR- حداقل TPR و سپس نقطه حداقل FPR- حداکثر TPR میباشد. این خط در شکل 7 به صورت خطچین مشخص شده است.
برای مقایسه روش پیشنهادی با سایر روشها، ابتدا عملکرد روی پایگاه داده UCSD مورد بررسی قرار میگیرد. جدول 4 به ترتیب مقادیر TPR، FPR، مساحت زیر نمودار ROC و EER را برای روش پیشنهادی
جدول 4: مقایسه روش پیشنهادی با سایر پژوهشهای شاخص این حوزه بر حسب
TPR، FPR، AUC و EER (برای پایگاه داده UCSD قسمت 1PED).
| TPR | FPR | AUC | EER |
1MFLM [13] | 65/0 | 41/0 | 56/0 | 38/0 |
SF [14] | 68/0 | 43/0 | 63/0 | 36/0 |
MPPCA [15] | 6/0 | 62/0 | 67/0 | 39/0 |
MDT [16] | 87/0 | 15/0 | 84/0 | 14/0 |
2HOS [17] | 68/0 | 23/0 | 74/0 | 27/0 |
3CNN [18] | 79/0 | 24/0 | 85/0 | 22/0 |
4P-2 SRC [25] | 81/0 | 2/0 | 84/0 | 19/0 |
روش پیشنهادی | 83/0 | 04/0 | 86/0 | 17/0 |
1. Multiple Fixed-Location Monitors
2. Histograms of Oriented Swarms
3. Convolutional Neural Networks
4. Sparce Representation Classification Norm 2-Norm p
جدول 5: مقایسه روش پیشنهادی با سایر پژوهشهای شاخص این حوزه بر حسب
TPR، FPR، AUC و EER (برای پایگاه داده UCSD قسمت 2PED).
| TPR | FRP | AUC | EER |
MFLM [13] | 61/0 | 44/0 | 72/0 | 42/0 |
SF [14] | 62/0 | 43/0 | 71/0 | 41/0 |
MPPCA [15] | 82/0 | 38/0 | 77/0 | 31/0 |
MDT [16] | 56/0 | 11/0 | 85/0 | 24/0 |
HOS [17] | 68/0 | 10/0 | 78/0 | 26/0 |
CNN [18] | 68/0 | 12/0 | 86/0 | 21/0 |
P-2 SRC [25] | 82/0 | 25/0 | 87/0 | 23/0 |
روش پیشنهادی | 84/0 | 07/0 | 89/0 | 14/0 |
و سایر روشهای تشخیص ناهنجاری روی دادههای قسمت 1PED نشان میدهد. با نگاهی به ستون اول که به نرخ TPR اختصاص دارد، میتوان دریافت که از میان تمام روشها دومین رتبه به روش پیشنهادی اختصاص داشته و فاصله آن با بهترین روش (MDT) صرفاً 4 درصد است. اما پایینترین نرخ FPR، متعلق به روش پیشنهادی است که این مقدار با بقیه روشها اختلاف محسوسی دارد. با توجه به رتبه دومبودن روش پیشنهادی در TPR و رتبه اولبودن در FPR و همچنین اهمیت بیشتر FPR در کاربردهایی که پایینبودن نرخ تشخیص ناهنجاری به غلط دارای اهمیت بیشتری است تا تشخیص ناهنجاری درست (مثلاً تعیین رفتار ناهنجار وسایل نقلیه در معابر شهری برای ثبت تخلف)، روش پیشنهادی توانسته در کل برتری خود را بر سایر روشها نشان دهد. همچنین بهترین مقدار AUC مربوط به روش پیشنهادی و برابر 683/0 میباشد. از نظر نرخ EER نیز روش پیشنهادی با فاصله کمی رتبه دوم را به خود اختصاص داده است. بنابراین در مجموع و با لحاظنمودن هر چهار معیار مطرحشده در جدول 4، روش پیشنهادی از سایر روشها عملکرد بهتری را ارائه کرده است.
جدول 5، اطلاعاتی مشابه جدول 4 را این بار برای قسمت 2PED از پایگاه داده UCSD نشان میدهد. در این جدول بهترین نرخ TPR نیز به روش پیشنهادی اختصاص دارد و گویای عملکرد خوب روش پیشنهادی مستقل از تصاویر ورودی است. از نظر نرخ FPR نیز روش پیشنهادی به طور محسوسی از همه بهتر بوده و با پایینترین FPR بهترین عملکرد را از آن خود کرده است. از نظر نرخ AUC نیز روش پیشنهادی با عملکرد خوبی همراه بوده است. در این جدول از نظر نرخ EER، رتبه اول بهترین
جدول 6: مقایسه روش پیشنهادی با سایر پژوهشهای شاخص این حوزه بر حسب
TPR، FPR، AUC و EER (برای ویدئوهای خودساخته).
| TPR | FPR | AUC | EER |
MFLM [13] | 65/0 | 15/0 | 73/0 | 28/0 |
SF [14] | 64/0 | 13/0 | 72/0 | 27/0 |
MPPCA [15] | 71/0 | 1/0 | 78/0 | 21/0 |
MDT [16] | 78/0 | 06/0 | 86/0 | 17/0 |
HOS [17] | 72/0 | 09/0 | 79/0 | 24/0 |
CNN [18] | 8/0 | 05/0 | 87/0 | 13/0 |
P-2 SRC [25] | 81/0 | 04/0 | 89/0 | 14/0 |
روش پیشنهادی | 89/0 | 03/0 | 93/0 | 06/0 |
روش مربوط به روش پیشنهادی میباشد. در مجموع با توجه به نتایج حاصل، روش پیشنهادی از لحاظ کلیه معیارها روشی قابل اعتماد با نتایج بسیار عالی به شمار میرود.
برای ارزیابی بهتر روش پیشنهادی، علاوه بر پایگاه داده UCSD، پایگاه داده خودساخته نیز مورد استفاده قرار گرفته است. نتایج حاصل از پیادهسازی این روشها روی این پایگاه داده در جدول 6 قابل ملاحظه است. مشاهده میگردد بهترین نرخ TPR و کمترین نرخ FPR در بین همه روشها به روش پیشنهادی اختصاص دارد. نرخ FPR به دست آمده برای روشهای مختلف در این جدول نسبت به پایگاه داده UCSD بسیار پایینتر میباشد که دلیل آن عدم پیچیدگی در مسیرهای استخراجی برای اهداف در پایگاه داده خودساخته و همچنین تعداد بالای زیردنبالههای آموزشی در قیاس با پایگاه داده UCSD میباشد.
با ارزیابی ستون بعدی این جدول میتوان دریافت که مساحت زیر نمودار ROC روش پیشنهادی با مقدار 93/0، بهترین عملکرد را با اختلاف کمی نسبت به سایر روشها از آن خود کرده است. از نظر نرخ EER هم روش پیشنهادی بهترین عملکرد را دارد. با ارزیابی نتایج حاصل از این جدول نیز میتوان ادعا کرد که روش پیشنهادی، یک روش کارامد با عملکرد مطلوب و قابلیت اعتماد بالا بوده و بنابراین میتوان انتظار داشت این روش در مواردی چون ثبت تخلفات ناشی از رفتارهای ناهنجار وسایل نقلیه عملکرد خوبی داشته باشد. اگرچه سطح زیر منحنی ROC و سایر مؤلفههای برگرفته از آن در جداول 4 تا 6 ارائه گردید اما نگاهی به خود منحنی نیز مفید میباشد. شکل 7 منحنی ROC شیوه پیشنهادی در قیاس با سایر روشها را برای هر دو مجموعه 1PED و 2PED از پایگاه داده UCSD و پایگاه داده خودساخته نشان میدهد. میتوان مشاهده نمود که در هر سه مجموعه از دادهها، روش پیشنهادی در قیاس با سایر روشها عملکرد بهتری را از خود نشان داده است.
در مورد پیچیدگی محاسباتی روش پیشنهادی میتوان گفت که روش پیشنهادی از حجم محاسباتی تقریباً مشابه با روشهاي مورد مقايسه در مقاله برخوردار است. از طرف ديگر چون روشهاي انتخابشده براي مقايسه جزو روشهاي جديد و سريع ميباشند، روش پيشنهادي از
حجم به مراتب کمتری نسبت به اغلب روشهای دیگر مطرح در ادبيات موضوع، بالاخص روشهاي مبتنی بر شبکههای عصبی عمیق کانولوشنال برخوردار است. در انتها نیز باید خاطرنشان کرد که با توجه به ساختار کد که از توابع تصادفی استفاده نمیکند، نتایج فوق حاصل یک بار اجرای کد میباشد.
6- نتیجهگیری
در این مقاله با استفاده از ویژگیهای زمانی- مکانی مسیرهای استخراجی از دنبالههای ویدئویی و همچنین بازسازی تنک و استفاده از ماتریس لغتنامه، شیوهای نوین در تشخیص ناهنجاری دنبالههای ویدئویی ارائه شده است. از نتایج شبیهسازیها این گونه استنباط میشود که روش پیشنهادی در قیاس با سایر روشها از عملکرد بهتری برخوردار است. دلیل عملکرد بهتر شیوه پیشنهادی را میتوان در استفاده از پیشپردازش مناسب، بهرهجستن از طبقهبند بهینه بر مبنای ماتریس لغتنامه و نهایتاً فرایندی یافت که با تحلیل خروجی طبقهبند، وظیفه تعیین هنجار یا ناهنجاربودن را بر عهده دارد. نتایج حاصل روی پایگاه داده UCSD به ترتیب بیانگر برتری 3/2 درصدی و 4/2 درصدی در مساحت زیر نمودار ROC روی قسمت 1PED و 2PED و بهبود 8/1 واحدی برای EER در قسمت 2PED نسبت به سایر روشهای مطرح میباشد. با نتایج حاصل برای TPR و FPR هم میتوان این گونه جمعبندی نمود که برتری 2 و 16 درصدی، روی قسمت 1PED و برتری 2 و 3 درصدی، روی قسمت 2PED به ترتیب در مقادیر TPR و FPR نوید عملکرد مطلوبی را برای شیوه پیشنهادی به نسبت سایر روشها میدهد. نتایج روی پایگاه داده خودساخته نیز همین برتری را تأیید میکند، TPR برای روش پیشنهادی در قیاس با بهترین رقیب دارای 6/8 درصد برتری است. علاوه بر آن، FPR نیز برای روش پیشنهادی در قیاس با بهترین رقیب، نزدیک 1 درصد برتری دارد. برای معیار AUC نیز روش پیشنهادی 11/4 درصد بهبود را در قیاس با بهترین روش رقیب نشان میدهد.
مراجع
[1] J. Wrigh, A. Y. Yang, A. Ganesh, S. Shankar Sastry, and Y. Ma, "Robust face recognition via sparse representation," IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 31, no. 2, pp. 210-227, Feb. 2009.
[2] Y. Chong, W. Chen, et al., "Method for preceding vehicle type classification based on sparse representation," Transportation Research Record, J. of the Transportation Research Board, vol. 2243, no. 1, pp. 74-80, 2011.
[3] A. G. Okyere and N. Attoh-Okine, "Traffic sign recognition using sparse representations and active contour models," Transportation Research Record: J. of the Transportation Research Board, vol. 2463, no. 1, pp. 35-45, 2014.
[4] Y. Cong, J. Yang, and J. Liu, "Abnormal event detection in crowded scenes using sparse representation," Pattern Recognition, vol. 46,
no. 7, pp. 1851-1864, Jul. 2013.
[5] R. Chartrand, "Nonconvex regularization for shape preservation," in Proc. IEEE Int. Conf. Image Process., vol. 1, pp. 293-296, San Antonio, CA, USA, 16-19 Sept. 2007.
[6] R. Chartrand, "Exact reconstruction of sparse signals via nonconvex minimization," IEEE Signal Processing Letters, vol. 14, no. 10, pp. 707-710, Oct. 2007.
[7] J. Fan and R. Li, "Variable selection via nonconcave penalized likelihood and its oracle properties," J. of the American Statistical Association, vol. 96, no. 456, pp. 1348-1360, Dec. 2001.
[8] M. Nikolova, "Analysis of the recovery of edges in images and signals by minimizing nonconvex regularized least-squares," Multiscale Modeling & Simulation, vol. 4, no. 3, pp. 960-991, 2005.
[9] M. Izadi, Z. Azimifar, and G. H. Jowkar, "Abnormal event detection in indoor video using feature coding," in Proc. IEEE Artificial Intelligence and Signal Processing Conf., pp. 151-155, Shiraz, Iran, 25-27 Oct. 2017.
[10] S. Li, C. Liu, and Y. Yang, "Anomaly detection based on sparse coding with two kinds of dictionaries," Signal, Image and Video Processing, vol. 12, no. 5, pp. 983-989, Jul. 2018.
[11] S. Biswas and V. Gupta, "Abnormality detection in crowd videos by tracking sparse components," Machine Vision and Applications,
vol. 28, no. 1, pp. 35-48, Feb. 2017.
[12] X. Chen, F. Xu, and Y. Ye, "Lower bound theory of nonzero entries in solutions of \ell_2-\ell_p minimization," SIAM J. on Scientific Computing, vol. 32, no. 5, pp. 2832-2852, 2010.
[13] A. Adam, E. Rivlin, I. Shimshoni, and D. Reinitz, "Robust real-time unusual event detection using multiple fixed-location monitors," Pattern Analysis and Machine Intelligence, IEEE Trans. on, vol. 30, no. 3, pp. 555-560, Mar. 2008.
[14] R. Mehran, A. Oyama, and M. Shah, "Abnormal crowd behavior detection using social force model," in Proc. IEEE Conf. on Computer Vision and Pattern Recognition, pp. 935-942, Miami, FL, USA, 20-25 Jun. 2009.
[15] J. Kim and K. Grauman, "Observe locally, infer globally: a space-time MRF for detecting abnormal activities with incremental updates," in Proc. IEEE Conf. on Computer Vision and Pattern Recognition, pp. 2921-2928, FL, USA, 20-25 Jun. 2009.
[16] T. Hospedales, S. Gong, and T. Xiang, "A Markov clustering topic model for mining behaviour in video," in Proc. IEEE 12th Int.
Conf. on Computer Vision, pp. 1165-1172, Kyoto, Japan, 29 Sept.-
2 Oct. 2009.
[17] V. Kaltsa, A. Briassouli, I. Kompatsiaris, L. J. Hadjileontiadis, and M. G. Strintzis, "Swarm intelligence for detecting interesting events in crowded environments," IEEE Trans. on Image Processing, vol. 24, no. 7, pp. 2153-2166, Jul. 2015.
[18] S. Zhou, et al., "Spatial-temporal convolutional neural networks for anomaly detection and localization in crowded scenes," Signal Processing, Image Communication, vol. 47, pp. 358-368, Sept. 2016.
[19] K. Doshi and Y. Yilmaz, "An efficient approach for anomaly detection in traffic videos," in Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition, pp. 4236-4244, Nashville, TN, USA, 19-25 Jun. 2021.
[20] M. Liatsikou, S. Papadopoulos, L. Apostolidis, and Y. Kompatsiaris, "A denoising hybrid model for anomaly detection in trajectory sequences," in Proc. EDBT/ICDT Workshops, 23-26 Mar. 2021.
[21] H. Mohimani, M. Babaie-Zadeh, and C. Jutten, "A fast approach for overcomplete sparse decomposition based on smoothed l0 norm," IEEE Trans. on Signal Processing, vol. 57, no. 1, pp. 289-301, Jan. 2008.
[22] H. Zayyani, M. Babaie-Zadeh, and C. Jutten, "An iterative Bayesian algorithm for sparse component analysis in presence of noise,"
IEEE Trans. on Signal Processing, vol. 57, no. 11, pp. 4378-4390, Jun. 2009.
[23] Y. Bosi, Y. Liu, and Q. Sun, "Low-rank approximation based abnormal detection in the video sequence," in Proc. IEEE Int. Conf. on Digital Signal Processing, pp. 129-133, Beijing, China, 16-18 Oct. 2016.
[24] A. Afshar, O. Bozorg Haddad, M. A. Marino, B. J. Adams, "Honey-bee mating optimization (HBMO) algorithm for optimal reservoir operation," J. of the Franklin Institute, vol. 344, no. 5, pp. 452-462, Aug. 2007.
[25] C. Yang, J. Yuan, and J. Liu, "Sparse reconstruction cost for abnormal event detection," in Proc. IEEE Conf. on Computer Vision and Pattern Recognition, pp. 3449-3456, Colorado Springs, CO, USA, 20-25 Jun. 2011.
[26] L. Cewu, J. Shi, and J. Jia, "Abnormal event detection at 150 fps in MATLAB," in Proc. of the IEEE Int. Conf. on Computer Vision, pp. 2720-2727, Sydney, Australia, 1-8 Dec. 2013.
[27] C. Zhi-Jun, et al., "Vehicle behavior learning via sparse reconstruction with l2 – lp minimization and trajectory similarity," IEEE Trans. on Intelligent Transportation Systems, vol. 18, no. 2, pp. 236-247, Feb. 2017.
[28] UCSD Anomaly Detection Dataset, http://www.svcl.ucsd.edu/projects/anomaly/dataset.htm.
[29] B. Auslander, K. Moy Gupta, and D. W. Aha, "A comparative evaluation of anomaly detection algorithms for maritime video surveillance," Proceedings Volume 8019, Sensors, and Command, Control, Communications, and Intelligence (C3I) Technologies for Homeland Security and Homeland Defense X, Article ID: 801907, 2011.
ریحانه تقیزاده خانکوک در سال 1392 مدرک کارشناسی مهندسی برق خود را از دانشگاه غیردولتی سجاد مشهد و در سال 1399 مدرك كارشناسي ارشد مهندسي برق خود را از دانشگاه فردوسی مشهد دريافت نمود. زمينههاي علمي مورد علاقه نامبرده شامل موضوعاتي مانند بینایی ماشین، بازشناسی الگو و پردازش تصویر میباشد.
عباس ابراهیمی مقدم مدرك كارشناسي و كارشناسي ارشد برق گرايش مخابرات خود را به ترتيب از دانشگاههاي صنعتي شريف و صنعتي خواجه نصير اخذ كرده است. ايشان مدرك دكتري خود را از دانشگاه مكمستر كانادا دريافت كرده و از سال1390 به عنوان استاديار در دانشگاه فردوسي مشهد فعاليت علمي مينمايند. زمينههاي تحقيقاتي
مورد علاقه نامبرده، پردازش گفتار، پردازش تصوير و ويديو، بينايي ماشين و پردازش سيگنالهاي حياتي ميباشد.
مرتضي خادمي درح تحصيلات خود را در مقاطع كارشناسي و كارشناسي ارشد مهندسي برق بهترتيب در سالهاي 1364 و 1366 در دانشگاه صنعتي اصفهان به پايان رسانده است. نامبرده از سال 1366 الي 1370 به عنوان عضو هيات علمي (مربی) در دانشگاه فردوسي مشهد، مشغول به كار بود. پس از آن به دوره دكتراي مهندسي برق در دانشگاه ولونگونگ (استراليا) وارد گرديده و در سال 1374 موفق به اخذ درجه دكترا در مهندسي برق از دانشگاه مذكور گرديد. دكتر خادمي درح از سال 1374 مجددا در دانشكده مهندسي دانشگاه فردوسي مشهد مشغول به فعاليت گرديد و اينك نيز استاد اين دانشكده است. زمينههاي علمي مورد علاقه ایشان، متنوع بوده و شامل مخابرات ويدئويي، فشردهسازي ويدئو، پردازش تصوير، پردازش سیگنالهای پزشکی و پنهانسازی اطلاعات در ويدئو ميباشد.
[1] . Spatio-Temporal Feature
[2] . Spatio-Temporal Value
[3] . Honey Bee Mating
[4] . K-Singular Value Decomposition
[5] . Random Projection
[6] . International Standards Organization
[7] . False Positive Rate
[8] . True Positive Rate
[9] . Aria Under Curve
[10] . Receiver Operating Characteristic
[11] . Equal Error Rate