Machine Learning-Based Security Resource Allocation for Defending against Attacks in the Internet of Things
Subject Areas : electrical and computer engineeringNasim Navaei 1 , Vesal Hakami 2 *
1 - IUST
2 - Iran University of Science and Technology
Keywords: Internet of things, dynamic security resource allocation, multi-armed bandit problem, machine learning,
Abstract :
Nowadays, the Internet of Things (IoT) has become the focus of security attacks due to the limitation of processing resources, heterogeneity, energy limitation in objects, and the lack of a single standard for implementing security mechanisms. In this article, a solution will be presented for the problem of security resources allocating to deal with attacks in the Internet of Things. Security Resource Allocation (SRA) problem in the IoT networks refers to the placement of the security resources in the IoT infrastructure. To solve this problem, it is mandatory to consider the dynamic nature of the communication environments and the uncertainty of the attackers' actions. In the traditional approaches for solving the SRA, the attacker works over based on his assumptions about the system conditions. Meanwhile, the defender collects the system's information with prior knowledge of the attacker's behavior and the targeted nodes. Unlike the mentioned traditional approaches, this research has adopted a realistic approach for the Dynamic Security Resources Allocation in the IoT to battle attackers with unknown behavior. In the stated problem, since there is a need to decide on deploying several security resources during the learning periods, the state space of the strategies is expressed in the combinatorial form. Also, the SRAIoT problem is defined as a combinatorial-adversarial multi-armed bandit problem. Since switching in the security resources has a high cost, in real scenarios, this cost is included in the utility function of the problem. Thus, the proposed framework considers the switching cost and the earned reward. The simulation results show a faster convergence of the weak regret criterion of the proposed algorithms than the basic combinatorial algorithm. In addition, in order to simulate the IoT network in a realistic context, the attack scenario has been simulated using the Cooja simulator.
[1] A. H. Anwar, C. Kamhoua, and N. Leslie, "Honeypot allocation over attack graphs in cyber deception games," in Proc. IEEE Int. Conf. on Computing, Networking and Communications, ICNC’20, pp. 502-506, Big Island, HI, USA, 17-20 Feb. 2020.
[2] L. Chen, Z. Wang, F. Li, Y. Guo, and K. Geng, "A stackelberg security game for adversarial outbreak detection in the Internet of Things," Sensors, vol. 20, no. 3, Article ID: 804, Feb. 2020.
[3] A. H. Anwar, C. Kamhoua, and N. Leslie, "A game-theoretic framework for dynamic cyber deception in internet of battlefield things," in Proc. of the 16th EAI Int. Conf. on Mobile and Ubiquitous Systems: Computing, Networking and Services, pp. 522-526, Houston, TX, USA, 12-14 Nov. 2019.
[4] A. Rullo, E. Serra, E. Bertino, and J. Lobo, "Optimal placement of security resources for the Internet of Things," The Internet of Things for Smart Urban Ecosystems, pp. 95-124, Jan. 2019.
[5] A. Rullo, D. Midi, E. Serra, and E. Bertino, "Pareto optimal security resource allocation for Internet of Things," ACM Trans. on Privacy and Security, vol. 20, no. 4, pp. 1-30, Nov. 2017.
[6] M. Zhu, et al., "A survey of defensive deception: approaches using game theory and machine learning," IEEE Communications Surveys & Tutorials, vol. 23, no. 4, pp. 2460-2493, Aug. 2021.
[7] A. Rullo, D. Midi, E. Serra, and E. Bertino, "A game of things: strategic allocation of security resources for IoT," in Proc. IEEE/ACM 2nd Int. Conf. on Internet-of-Things Design and Implementation, IoTDI’17, pp. 185-190, Pittsburgh, PA, USA, 18-21 Apr. 2017.
[8] M. A. R. Al Amin, S. Shetty, L. Njilla, D. K. Tosh, and C. Kamhoua, "Online cyber deception system using partially observable Monte Carlo planning framework," in Proc. Int. Conf. on Security and Privacy in Communication Systems, vol. 2, pp. 205-223, Orlando, FL, USA, 23-25 Oct. 2019.
[9] S. Wang, Q. Pei, J. Wang, G. Tang, Y. Zhang, and X. Liu, "An intelligent deployment policy for deception resources based on reinforcement learning," IEEE Access, vol. 8, pp. 35792-35804, 2020.
[10] M. Li, D. Yang, J. Lin, and J. Tang, "Specwatch: a framework for adversarial spectrum monitoring with unknown statistics," Computer Networks, vol. 143, pp. 176-190, Oct. 2018.
[11] W. Chen, Y. Wang, and Y. Yuan, "Combinatorial multi-armed bandit: general framework and applications," Proceedings of Machine Learning Research, vol. 28, no. 1, pp. 151-159, Feb. 2013.
[12] M. R. Palattella, N. Accettura, X. Vilajosana, T. Watteyne, L. A. Grieco, G. Boggia, and M. Dohler, "Standardized protocol stack for the internet of (important) things," IEEE Communications Surveys & Tutorials, vol. 15, no. 3, pp. 1389-1406, Dec. 2012.
[13] F. Algahtani, T. Tryfonas, and G. Oikonomou, "A reference implemenation for RPL attacks using contiki-NG and Cooja," in Proc. 17th Int. Conf. on Distributed Computing in Sensor Systems, DCOSS’21, pp. 280-286, Pafos, Cyprus, 14-16 Jul. 2021.
نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 21، شماره 4، زمستان 1402 253
مقاله پژوهشی
تخصیص منابع امنیتی برای مقابله با حملات در
اینترنت اشیا با استفاده از یادگیری ماشین
نسیم نوائی و وصال حکمی
چکیده: امروزه شبکههای اینترنت اشیا (IoT) با توجه به محدودیت منابع پردازشی، ناهمگونی و محدودیت انرژی در اشیا و همچنین عدم وجود استانداردی واحد برای پیادهسازی سازوکارهای امنیتی به کانون و مرکز توجه حملات امنیتی تبدیل شدهاند. در این مقاله، یک راهکار برای مسئله تخصیص منابع امنیتی به جهت مقابله با حملات در اینترنت اشیا ارائه خواهد شد. مسئله تخصیص منابع امنیتی در شبکه IoT (SRAIoT) به جایگذاری امنافزارها در زیرساخت IoT اشاره دارد. برای حل این مسئله نیاز است که شرایط پویای محیط ارتباطی و عدم قطعیت در مورد عملکرد مهاجمان لحاظ شود. در رویکردهای سنتی تخصیص منابع امنیتی در IoT، مهاجم بر اساس مفروضات خود از شرایط سیستم، دست به حمله زده و در مقابل، مدافع نیز در سیستم با شناخت قبلی از رفتار مهاجم و گرههای مورد حمله به مقابله میپردازد. برخلاف رویکردهای پیشین در این پژوهش از رویکردی واقعبینانه برای تخصیص پویای منابع امنیتی در شبکه IoT جهت مقابله با مهاجمانی با رفتار ناشناخته استفاده شده است. در مسئله مطرحشده به این علت که در بازههای یادگیری در مورد استقرار چند منبع امنیتی نیاز به اتخاذ تصمیم وجود دارد، فضای حالت راهبردها به صورت ترکیبیاتی بیان میشود. همچنین مسئله SRAIoT در چارچوب یک مسئله قمار چندبازویی ترکیبیاتی- تخاصمی مطرح میشود. از آنجا که در شرایط واقعی، جابهجایی منابع امنیتی استقراریافته دارای هزینه بالایی است، هزینه مذکور در تابع سودمندی مسئله لحاظ شده و بنابراین چارچوب پیشنهادی بهصورت توأمان هزینه جابهجایی و پاداش کسبشده را مد نظر قرار میدهد. نتایج شبیهسازی نشاندهنده همگرایی سریعتر معیار پشیمانی ضعیف الگوریتمهای پیشنهادی نسبت به الگوریتم ترکیبیاتی پایه است. علاوه بر این بهمنظور شبیهسازی شبکه IoT در بستری واقعبینانه، شبیهسازی سناریوی حمله با استفاده از شبیهساز Cooja نیز انجام شده است.
کلیدواژه: اینترنت اشیا، تخصیص پویای منابع امنیتی، مسئله قمار چندبازویی، یادگیری ماشین.
1- مقدمه
امروزه، اینترنت اشیا 2(IoT) بهصورتی فزاینده مورد توجه صنعت و پژوهشگران قرار گرفته است. پیشبینی میشود که تا سال 2030، تعداد وسایل متصل به بستر اینترنت اشیا به مرز 30 میلیارد برسد. با توجه به محدودیت منابع پردازشی، ناهمگونی و محدودیت انرژی در اشیا و نیز عدم وجود استانداردی واحد برای پیادهسازی سازوکارهای امنیتی، این فناوری به کانون حملات امنیتی تبدیل شده است. همچنین دستگاههای IoT برای مهاجمانی که قصد واردکردن صدمات بزرگی را دارند، به دلایل وابستگی کاربر به دستگاه خودش و قدرت تصمیمی که به دستگاه داده میشود، گزینه مناسبی هستند. بنابراین نگرانی در مورد امنیت این دستگاهها رو به افزایش است [1] و [2]. برای مقابله با حملات و موجودیتهای خرابکار در اینترنت اشیا که از طریق دسترسی به کانال ارتباطی، کنترل تجهیزات و تزریق دادههای نادرست، قصد تخریب کارایی سیستم را دارند، وجود زیرساخت امنیتی ضروری است. با توجه به محدودیت منابع دستگاههای هوشمند، استفاده از رویکردهای امنیتی قدرتمند سنتی که دارای سربار پردازشی قابل توجهی هستند، ناکارآمد است. از این رو تخصیص منابع امنیتی همچون سیستمهای تشخیص نفوذ (IDS) و هانی پاتها3 بهمنظور جمعآوری اطلاعات از مهاجمان و جلوگیری از حملات در بستر اینترنت اشیا مفید و اجتنابناپذیر است.
1-1 انگیزههای توسعه پژوهش
مسئله تخصیص منابع امنیتی در شبکه اینترنت اشیا (SRAIoT) به جاگذاری و نصب امنافزارها در زیرساخت IoT (گرهها، سرخوشهها یا دروازه) اشاره دارد. برای حل این مسئله نیاز است که شرایط پویای محیط ارتباطی و عدم قطعیت در مورد عملکرد مهاجمان لحاظ شود. این مسئله از پیچیدگی بالایی برخوردار بوده و بهطور کلی با دو رویکرد میتوان با
آن مواجهه نمود. در رویکردهای سنتی تخصیص منابع امنیتی در IoT، مهاجم بر اساس مفروضات خود از شرایط سیستم، دست به حمله زده و در مقابل، مدافع نیز در سیستم با شناخت قبلی از رفتار مهاجم و گرههای مورد حمله به جمعآوری اطلاعات میپردازد. در واقع برای محاسبه راهبرد تخصیص منابع امنیتی فرض میشود که مدافع از مدل ارزشگذاری حملات توسط مهاجم اطلاع دارد و در نتیجه میتواند بهترین واکنش خود را پیشاپیش محاسبه نماید [2] تا [5]. در حالی که در سناریوهای واقعی، طرفین اعم از مدافع و مهاجم بدون دانش و شناخت قبلی از یکدیگر در سیستم فعالیت میکنند. در این مقاله، برخلاف رویکردهای سنتی مذکور از رویکردی واقعبینانه برای تخصیص پویای منابع امنیتی در شبکه IoT جهت مقابله با مهاجمانی با رفتار ناشناخته استفاده شده است. بدین ترتیب بهعلت وجود شرایط اطلاعات نامعلوم، استفاده از رویکرد مبتنی بر یادگیری ماشین حائز اهمیت است. بهطور کلی انگیزههای توسعه پژوهش به شرح زیر هستند:
1) افزایش حملات به زیرساخت اینترنت اشیا
2) گسترش کاربرد اینترنت اشیا در زندگی
3) نیاز به رهیافت هوشمند برای تخصیص منابع امنیتی
4) نیاز به حفاظت شبکه با حداقل هزینه منابع امنیتی
5) نیاز به شبیهسازی و ارزیابی شبکه در بستری واقعبینانه
1-2 نوآوری روش پیشنهادی
ابتدا مسئله تخصیص منابع امنیتی در چارچوب یک مسئله قمار چندبازویی ترکیبیاتی عنوان میشود. از آنجا که جابهجایی منابع امنیتی استقراریافته در برخی شرایط دارای هزینه بالایی است، در مسئله مطرحشده سعی گردیده که این هزینه جابهجایی در تابع سودمندی مسئله لحاظ شود. بدین صورت که هزینه مهاجرت و جابهجایی منابع از یک سرخوشه به سرخوشه دیگر بهعنوان معیار جریمه در کارایی فرایند یادگیری تأثیر داده میشود. در این پژوهش قصد داریم مسئله تخصیص منابع امنیتی در شبکه اینترنت اشیا را در نبود دانش آماری مهاجم به شکلی کارآمد حل کنیم. در این مسئله فضای حالت اتخاذ راهبردها ترکیبیاتی است و به همین دلیل بهجای مسئله MAB کلاسیک با CMAB روبهرو هستیم. از آنجا که مهاجم سعی در کاهش کارایی شبکه دارد، مسئله از جنس تصمیمگیری در محیط تخاصمی میباشد. همچنین به علت لحاظ هزینه مهاجرت منبع از یک حوزه به حوزه دیگر شبکه، CMAB تخاصمی با هزینه جابهجایی (CMAB-SC) بهترین چارچوب برای مسئله تخصیص منابع امنیتی در شبکههای اینترنت اشیا خواهد بود.
در این مقاله برخلاف رویکردهای سنتی مذکور از رویکردی واقعبینانه برای تخصیص پویای منابع امنیتی در شبکه IoT جهت مقابله با مهاجمانی با رفتار ناشناخته استفاده شده است. در مسئله مطرحشده به این علت که در بازههای یادگیری در مورد استقرار چند منبع امنیتی نیاز
به اتخاذ تصمیم وجود دارد، فضای حالت راهبردها بهصورت ترکیبیاتی بیان میشود. همچنین مسئله SRAIoT در چارچوب یک مسئله قمار چندبازویی ترکیبیاتی- تخاصمی مطرح میشود. از آنجا که در شرایط واقعی، جابهجایی منابع امنیتی استقراریافته دارای هزینه بالایی است، هزینه مذکور در تابع سودمندی مسئله لحاظ شده است. بنابراین چارچوب پیشنهادی بهصورت توأمان هزینه جابهجایی و پاداش کسبشده را مد نظر قرار میدهد.
الگوریتم پیشنهادی برای حل مسئله تخصیص منابع امنیتی نسبت به کارهای پیشین از چند جهت دارای نوآوری است:
1) فراهمآوری چارچوب تخصیص منابع امنیتی برای IoT بهصورت برخط
2) لحاظ مهاجرت منابع امنیتی بهعنوان معیار جریمه در کارایی فرایند یادگیری
3) شبیهسازی و ارزیابی شبکه در بستری واقعبینانه با استفاده از Cooja
1-3 ساختار مقاله
ادامه این مقاله بهصورت زیر ساختاربندی شده است. در بخش دوم
به بررسی کارهای انجامشده در زمینه تخصیص منابع امنیتی در IoT پرداخته میشود. سپس در بخش سوم، مدل سیستم و گامهای الگوریتم پیشنهادی تخصیص منابع امنیتی ارائه خواهد شد. در بخش چهارم، معیارهای ارزیابی و نتایج بهدستآمده از ارزیابی روش پیشنهادی نمایش داده خواهد شد. در بخش پنجم، شبیهسازی یک سناریوی واقعی در بستر Cooja انجام گردیده و نتایج آزمایشهای سناریوهای مختلف بررسی خواهد شد. نهایتاً در بخش آخر، نتیجهگیری و پیشنهادها برای کارها و پژوهشهای آتی آمده است.
2- پژوهشهای پیشین
رفتار مدافع و مهاجم در کارهای پیشین بهصورت یک بازی فرموله میشود. هر دوی بازیکنها اعم از مدافع و مهاجم، تصمیم و عملی را اتخاد کرده و بر اساس آن تصمیم، پاداش یا سود دریافت میکنند و طی یک روند تکراری، تصمیم خود را بهروز میکنند تا زمانی که نتوانند سودمندی خود را بهبود دهند و به تعادل نش برسد. فریب دفاعی، یک رویکرد امیدوارکننده برای دفاع سایبری است. از طریق فریب دفاعی، یک مدافع میتواند حملات را با گمراهکردن یا فریب مهاجم یا مخفیکردن برخی از منابع خود پیشبینی کرده و از آن جلوگیری کند. کارهای مرتبط با حوزه فریب تدافعی متمرکز بر نظریه بازی و یادگیری ماشین است؛ زیرا اینها خانوادههای برجستهای از رویکردهای هوش مصنوعی هستند که بهطور گسترده در فریب تدافعی به کار میروند [۶]. به طور کلی، کارهای مرتبط در سه دسته بازی فریب امنیتی و بازی استکلبرگ و روشهای مبتنی بر یادگیری ماشین طبقهبندی میشوند.
در بخش بازی فریب امنیتی، طبق فرض کار [1] مهاجمان معمولاً میتوانند از طریق پویش شبکه به برخی اطلاعات داخلی مربوط به ساختار شبکه دست یابند. بدین ترتیب مهاجم قصد دارد با انتخاب آگاهانه گره قربانی از میان مجموعه تمام گرههای قابل دسترس، پاداش مورد نظر خود را حداکثر کند. همچنین مدافع از محل دقیق حضور مهاجم در شبکه مطلع نبوده و برای قراردادن یک هانی پات جدید در لبه شبکه، متحمل هزینه ثابتی میشود. در این بازی، هر کدام از بازیکنها در صدد افزایش تابع پاداش خود هستند؛ اما از آنجا که یک بازی مجموع صفر مدلسازی میشود، افزایش پاداش در یکی به منزله کاهش پاداش در دیگری است. در [2] بازی تصادفی تا حدی قابل مشاهده (POSG) به جهت مدلسازی پویایی بازی فریب بین مهاجم و مدافع بررسی گردیده است. در چنین سناریویی، مجموعه آسیبپذیریها و گراف حمله متغیر با زمان بوده و به این علت، مهاجم اطمینانی در مورد وضعیت واقعی شبکه ندارد. این مقاله برای درنظرگرفتن یک مدل تهدید عملی، بازیای را در نظر میگیرد که هر دو بازیکن تا حدی راهبرد یکدیگر را مشاهده میکنند. در [7] راهبرد تخصیص منابع در دو مرحله انجام میشود: در ابتدا برای رویکردهای تخصیص منابع، یک مسئله بهینهسازی سههدفه محاسبه میگردد. در ادامه جهت کمینهکردن ریسک، مسئله بهینهسازی یکهدفه محاسبه میشود. از آنجا که این راهبرد شامل کمترین مصرف انرژی و ارزانترین زیرساخت میباشد، جواب چنین مسئلهای بهینه است. مدلسازی تعامل در [5] بهصورت بازی استکلبرگ بین مدافع و مهاجم میباشد. همچنین مهاجم برای انجام حمله باید حداقل یک منبع امنیتی را به خطر بیندازد. بنابراین مهاجم باید حداقل به یک گره دسترسی داشته و از منابع امنیتی که مدافع در سطح شبکه گذاشته باخبر میباشد. هدف مدافع، تأمین امنیت کل شبکه با انتخاب و جایگذاری درست منابع است؛ به قسمی که منبع امنیتی بتواند به بهترین شکل به حملات رسیدگی کند. در [8] یک رویکرد فریب آنلاین پیشنهاد شده است. مدافع یک باور متشکل از یک حالت امنیتی را حفظ میکند؛ در حالی که اقدامات حاصل به عنوان فرایند تصمیمگیری مارکوف جزئی قابل مشاهده (POMDP) مدل میشود. این مدل مبتنی بر یادگیری تقویتی فرض میکند که باور مدافع در مورد پیشرفت مهاجم از طریق یک سیستم تشخیص نفوذ مبتنی بر شبکه (NIDS) مشاهده میشود. در [۹] یک راهبرد استقرار بهینه برای منابع
[1] این مقاله در تاریخ 19 آبان ماه 1401 دریافت و در تاریخ 9 خرداد ماه 1402 بازنگری شد.
نسیم نوائی، دانشكده مهندسي كامپيوتر، دانشگاه علم و صنعت ايران، تهران، ایران، (email: nasim_navaei@comp.iust.ac.ir).
وصال حکمی (نویسنده مسئول)، دانشكده مهندسي كامپيوتر، دانشگاه علم و صنعت ايران، تهران، ایران، (email: vhakami@iust.ac.ir).
[2] . Internet of Things
[3] . Honey Pot
شکل 1: مدل سیستم و نمایی کلی از روند یادگیری مسئله SRAIoT.
فریب مانند هانی پاتها شناسایی شد. یک الگوریتم یادگیری را برای یک سیاست استقرار هوشمند ایجاد کردند تا منابع فریب را با تغییر وضعیت امنیت شبکه بهصورت پویا قرار دهند. با تجزیه و تحلیل راهبرد مهاجم در شرایط عدم قطعیت و راهبردهای یک مدافع با چندین خط مشی مکان استقرار، یک بازی مهاجم- مدافع در نظر گرفته شده است.
بهعنوان جمعبندی در عمده کارهای موجود فرض بر این است که مدافع از مدل ارزشگذاری حملات توسط مهاجم باخبر است؛ بنابراین پیشاپیش بهترین واکنش خود را با توجه به شرایط موجود محاسبه میکند. در مقابل، مهاجم نیز حمله را بر اساس مفروضات خود از شرایط سیستم شروع میکند. همچنین به علت پیچیدگی بالای فضاهای عملیاتی، امکان مدلسازی دقیق یک حمله هنگام انجام حملات متعدد وجود ندارد
و در شرایطی که شبکه تحت تأثیر چندین حمله قرار میگیرد، درنظرگرفتن تعاملات فقط میان یک مهاجم و یک مدافع کافی نیست. یک سناریوی واقعبینانه این است که در مدلسازی، طرفین (اعم از مدافع و مهاجم) شناخت کاملی از پارامترهای تابع هدف رقیب ندارند؛ بنابراین نیاز به روشی تطبیقی مبتنی بر یادگیری برخط جهت تخصیص منابع امنیتی به شبکه IoT است.
3- مدل سیستم
شکل 1، مدل سیستم و نمایی کلی از روند یادگیری مسئله تخصیص منابع امنیتی در اینترنت اشیا (IoT) را نشان میدهد. گرههای اینترنت اشیا با توجه به محدودیت منابع پردازشی، ناهمگونی و محدودیت انرژی در اشیا و نیز عدم وجود استانداردی واحد برای پیادهسازی سازوکارهای امنیتی به کانون و مرکز توجه حملات امنیتی تبدیل شده است. پیادهسازی رویکردهای امنیتی سنتی به علت محدودیت انرژی و هزینه بالا، مناسب این شبکه نیست؛ بنابراین نیازمند استفاده از رویکردهای جدید و متناسب با محدودیتها و چالشهای این بستر هستیم. این شبکه به علت کمبود منابع امنیتی در معرض حملات بوده و این حملات میتوانند انواع مختلفی مانند حمله Rank و حمله Sinkhole داشته باشند.
در این مقاله، شبکه اینترنت اشیا بهصورت گراف وزندار غیرجهتدار با گره در نظر گرفته شده است. این شبکه گرافی با کمک الگوریتم مجموعه ناوابسته حریصانه خوشهبندی گردیده و تعداد سرخوشه به جهت کارگذاری منابع امنیتی مشخص میشود. معماری روش پیشنهادی مبتنی بر شیار زمانی است و بنابراین کل دوره زمانی اجرای الگوریتم به مجموعه از شیارهای زمانی گسسته میشود. همچنین مجموعه مهاجمها توسط مجموعه نمایش داده میشود. در این کار فرض بر این است که مهاجم از نوع متخاصم بوده و تمام اقدامات مدافع را از پیش میداند و دقیقاً همانند وی از الگوریتم یادگیری هوشمندانه استفاده میکند تا بتواند حمله را انجام دهد. ایده کلی این کار از [۱۰] که مختص تخصیص رادیو به کانالهای شبکههای رادیویی شناختی است، گرفته شده و گامهای الگوریتم مختص شبکه اینترنت اشیا، شخصیسازی و تغییر داده شده است.
مدافع در ابتدای شیار زمانی یک راهبرد از مجموعه راهبرد انتخاب میکند که راهبرد منتخب بهصورت نشان داده میشود. بدین ترتیب، راهبرد منتخب در شیار زمانی بعدی بهصورت معین میشود. در این راستا جابهجایی منبع از یک سرخوشه به سرخوشه دیگر، مقداری هزینه به همراه دارد؛ بنابراین هزینه جابهجایی از راهبرد به راهبرد بهصورت
(1)
فرموله میشود. واضح است اگر راهبرد در شیار زمانی بعدی عوض نشود، این هزینه برابر با صفر خواهد بود. برای سادگی کار، هزینه جابهجایی برای اولین شیار زمانی بدون توجه به اینکه چیست، برابر با مقدار زیر تنظیم میشود
(2)
پاداش دریافتی از تشخیص موفقیتآمیز حمله توسط منبع امنیتی روی سرخوشه در راهبرد در شیار زمانی بهصورت زیر فرموله میشود
(3)
پاداش دریافتی از راهبرد منتخب برابر با مجموع پاداشهای دریافتی از هر سرخوشه در شیار زمانی است که بهصورت زیر فرموله میشود
(4)
3-1 سنجش و ارزیابی روش پیادهسازیشده
بهطور استاندارد، معیار کارایی برای ارزیابی عملکرد الگوریتمها یا عاملهای یادگیرنده در MAB به نام «معیار پشیمانی» است. برای یک عامل یادگیرنده، پشیمانی در هر لحظه از زمان بهصورت اختلاف میانگین زمانی پاداشهای بهدستآمده از بازوهای منتخب توسط عامل یادگیرنده
شکل 2: شیارهای زمانی بهازای دسته زمانی .
با پاداش متوسط بهینه تعریف میشود. مفروض است که مدافع در طول افق زمانی از دنباله راهبرد تولیدشده یعنی توسط الگوریتم پیروی میکند. در پایان شیار زمانی ، پاداش راهبرد تجمعی بهصورت (۵) تعریف میشود
(5)
در این بین، مدافع متحمل هزینه جابهجایی تجمعی میشود
(6)
در نتیجه، میزان سودمندی الگوریتم از منابع امنیتی تخصیصدادهشده برابر با میزان اختلاف پاداش تجمعی الگوریتم و هزینه جابهجایی تجمعی آن است
(7)
برای ارزیابی الگوریتم اجرایی، از حالت خاص پشیمانی در بدترین حالت، یعنی پشیمانی ضعیف به عنوان معیار استفاده میشود. برای محاسبه میزان این پشیمانی، نیاز داریم تا میزان اختلاف بین سودمندی از بهترین حالت الگوریتم و الگوریتم اجرایی بهدست آید. میزان سودمندی الگوریتم بهترین حالت، زمانی است که بین بازههای زمانی هرگز راهبرد عوض نشود؛ بنابراین هزینه جابهجایی بهجز در بازه زمانی اولیه برابر با صفر است و در نتیجه داریم
(8)
همچنین این الگوریتم میبایست بیشترین میزان پاداش را داشته باشد؛ بنابراین از بین راهبردها، راهبردی انتخاب میشود که بیشترین میزان پاداش را دارد و در نتیجه، میزان سودمندی این الگوریتم بدین صورت نمایش داده خواهد شد
(9)
بنابراین میتوانیم میزان پشیمانی را محاسبه کنیم
(10)
برای کنترل موازنه بین پاداش و هزینه جابهجایی، تمام شیارهای زمانی را به دستههای زمانی متوالی و جدا از هم گروهبندی میکنیم. ما در هر دسته زمانی به همان راهبرد پایبند هستیم تا از هزینه جابهجایی جلوگیری کنیم. بین دستهها، یک راهبرد مجدداً به جهت دریافت پاداشهای بالاتر انتخاب میشود. اندازه دسته زمانی کوچکتر ممکن است منجر به پاداش بیشتر اما هزینه جابهجایی بیشتر شود؛ در حالی که اندازه دسته زمانی بزرگتر ممکن است منجر به هزینه جابهجایی کمتر اما پاداش کمتر شود. با توجه به پارامتر تعیین دسته زمانی ، شیارهای زمانی به دستههای زمانی متوالی و جدا از هم تقسیم میشوند
(11)
بهطوری که برای داریم
جدول 1: احتمال راهبرد در الگوریتمها [10].
احتمال راهبرد در دسته زمانی | |
۱- SRIoT |
|
۲- SRIoT |
|
۳- SRIoT |
|
جدول 2: وزن راهبرد در الگوریتمها [10].
نام الگوریتم | وزن راهبرد در دسته زمانی |
۱- SRIoT |
|
۲- SRIoT |
|
|
(12)
بنابراین دسته زمانی - همان طور که در شکل 2 آمده است- از شیار زمانی شروع شده و در شیار زمانی به پایان میرسد.
3-2 الگوریتم پیشنهادی
برای مسئله تخصیص منابع امنیتی در شبکههای اینترنت اشیا با توجه به شرایط مسئله در یک چارچوب یکسان، سه الگوریتم یادگیری تقویتی مورد بررسی و تجزیه و تحلیل قرار گرفت. برای بحث تئوری، الگوریتم
به توضیح مراحل 3SRAIoT اکتفا کرده و در مورد توضیح فرمول بهروزرسانی وزن راهبرد و نهایتاً وزن سرخوشه در این الگوریتم خواهیم پرداخت. زیرا این الگوریتم، رفتار نسبتاً بهتری از الگوریتمهای قبلی داشته و بهعلت معرفی مفهوم جدیدی از مجموعه پوششی راهبردها در مقیاسهای بزرگتر، سریعتر از بقیه به راهبرد بهینه نزدیک میشود. فرمول توابع اصلی هر سه الگوریتم در جداول 1 و ۲ قابل مشاهده است. در این جداول، فرمولهای احتمال راهبرد در دسته زمانی و وزن راهبرد در دسته زمانی آورده شده است.
در ادامه این بخش، مراحل مدل سیستم به تفکیک مورد بررسی قرار خواهند گرفت.
3-2-1 محاسبه راهبردهای مختلف
از آنجا که حالتهای مختلفی برای تخصیص منابع امنیتی بر روی سرخوشههای شبکه اینترنت اشیا وجود دارد، مدافع با راهبردهای مختلفی برای کارگذاری منابع امنیتی روبهرو خواهد بود. این مسئله به دنبال تخصیص منبع محدود امنیتی به سرخوشه است؛ بنابراین تعداد کل راهبردها برابر با مجموعه بوده و بهصورت زیر تعریف میشود
(13)
در الگوریتم ۳- SRAIoT، معیار پشیمانی ضعیف واقعی با با هر گونه اطمینان تعریفشده توسط کاربر محدود میشود. علاوه بر این با معرفی یک مفهوم جدید به نام مجموعه همپوشان راهبرد1، ضریب کران پشیمانی ضعیف از به کاهش پیدا میکند که در آن است.
3-2-2 محاسبه احتمال راهبردها
هر راهبرد مدافع با یک احتمال مشخص در هر دسته زمانی میتواند انتخاب گردد و همچنین در طول کل دسته زمانی ، راهبرد عوض نمیشود. احتمال راهبرد مدافع با مشخص گردیده است و
بر اساس وزن راهبرد محاسبه میشود. برای محاسبه احتمالات راهبرد، مفهوم جدیدی به نام مجموعه همپوشان راهبرد معرفی میشود. مجموعه همپوشان راهبرد به مجموعهای از راهبردها اطلاق میگردد که تمام سرخوشههای را پوشش میدهند؛ به قسمی که سرخوشه توسط پوشش داده میشود، اگر راهبرد وجود داشته و سرخوشه در این راهبرد حضور داشته باشد . این مجموعه، زیرمجموعهای از مجموعه تمام راهبردها است . وزن اولیه برای هر راهبرد بر اساس دانش گذشته حمله مهاجم و اهمیت سرخوشه تعیین میگردد. برای محاسبه احتمال انتخاب هر راهبرد در هر دسته زمانی از (۱۴) استفاده میشود
(14)
پارامتر برای محاسبه احتمال راهبردها و ایجاد توازن میان اکتشاف و بهرهبرداری استفاده میشود. اولین عبارت (۱۴) بهرهبرداری از راهبردهایی با سابقه پاداش خوب است و دومی، اکتشاف تمام راهبردها را تضمین میکند. تابع نشانگر است؛ اگر باشد، مقداری برابر با عدد یک خواهد داشت و در غیر این صورت برابر با صفر خواهد بود. به این ترتیب راهبردهای موجود در مجموعه همپوشان، بیشتر از سایرین انتخاب میشوند. در نتیجه، ۳- SRIoT میتواند همه سرخوشهها را سریعتر کشف کند و فرایند اکتشاف برای بهترین راهبرد تسریع میشود. همچنین در (۱۴)، مجموع وزن راهبردها است؛ به قسمی که داریم
(15)
3-2-3 انتخاب راهبرد
در مرحله قبل، احتمال انتخاب هر راهبرد مدافع در دسته زمانی محاسبه شد. احتمال راهبردها در قالب یک آرایه تعریف گردیده و از این توزیع احتمال، نمونهگیری اولیه میشود. خروجی این پیادهسازی، شاخص راهبرد در مجموعه راهبردها است و بدین ترتیب، راهبرد منتخب در تکرار کنونی بهدست میآید. راهبرد منتخب در دسته زمانی ، یعنی برای تمام شیارهای زمانی در دسته زمانی ، یکسان و بدون تغییر باقی میماند. به بیان دیگر اگر راهبرد انتخابی جهت تخصیص منابع امنیتی در دسته زمانی ام برابر با باشد، به ازای داریم
(16)
از این رو هزینه جابهجایی برای دسته زمانی ، تنها یک بار رخ میدهد و مدافع بر اساس حملهای که رخ میدهد، پاداشی دریافت میکند. مدافع، سوابق را برای همه و نگه میدارد. پاداش راهبردی که توسط مدافع بهدست میآید، مجموع تمام پاداشهای دریافتی از سرخوشههای نظارتشده است. ماتریس بیانگر احتمال تشخیص موفقیتآمیز حضور تعداد مهاجم است. درایههای این ماتریس با منطق افزایش مقدار احتمال تشخیص با دو عامل تخصیص منبع امنیتی به سرخوشه و تعداد حمله مهاجمین به آن سرخوشه محاسبه میشوند. بنابراین با الهام از [۱۰] به ازای هر حمله به سرخوشه داریم
(17)
مدل حمله مهاجم بر آن اساس است که راهبردش با استفاده از نمونهگیری از توزیع احتمال راهبردهای بهدستآمده تعیین میشود. برخلاف راهبرد تخصیص منابع امنیتی که در هر تکرار و دسته زمانی به طول ، راهبرد تغییر نمیکند، راهبرد مهاجمین در هر طول تکرار عوض میشود.
3-2-4 بهروزرسانی وزن راهبردها
وزنهای راهبردها در انتهای هر دسته زمانی بر طبق مراحل بعدی بهروزرسانی میشود. در قدم اول لازم است هر زمان که منبع امنیتی نصبشده بر روی سرخوشه موفق به تشخیص حمله در هر زمان در دسته زمانی شد، پاداش دریافتی از آن در بهعنوان پاداش سرخوشه برای سرخوشه نگهداری شود. در انتهای دسته زمانی، متوسط پاداش دریافتی سرخوشه برای سرخوشه ، دارای منبع امنیتی در دسته زمانی بهصورت زیر محاسبه میشود
(18)
هر واحد پاداش دریافتی برابر با مقدار مشخص بوده که نهایتاً برابر با معکوس تعداد منابع امنیتی است. با درنظرگرفتن (۳) داریم
(19)
در قدم بعد، احتمال انتخاب سرخوشه با جمعکردن احتمالات راهبردهای شامل آن سرخوشه بهصورت زیر محاسبه میشود
(20)
و در آن تعداد راهبردهایی را نشان میدهد که در مجموعه همپوشان راهبرد حضور داشته و شامل سرخوشه هستند
(21)
برای محاسبه میانگین امتیاز سرخوشه نیاز به پارامتر است؛ بنابراین بر اساس (18) و (20)، متوسط امتیاز سرخوشه برای سرخوشه در دسته زمانی بهصورت زیر محاسبه میشود
(22)
از پارامتر برای کاهش تبعیض2 مابین سرخوشههای دارای منبع امنیتی و سرخوشه بدون منبع امنیتی استفاده میگردد. سپس وزن هر سرخوشه توسط فرمول زیر بهروزرسانی میشود
(23)
[1] . Covering Strategy Set
[2] . Bias
شکل 3: شبهکد الگوریتم تخصیص منابع امنیتی.
نهایتاً تعریف رسمی وزن راهبرد بهصورت زیر است
(24)
با ترکیب (۲۲) و (۲۳) میتوان مستقیماً وزن راهبرد برای هر راهبرد را بهروزرسانی کرد
(25)
در حالی که متوسط امتیاز راهبرد برای هر راهبرد بوده و بهصورت زیر محاسبه میشود
(26)
شایان ذکر است با ترکیب (۱۸)، (۲۰) و (22) میتوان بهصورت مستقیم را محاسبه کرد
(27)
3-3 شبهکد الگوریتم پیشنهادی
تمامی قدمهای الگوریتم که در بخشهای پیشین به تفصیل توضیح داده شد در شبهکد شکل 3 آمده است. خط دوم آن، نمایانگر بحث نمونهگیری مذکور در بخش پیشین است و برخلاف [۱۰] در ابتدای کار، وزن راهبردها برابر یک نیست.
با اجرای این الگوریتم، معیار پشیمانی ضعیف بهطور حدی به صفر همگرا میشود. با استناد به قضیه دوم از [۱۰] به ازای هر نوعی از مهاجم و با احتمال حداقل ، معیار پشیمانی ضعیف الگوریتم ۳- SRIoT
توسط محدود میشود. بنابراین مقادیر ابرپارامترهای الگوریتم لازم است بهطور مشخص به شکل زیر تعریف شوند تا برای معیار پشیمانی ضعیف، همگرایی به سمت صفر اتفاق بیفتد. همچنین ضرایب ، و ثابت هستند
(28)
(29)
(30)
(31)
4- شبیهسازی و ارزیابی روش
بهمنظور بررسی و نمایش عملکرد الگوریتمهای پیشنهادی برای استقرار منابع امنیتی در شبکههای اینترنت اشیا، آزمایشها و شبیهسازیهای گستردهای انجام شد. کدهای الگوریتمها با استفاده از زبان برنامهنویسی پایتون نوشته و روی سیستم 7Core i هشتهستهای با GB 64 RAM و MB 12 Cache اجرا شده است. لازم به ذکر است نتایج شبیهسازی در ادامه آمده و هر یک از آنها بهطور متوسط بیش از 100 آزمایش، تکرار و محاسبه گردیده و نتایج آن به شیوهای خودکار توسط اسکریپتها مجزا و به نمودار تبدیل شده است. ما ابتدا همگرایی معیار پشیمانیهای ضعیف نرمالشده هر سه الگوریتم را به همراه الگوریتم پایه مورد مقایسه نشان دادهایم و سپس عملکرد آنها را به ازای مهاجم هوشمند مورد مطالعه و مقایسه قرار میدهیم. همچنین درباره آنکه چگونه ابرپارامترهای1 الگوریتم بر عملکرد الگوریتمهای پیشنهادی تأثیر میگذارند، بحث میکنیم. برای این کار علاوه بر ارجاع به قضایای [10] از برخی ابرپارامترهای مهم به ازای مقادیر مختلف اجرا گرفته شده است.
4-1 مفروضات و پارامترهای ارزیابی
در این شبیهسازی، یک گراف وزندار غیرجهتدار بهمنزله شبکه اینترنت اشیا حضور پیدا میکند و نیز برای سادگی، تنها یک نوع منبع امنیتی در تنظیمات شبیهسازی وجود دارد. همچنین فرض بر آن است که دو مهاجم از نوع سازگار2 (هوشمند)، قصد حمله به شبکه دارند. در تنظیم مهاجم سازگار (هوشمند)، هر مهاجم از حالت ۱- SRIoT اصلاحشده3 استفاده میکند؛ به عبارتی، نسخه غیرترکیبیاتی استفاده شده و تعداد بازوهای انتخابی هر مهاجم به تعداد سرخوشه میباشد. سایر پارامترهای شبیهسازی در جدول ۳ آمدهاند.
روش پایه مورد مقایسه در این پژوهش، الگوریتم 4CUCB بوده که توسعهای بر الگوریتم 1UCB است. به عبارت دیگر، الگوریتم CUCB، توسعه ترکیبیاتی الگوریتم UCB میباشد که این روش در [۱۱] شرح داده شده است. بهروزرسانی وزن بازوی ترکیبیاتی در این الگوریتم از طریق رابطه زیر انجام میشود
شکل 4: تأثیر پارامتر دسته زمانی بر سودمندی تجمعی.
شکل 5: تأثیر پارامتر بر روی سودمندی تجمعی.
(32)
4-2 نتایج ارزیابی
در این بخش با تکرار آزمایشها جهت ارزیابی روش پیشنهادی با معیارهای مورد بحث، نتایج بهدستآمده را به تفکیک در هر نمودار مشخص کرده و به تحلیل و بررسی کارایی روش مطرحشده میپردازیم. همچنین نمودارهایی برای مقایسه روش پیشنهادی با کار مقایسهای، تحلیل خواهد شد.
4-2-1 تأثیر پارامترهای الگوریتم
در میان تمام پارامترهای هر سه الگوریتم، مهمترین آنها و اندازه دسته زمانی است که موازنه بین پاداش تجمعی و هزینه جابهجایی تجمعی را کنترل میکند. شبیهسازی در شرایطی انجام شده که بزرگی پارامتر
دسته زمانی از رابطه بهدست میآید. ما به ازای مختلف از الگوریتمهای پیشنهادی اجرا گرفته و پاداش تجمعی محاسبه میشود. نمودار برای مهاجم سازگار (هوشمند) رسم گردیده و نتایج برای هر سه الگوریتم SRAIoT کاملاً یکسان است. در اینجا تنها به تحلیل نمودار الگوریتم ۳- SRIoT میپردازیم. همان گونه که در شکل 4 مشاهده میشود، هنگامی که برابر با سه است، الگوریتم دارای بیشترین سودمندی تجمعی است؛ بنابراین در تمام تنظیمات شبیهسازی اندازه را برابر عدد سه در نظر گرفته و اندازه پارامتر دسته زمانی، مستقیماً از رابطه
محاسبه میشود.
شکل 6: معیار پشیمانی نرمالشده تمام الگوریتمها در حالت مهاجم هوشمند.
جدول 3: پارامترهای شبیهسازی.
پارامتر | مقدار | شرح |
| 150 | تعداد گرههای شبکه اینترنت اشیا |
| 50000 | زمان کل (آخرین برهه زمانی) |
| 37 | پارامتر تعیین اندازه دسته زمانی |
| 1352 | تعداد دسته زمانی |
| 2 | تعداد منابع امنیتی |
| 2 | تعداد مهاجم |
| 3/0 | پاداش |
| 03/0 | هزینه |
| 1/0 | پارامتر محاسبه امتیاز سرخوشه |
| 1/0 | پارامتر محاسبه احتمال راهبرد |
اولیه | 9/0 | احتمال تشخیص حمله |
شکل 5، تأثیر پارامتر را بر روی سودمندی تجمعی در الگوریتم
۳- SRAIoT نمایش میدهد. این پارامتر میان اکتشاف و بهرهبرداری توازن برقرار میکند. همان گونه که در نمودار مشاهده میشود به ازای ۱/۰، بیشترین سودمندی تجمعی حاصل میشود. این حالت برای الگوریتم ۱- SRAIoT نیز بهطور مشابه اتفاق میافتد. در الگوریتم ۲- SRAIoT این پارامتر حضور ندارد؛ اما همچنان موازنه میان اکتشاف و بهرهبرداری وجود دارد. به دلیل فرمول بهروزرسانی وزن راهبرد در این الگوریتم، راهبردی که قبلاً انتخاب نشده، دارای بالاترین وزن بوده و این مهم توسط فرمول بهروزرسانی وزن راهبرد الگوریتم نوع دوم- همان طور که در جدول ۲ آمده است- تضمین میشود.
پارامتر منحصراً در الگوریتم ۳- SRAIoT حضور داشته و بر روی سودمندیهای تجمعی و معیار پشیمانی ضعیف تأثیر میگذارد. همچنین برای محاسبه امتیاز سرخوشه استفاده گردیده و به جبران امتیاز سرخوشههایی میپردازد که بدون منبع امنیتی هستند. یعنی برای تمام سرخوشههای بدون منبع امنیتی، امتیاز سرخوشه به جای صفر، در نظر گرفته میشود. این مقدار با استناد به [10] برابر با 1/0 در نظر گرفته شده است.
4-2-2 معیار پشیمانی ضعیف
همان طور که قبلتر گفته شد، یکی از روشهای سنجش و ارزیابی روش پیشنهادی، استفاده از معیار پشیمانی ضعیف است. هرچه این معیار به صفر همگرا شود، الگوریتم پیشنهادی کاراتر است. معیار پشیمانی نرمالشده به ازای تمام الگوریتمها در حالت مهاجم هوشمند در شکل 6 آمده است. همان طور که انتظار میرفت با افزایش افق زمانی ، معیار
شکل 7: سودمندی تجمعی مهاجم سازگار برای الگوریتمهای مختلف.
پشیمانی ضعیف برای الگوریتم پیشنهادی SRAIoT کاهش یافته و به صفر همگرا میشود. این حالت از تحلیل نظری اشارهشده در [10]، پشتیبانی میکند؛ بهطوری که معیار پشیمانی ضعیف نرمالشده به ازای
به عدد صفر همگرا میشود؛ اما معیار پشیمانی ضعیف برای کار مقایسهای در طول زمان کاهش پیدا نمیکند.
4-2-3 سودمندی تجمعی
شکل7، برای الگوریتمهای مختلف، سودمندی تجمعی مهاجم سازگار(هوشمند) را نمایش میدهد. در این حالت، الگوریتم ۲- SRAIoT از تمامی الگوریتمها بهتر عمل کرده و روند افزایشی دارد. اگرچه نمودار الگوریتم CUCB، با توجه به ماهیت افزایشی سودمندی تجمعی، روندی رو به رشد دارد اما در مقایسه با دیگر الگوریتمها درست عمل نکرده و مقدار سودمندی آن به مراتب کمتر است. در این حالت، تنظیمات مهاجم از نوع تخاصمی بوده و الگوریتم مقایسهای از تمامی الگوریتمهای پیشنهادی SRAIoT بدتر عمل میکند.
5- شبیهسازی در بستر Cooja
نمونه واقعی یک حمله معمول برای ارزیابی روش پیشنهادی با استفاده از شبیهساز Cooja پیادهسازی گردیده و سپس کارایی شبکه در حضور الگوریتم پیشنهادی و الگوریتم پایه مقایسه میشود. Contiki یک سیستم عامل متنباز برای شبکههای اینترنت اشیا بوده و روی میکروکنترلرهای کوچک کممصرف اجرا میشود. این سیستم عامل شامل یک شبیهساز حسگر به نام Cooja است و آخرین نسخه آن با نام Contiki-NG شناخته میشود. شبیهساز Cooja، امکان شبیهسازی شبکههای ناهمگن را فراهم کرده و ابزاری ایدهآل برای شبیهسازی شبکههای مبتنی بر 5RPL است.
5-1 مسیریابی RPL، حملات رتبهای و sinkhole
گرهها در اینترنت اشیا با محدودیت منابع از نظر انرژی، حافظه و قدرت پردازش محدود هستند و بنابراین نیاز به یک پشته پروتکل مناسب وجود دارد. بر طبق [12]، پشته پروتکل مورد نظر صنعت که الزامات شبکههای IoT محدود با منابع را برآورده میکند، در شکل 8 نشان داده شده
است. پروتکل برنامه محدود 6(CoAP) بهعنوان یک پروتکل برای لایه
شکل 8: پشته پروتکلی اینترنت اشیا [12].
برنامه استفاده میشود که بر روی 7UDP، پروتکل لایه انتقال مورد نظر اجرا میشود.
RPL یک گراف غیرمدور جهتدار مبتنی بر مقصد 8(DODAG)
را بین گرهها در شبکه ایجاد میکند. هر گره در یک DODAG دارای رتبهای است که موقعیت یک گره را نسبت به گرههای دیگر و با توجه
به ریشه DODAG نشان میدهد. رتبهها در جهت بالا به سمت ریشه DODAG کاهش یافته و از ریشه DODAG به سمت گرهها افزایش مییابند. بهمنظور حفظ توپولوژی مسیریابی و بهروز نگهداشتن اطلاعات مسیریابی، RPL متشکل از چهار نوع پیام کنترلی شامل 9DIO، 10DAO، 11DIS و 12DAO-ACK است. حمله رتبهای که در آن گرههای مخرب بهطور هدفمند بدترین والد موجود را انتخاب میکنند و DIO خود را بهروز نمیکنند تا ترافیک عبوری را با تأخیر مواجه کنند. برای دورزدن اعتبارسنجی رتبه توسط والدین، گرههای مخرب از ارسال پیامهای DAO خودداری میکنند؛ یعنی هیچ مسیر نزولی به گره در معرض خطر و فرزندان آن وجود ندارد. یک گره در حمله Sinkhole، مسیر مسیریابی بهتری را برای همسایگان خود تبلیغ میکند تا ترافیک بیشتری را برای استراق سمع جذب کند. این حالت در RPL با تبلیغ رتبه ریشه در پیامهای DIO بهدست میآید [۱۳]. این حمله به خودی خود لزوماً عملکرد شبکه را مختل نمیکند؛ اما هنگامی که با حمله دیگری همراه شود میتواند بسیار قدرتمند عمل کند. در این مقاله بهمنظور شبیهسازی حمله در کنار حمله Sinkhole از حمله رتبهای نیز استفاده شده است؛ به قسمی که گره مخرب بهمنظور جذب فرزندان، رتبه خودش را کاهش میدهد تا بقیه گرههای فرزند جذب این مسیر شوند. سپس شروع به دورانداختن بستههای دریافتیاش کرده و به گره والد خود تحویل نمیدهد. این امر باعث تأخیر در شبکه و پایینآمدن نرخ بسته تحویلی میشود. برای اجرای شبکه اینترنت اشیا در بستر شبیهسازی از مثال معروف rpl-udp در Cooja استفاده میگردد. گرههای استفادهشده در این شبیهسازی از نوع Sky mote هستند. جهت اجرای اسکریپت شبیهسازی حمله، باید یک سری تغییرات در کدهای سیستمی Cooja اعمال شود که این کدهای سیستمی، مختص مثال کاربردی rpl-udp
شکل ۹: مثالی از شبکه اینترنت اشیا با 40 گره.
هستند. کدهای سیستمی در Cooja با استفاده از مجموعه کامپایلرها و کتابخانههای GCC قابل تغییر بوده و اجرا گرفته میشود. برای اعمال برخی از تغییرات از توضیحات [۱۳] استفاده شده است. بهطور ساده، هر مثال rpl-udp از یک سری گرههای udp-client و گرههای udp-server تشکیل میشود که هدف گرههای udp-client، ارسال داده از طریق والد خود به ریشه یعنی udp-client است.
5-2 آزمایش شبکه اینترنت اشیا
در این بخش در سه آزمایش، نمونههایی از شبکه اینترنت اشیا را مورد بررسی قرار خواهیم داد. هدف از شبیهسازی حمله، تحت تأثیر قراردادن نرخ تحویل بستهها و مقایسه الگوریتم پیشنهادی ما با الگوریتم CUCB است. طی اجرای این دو الگوریتم و پس از آنکه شبکه به یک سری خوشه تقسیم شد، باید الگوریتم برای تخصیص منبع امنیتی بر روی سرخوشهها تصمیم بگیرد. هر کدام از الگوریتمها، تعدادی از سرخوشهها را برای محافظت انتخاب میکنند و بقیه سرخوشهها و به تبع، اعضای خوشههای مد نظر بدون محافظت رها میشوند. تمام این آزمایشها از طریق ماشین مجازی و بر روی اوبونتو 04/20 اجرا شده است. شکل ۹ مثالی از نمای گرهها را در شبیهساز نشان میدهد. در این مثال، 40 گره اینترنت اشیا با هفت سرخوشه حضور دارند.
5-2-1 بررسی تأثیر تعداد گرهها بر PDR
طی این آزمایش، سه منبع امنیتی در اختیار داشته و دفعات آزمایش به ازای 30، 40 و 50 گره تکرار شده است. دو مهاجم به گرههای شبکه حمله کرده و عملکرد آن را مختل میکنند. این شبیهسازی به ازای 500000 ميلي ثانيه اجرا ميشود. از آنجا که الگوریتم پیشنهادی در یک محیط تخاصمی بهصورت هوشمند عمل میکند. در طی زمان، الگوریتم ما با پیشبینی رفتار طرف مقابل به نسبت الگوریتم کار مقایسهای، رفتار معقولی دارد و منابع امنیتی را بر روی سرخوشههایی قرار میدهد که احتمال حمله آنها بالاتر است. بنابراین هنگامی که مهاجم به سرخوشه
مد نظرش، حمله و عملکرد شبکه را مختل میکند، چون سرخوشه مد نظر دارای منبع امنیتی است، با احتمال بالایی، حمله تشخیص داده شده و شبکه به کار خودش ادامه میدهد. با افزایش تعداد گره، تعداد سرخوشهها نیز بیشتر میشوند. با اعمال فرض تعداد ثابت منابع امنیتی برای تخصیص در سرخوشهها، نرخ تحویل بسته سیر نزولی خواهد داشت؛ اما طبق آزمایشی که انجام شد، رفتار الگوریتم پیشنهادی نسبت به الگوریتم پایه، معقول بوده و سرخوشههای مناسبتری را برای حفاظت انتخاب میکند و
شکل ۱۰: تأثیر تعداد گره بر روی PDR.
شکل ۱۱: بررسی تأثیر اندازه دسته زمانی بر PDR.
نهایتاً حمله ناموفق میشود. به عنوان مثال، مطابق شکل ۱۰، به ازای ۴۰ گره و هفت سرخوشه، PDRالگوریتم مقایسهای نسبت به الگوریتمهای پیشنهادی کمتر است.
5-2-2 بررسی تأثیر تعداد پارامتر اندازه دسته زمانی
هدف از این آزمایش، بررسی و ارزیابی تأثیر پارامتر اندازه دسته زمانی
بر نرخ تحویل بسته (PDR) است. مدافع در طول بازه یک دسته زمانی، راهبرد یکسانی را برای تخصیص منابع امنیتی اتخاذ میکند. در این آزمایش، چهل گره، هفت سرخوشه، سه منبع امنیتی و دو مهاجم مفروض است. ابرپارامتر مؤثر بر روی اندازه دستههای زمانی، پارامتر میباشد و زمان اجرای شبیهسازی در 300000، 500000 و 700000 میلیثانیه تنظیم شده است. نهایتاً در دستههای زمانی مذکور، اسکریپت حمله اجرا میشود. در اجرای هر دوی الگوریتمها، یک سری گرهها دچار حمله شد و نهایتاً عملکرد شبکه با اختلال روبهرو گردید. خروجی آزمایش با سه تنظیم مختلف برای الگوریتم پیشنهادی و الگوریتم مقایسهای در شکل 11 آمده است. هرچه بازه زمانی بیشتر باشد، PDR پایینتر بوده و برای بازه زمانی کمتر، PDR بالاتر میرود. زمانی که بازه تصمیم به نسبت پایینتر است، عامل هوشمند سریعتر واکنش نشان داده و به تبع، هزینه جابهجایی منابع هم بالا میرود. اگرچه در بازه زمانی کمتر، PDR بهتری نصیب شبکه میشود، اما برقراری توازن میان پاداش و هزینه جابهجایی از اهمیت بالایی برخوردار است. بنابراین این مقدار طبق شكل 4 بر روی
تنظیم شد تا الگوریتم پیشنهادی با پیشبینی رفتار طرف مقابل، رفتار معقولتری نسبت به الگوریتم پایه داشته باشد.
5-2-3 بررسی تأثیر تعداد منابع امنیتی
هدف از این آزمایش، بررسی تأثیر تعداد منابع امنیتی جهت حفاظت از
شکل ۱۲: تأثیر تعداد منابع امنیتی بر PDR.
سرخوشهها در مقابل حمله مهاجمین است. بدین منظور در یک توپولوژی با سی گره و پنج سرخوشه، آزمایش را 500000 میلیثانیه انجام دادیم. در ابتدای کار و برای پنج سرخوشه، تنها یک منبع امنیتی حضور داشت. الگوریتم پیشنهادی، گره مناسبتری را نسبت به الگوریتم پایه، جهت استقرار منبع امنیتی در نظر گرفته و در نتیجه، نرخ تحویل بسته آن بالاتر است. با افزایش تعداد منابع امنیتی از یک به سه عدد برای پنج جایگاه، سرخوشههای بیشتری مورد حفاظت قرار گرفته و نرخ تحویل بسته (PDR) بالاتر میرود. نهایتاً با تخصیص سه منبع امنیتی بر روی پنج سرخوشه، مطابق شكل 12 نرخ تحویل الگوریتم پیشنهادی 79/96 است. تعداد مهاجمین به شبکه در این آزمایش، دو عدد میباشد.
6- نتیجهگیری
ما در این مقاله، مسئله تخصیص منابع امنیتی را برای مقابله با حملات در اینترنت اشیا با استفاده از رویکرد یادگیری برخط مطرح کردیم و با توجه به شرایط محیط از رویکرد چارچوب CMAB تخاصمی با لحاظ هزینه جابهجایی استفاده کردیم. برخلاف کارهای پیشین در مدلسازی پیشنهادی فرض میشود که طرفین (اعم از مدافع و مهاجم) از تابع هدف رقیب و شرایط وی مطلع نیستند و تخصیص منابع توسط مدافع شبکه، صرفاً با انباشت تجربه و یادگیری تدریجی استراتژی تدافعی انجام میشود. نوآوری دیگر راهکار پیشنهادی، ، لحاظکردن هزینه جابهجایی منابع از یک سرخوشه به سرخوشه دیگر بهعنوان یک معیار جریمه در کارایی فرایند یادگیری است. از آنجا که نصب و جایگذاری منابع امنیتی دارای هزینه است، در این پژوهش برآنیم که با حداقل نصب/ حذفها و هزینه پرسنل مدیریتی از شبکه اینترنت اشیا در مقابل حملات محافظت کنیم. روش پیشنهادی بهعنوان یک مزیت میتواند بهصورت پارامتریک، موازنهای میان کارآمدی مقابله با حملات و سربار جابهجاییها ایجاد کند. شایان ذکر است که مهاجم هوشمند دقیقاً از الگوریتم مدافع استفاده میکند. همچنین یک سناریوی واقعی در بستر Cooja شبیهسازی شده و کارایی شبکه پس از تخصیص منابع بعد از حمله سنجیده میشود. ما نتایج شبیهسازی و پیادهسازی را در قالب نمودارهایی نشان دادیم. این نمودارها، تأثیر موارد مختلفی اعم از تغییر در تنظیمات شبکه، مهاجم، مدافع، منابع امنیتی و ابرپارامترهای الگوریتم را بر روی کارکرد الگوریتم پیشنهادی در مقابل الگوریتم پایه میسنجند. نهایتاً بهعنوان یک معیار نظری از معیار پشیمانی ضعیف برای سنجش عملکرد و کارایی الگوریتم پیشنهادی خود استفاده کردیم. بهعنوان نتیجه مشاهده کردیم که با درنظرگرفتن افق زمانی برابر با 50000، معیار پشیمانی ضعیف الگوریتم پیشنهادی به سمت صفر همگرا میشود. همچنین بهعنوان کارهای آینده میتوان به ارائه الگوریتم توزیعشده به جای متمرکز، تعمیم روش به حالت چندمنبعی و تعمیم روش به حالت چند نوع حمله اشاره کرد.
مراجع
[1] A. H. Anwar, C. Kamhoua, and N. Leslie, "Honeypot allocation over attack graphs in cyber deception games," in Proc. IEEE Int. Conf. on Computing, Networking and Communications, ICNC’20, pp. 502-506, Big Island, HI, USA, 17-20 Feb. 2020.
[2] L. Chen, Z. Wang, F. Li, Y. Guo, and K. Geng, "A stackelberg security game for adversarial outbreak detection in the Internet of Things," Sensors, vol. 20, no. 3, Article ID: 804, Feb. 2020.
[3] A. H. Anwar, C. Kamhoua, and N. Leslie, "A game-theoretic framework for dynamic cyber deception in internet of battlefield things," in Proc. of the 16th EAI Int. Conf. on Mobile and Ubiquitous Systems: Computing, Networking and Services, pp. 522-526, Houston, TX, USA, 12-14 Nov. 2019.
[4] A. Rullo, E. Serra, E. Bertino, and J. Lobo, "Optimal placement of security resources for the Internet of Things," The Internet of Things for Smart Urban Ecosystems, pp. 95-124, Jan. 2019.
[5] A. Rullo, D. Midi, E. Serra, and E. Bertino, "Pareto optimal security resource allocation for Internet of Things," ACM Trans. on Privacy and Security, vol. 20, no. 4, pp. 1-30, Nov. 2017.
[6] M. Zhu, et al., "A survey of defensive deception: approaches using game theory and machine learning," IEEE Communications Surveys & Tutorials, vol. 23, no. 4, pp. 2460-2493, Aug. 2021.
[7] A. Rullo, D. Midi, E. Serra, and E. Bertino, "A game of things: strategic allocation of security resources for IoT," in Proc. IEEE/ACM 2nd Int. Conf. on Internet-of-Things Design and Implementation, IoTDI’17, pp. 185-190, Pittsburgh, PA, USA, 18-21 Apr. 2017.
[8] M. A. R. Al Amin, S. Shetty, L. Njilla, D. K. Tosh, and C. Kamhoua, "Online cyber deception system using partially observable Monte Carlo planning framework," in Proc. Int. Conf. on Security and Privacy in Communication Systems, vol. 2, pp. 205-223, Orlando, FL, USA, 23-25 Oct. 2019.
[9] S. Wang, Q. Pei, J. Wang, G. Tang, Y. Zhang, and X. Liu, "An intelligent deployment policy for deception resources based on reinforcement learning," IEEE Access, vol. 8, pp. 35792-35804, 2020.
[10] M. Li, D. Yang, J. Lin, and J. Tang, "Specwatch: a framework for adversarial spectrum monitoring with unknown statistics," Computer Networks, vol. 143, pp. 176-190, Oct. 2018.
[11] W. Chen, Y. Wang, and Y. Yuan, "Combinatorial multi-armed bandit: general framework and applications," Proceedings of Machine Learning Research, vol. 28, no. 1, pp. 151-159, Feb. 2013.
[12] M. R. Palattella, N. Accettura, X. Vilajosana, T. Watteyne, L. A. Grieco, G. Boggia, and M. Dohler, "Standardized protocol stack for the internet of (important) things," IEEE Communications Surveys & Tutorials, vol. 15, no. 3, pp. 1389-1406, Dec. 2012.
[13] F. Algahtani, T. Tryfonas, and G. Oikonomou, "A reference implemenation for RPL attacks using contiki-NG and Cooja," in Proc. 17th Int. Conf. on Distributed Computing in Sensor Systems, DCOSS’21, pp. 280-286, Pafos, Cyprus, 14-16 Jul. 2021.
نسیم نوائی تحصیلات خود را در مقطع کارشناسی مهندسی فناوری اطلاعات در سال 1396 در دانشگاه تبریز به پایان رسانده است. ایشان مدرک كارشناسي ارشد خود را در رشته مهندسی کامپیوتر- شبکههای کامپیوتری در سال ۱۴۰۱ از دانشگاه علم و صنعت ایران دریافت نموده است. زمينههاي تحقيقاتي مورد علاقه ايشان عبارتند از: شبکههای کامپیوتری، ارتباطات بیسیم، اینترنت اشیا و یادگیری ماشین.
وصال حکمی در سال 1383 مدرک کارشناسی مهندسی کامپیوتر- نرمافزار خود را از دانشگاه صنعتی امیرکبیر و مدارک كارشناسي ارشد و دکتری خود را در رشته مهندسی فناوری اطلاعات- شبکههای کامپیوتری از همان دانشگاه به ترتيب در سالهاي 1387 و 1394 دریافت نموده است. دکتر حکمی از سال 1395 به عنوان عضو هیأت علمی در دانشكده مهندسي كامپيوتر دانشگاه علم و صنعت ایران مشغول فعالیتهای آموزشی و پژوهشی بوده و ضمنا یکی از اعضای قطب علمی شبکههای کامپیوتری وزارت علوم است. نامبرده قبل از پيوستنش به دانشگاه علم و صنعت ایران طی سال 1394 به عنوان مشاور در حوزه استانداردسازی نسل پنجم شبکههای مخابراتی بیسیم در پژوهشگاه ارتباطات و فناوری اطلاعات فعالیت داشته است. زمينههاي تحقيقاتي مورد علاقه ايشان عبارتند از: شبکههای کامپیوتری، ارتباطات بیسیم، بهینه سازی ریاضی، نظریه بازیها و یادگیری تقویتی.
[1] . Hyperparameter
[2] . Adaptive Adversary
[3] . Modified SRAIoT1
[4] . Combinatorial Upper Confidence Bound
[5] . Routing Protocol for Low Power and Lossy Networks
[6] . Constrained Application Protocol
[7] . User Datagram Protocol
[8] . Destination-Oriented Directed Acyclic Graph
[9] . DODAG Information Objects
[10] . Destination Advertisement Object
[11] . DODAG Information Solicitation
[12] . DAO Acknowledgment