متون کوتاه رسانههای اجتماعی مانند توییتر اطلاعات زیادی در مورد موضوعهای داغ و افکار عمومی ارائه میدهند. برای درک بهتر اطلاعات دریافتی از شبکههای اجتماعی، شناسایی و ردیابی موضوع امری ضروری است. در بسیاری از روشهای ارائهشده در این زمینه، تعداد موضوعها باید از پیش م چکیده کامل
متون کوتاه رسانههای اجتماعی مانند توییتر اطلاعات زیادی در مورد موضوعهای داغ و افکار عمومی ارائه میدهند. برای درک بهتر اطلاعات دریافتی از شبکههای اجتماعی، شناسایی و ردیابی موضوع امری ضروری است. در بسیاری از روشهای ارائهشده در این زمینه، تعداد موضوعها باید از پیش مشخص باشد و نمیتواند در طول زمان تغییر کند. از این منظر، این روشها برای دادههای در حال افزایش و پویا مناسب نیستند. همچنین مدلهای تکاملی موضوعی غیر پارامتری به دلیل مشکل کمبود دادهها، بر روی متون کوتاه عملکرد مناسبی ندارند. در این مقاله، یک مدل خوشهبندی تکاملی جدید ارائه کردهایم که به طور ضمنی از فرایند رستوران چینی وابسته به فاصله (dd-CRP) الهام گرفته است. در روش ارائهشده برای حل مشکل کمبود دادهها، از اطلاعات شبکه اجتماعی در کنار شباهت متنی، برای بهبود ارزیابی شباهت بین توییتها استفاده شده است. همچنین در روش پیشنهادی، برخلاف اکثر روشهای مطرحشده در این زمینه، تعداد خوشهها به صورت خودکار محاسبه میشود. در واقع در این روش، توییتها با احتمالی متناسب با شباهتشان به هم متصل میشوند و مجموعهای از این اتصالها یک موضوع را تشکیل میدهد. برای افزایش سرعت اجرای الگوریتم، از یک روش خلاصهسازی مبتنی بر خوشهبندی استفاده نمودهایم. ارزیابی روش بر روی مجموعه داده واقعی که در طول دو ماه و نیم از شبکه اجتماعی توییتر جمعآوری شده است، انجام میشود. ارزیابی به صورت خوشهبندی متون و مقایسه بین آنها میباشد. نتایج ارزیابی نشان میدهد که روش پیشنهادی نسبت به روشهای مقایسهشده دارای انسجام موضوعی بهتری بوده و میتواند به طور مؤثر برای تشخیص موضوع بر روی متون کوتاه رسانههای اجتماعی استفاده گردد.
پرونده مقاله