دو رویکرد برای بازشناسی متون فارسی با استفاده از شکل کلی زیركلمات ارائه شده و ضمن مقایسه آنها، مزایا و معایب استفاده از روشهای مبتنی بر شکل کلی بیان شده است. رویکرد اول بر بازشناسی زیرکلمات، بدون حذف نقاط و علائم آنها استوار است و رویکرد دوم مبتنی بر شکل بدنه زیرکلمات چکیده کامل
دو رویکرد برای بازشناسی متون فارسی با استفاده از شکل کلی زیركلمات ارائه شده و ضمن مقایسه آنها، مزایا و معایب استفاده از روشهای مبتنی بر شکل کلی بیان شده است. رویکرد اول بر بازشناسی زیرکلمات، بدون حذف نقاط و علائم آنها استوار است و رویکرد دوم مبتنی بر شکل بدنه زیرکلمات است که از حذف نقاط و علائم زیرکلمه حاصل میشود و پس از بازشناسی بدنه، اطلاعات نقاط و علائم افزوده میشود. هر دو رویکرد شامل دو مرحله آموزش و آزمایش هستند. در مرحله آموزش، زیرکلمات مجموعه آموزش، خوشهبندی میشوند. برای خوشهیابی از الگوریتم ISODATA استفاده شده و مراکز اولیه خوشهها توسط یک الگوریتم خوشهیابی سلسله مراتبی محاسبه شدهاند. در رویکرد اول، بازشناسی طی دو مرحله صورت میگیرد: یافتن خوشههای نزدیک به ورودی و یافتن نزدیکترین زیرکلمه از بین خوشههای نزدیک. در رویکرد دوم علاوه بر این مراحل، یک مرحله اضافی برای یافتن زیرکلمه نهایی بر اساس الگوی نقاط نیز وجود دارد. هر دو روش نتایج قابل قبولی روی تصاویر تمیز ارائه میدهند بهطوری که رویکرد بانقطه دقتی حدود 94% و رویکرد بدون نقطه دقتی حدود 93% در سطح کلمه ارائه میدهد. لیکن در برخورد با تصاویر کمکیفیت و نویزی دچار افت دقت میشوند که این کاهش در برخی موارد بسیار شدید است. دلایل این کاهش دقت ارزیابی شده و راهکاری برای بهبود آن ارائه شده است. همچنین ضمن مقایسه دو رویکرد، مزایا و معایب بازشناسی بر مبنای شکل کلی ارائه شده است.
پرونده مقاله