مرکز منطقه ای اطلاع رسانی علوم و فناوری فصلنامه مهندسی برق و مهندسی کامپيوتر ايران 16823745 2 2 2004 9 21 A Two Step Method for the Recognition of Printed Subwords يك روش دو مرحله‌‌اي براي بازشناسي زير- كلمات چاپي 57 62 fa احسان‌اله کبیر افشین ابراهیمی 2004 8 15 In this paper a two step method for the recognition of printed subwords is proposed. Using characteristic loci features, the set of printed subwords are clustered into 300 clusters by k-means algorithm. Each cluster is represented by its mean. In the first step, each input is classified into 300 categories by minimum Euclidian distance from the cluster centers, and 10 closest clusters are found. In the second step, Fourier descriptors of the subword contour are used to classify the input subword into the members of these 10 clusters. The training set consists of 12700 Farsi subwords in 4 different fonts, Lotus, Mitra, Yagut and Zar, and 3 sizes of 10, 12 and 14. In a test, a set of 500 subwords was used. Considering the first class, top five and top ten classes, 71.4%, 95%, and 98.2% of these subwords were correctly classified. In the post processing, dots of the subword and their positions were used to improve the recognition results. This improved the recognition rate to 92.6%. در اين مقاله يك روش دو مرحله اي براي طبقه بندي زير- كلمات چاپي فارسي ارائه شده است. زير- كلمات چاپي با استفاده از ويژگيهاي مكان مشخصه و روش k- ميانگين، به 300 خوشه تقسيم شده‌اند. از ميانگين ويژگيهاي زير- كلمات هر خوشه به عنوان نماينده آن خوشه استفاده شده است. براي يك زير- كلمه ورودي، در مرحله اول با استفاده از ويژگيهاي مكان مشخصه و فاصله اقليدسي از ميانگين خوشه ها، طبقه بندي اوليه به 300 خوشه انجام مي‌شود و 10 خوشه نزديكتر تعيين مي‌شوند. در مرحله دوم با استفاده از توصيفگرهاي فوريه كانتور، زير- كلمه ورودي به اعضاي اين 10 خوشه طبقه بندي می‌شود. مجموعه تمرين شامل زير- كلمات متداول فارسي براي چهار قلم لوتوس، ميترا، زر و ياقوت و سه اندازه 10، 12 و 14 است. در اين تحقيق از بدنه هاي بدون نقطه 12700 زير- كلمه متداول فارسي به عنوان مجموعه تمرين استفاده شده است. در يك آزمايش براي ارزيابي طبقه بندي از مجموعه اي شامل 500 زير- كلمه استفاده شد. با احتساب اولين انتخاب، پنج انتخاب اول و ده انتخاب اول به ترتيب 40/71%، 95% و 20/98% از اين زير- كلمات به درستي طبقه‌بندي شدند. در مرحله پس پردازش از نوع و ترتيب نقاط زير- كلمات براي بهبود بازشناسي آنها استفاده شد. در يك آزمايش براي بازشناسي يك مجموعه 500 زير- كلمه اي، در انتخاب اول 60/92% از آنها به درستي بازشناسي شدند.

http://ijece.org/fa/Article/Download/27830