OCR چیست؟

آموزش تعمير کامپيوتر - OCR مخفف Optical Character Recognition و يا Optical Character Reader مي باشد و آن در واقع نرم افزار متن خواني است که براي تشخيص و بازيابي الفبا و نوشته هاي دست نويس يا تايپ شده طراحي شده است.
پس با اين نرم افزار مي توان متن هاي دست نويس يا متوني را كه قبلا با ماشين تحرير تايپ شده و يا نوشته هاي چاپ شده را به صورت خودکار به متن هاي کامپيوتري تبديل نموده و در آن ذخيره کرد. يعني تبديل تصاوير کلمات به کدهاي کلمات (قابل ذخيره در داخل کامپيوتر) و مي دانيم هر متني که در کامپيوتر ذخيره شد مي توان روي آن پردازش هاي دلخواه انجام داد. مثلا آن را مي توان ويرايش کرد. يا به عنوان مثال يکي از کاربردهاي آن را مي توان تبديل حروف و نوشته هاي خطي، به خط بريل (مخصوص نابينايان) دانست و به اين ترتيب همه نوشته هاي بشر توسط نابينايان قابل خوانده شدن است.

البته استفاده از OCR تنها براي تبديل تصوير متون تايپ شده به متن تايپي نيست. بلكه هر جا شما عكسي داسته باشيد كه در قسمتي از آن حرف يا شماره اي وجود داشته باشد، نرم افزار OCR آن را تشخيص مي دهد. به عنوان مثال مي توان از آن در دوربين هاي هوشمند سرعت سنج جاده ها استفاده کرد. (توضيحات بيشتر در ساير مقالات سايت ميکرو رايانه) دوربين سرعت سنج؛ به صورت مستمر؛ سرعت خودرو ها را اندازه گيري مي کند و بعد از شناسائي خودروي متخلف، از پلاك خودرو عكس مي گيرد و حالا با استفاده از همين نرم افزار OCR و بدون دخالت انسان مي توان شماره پلاك ماشين را شناسايي كرده و در سيستم ذخيره نمود و يا آن را به مركز پليس اطلاع داد.


توضيح بيشتر

بعد از آنكه تصوير حاوي متن را اسكن مي كنيم رايانه پردازشي را بر روي تصوير انجام مي دهد. ابتدا تصوير را به قسمت ها يا Partition هاي مجزا تقسيم مي كند. بعد با استفاده از الگوريتم هاي پردازش تصوير و هوش مصنوعي حروف كاراكترهايي را از درون متن استخراج مي كند. اما ممكن است متن شما هنگام عكسبرداري چرخيده باشد. در نتيجه كامپيوتر عكس را چند درجه مي چرخاند و باز عمل قبل را بر روي آن انجام مي دهد و نتيجه را به دست مي آورد. البته در اكثر موارد كار به همين راحتي كه گفته مي شود نيست و کلي عمليات پيچيده ديگر بايد روي تصوير انجام بگيرد.
انواع OCR
در خط هاي ديگر؛ به ويژه زبان هايي كه با حروف لاتين نوشته مي شوند؛ سالهاست كه از OCR استفاده مي شود. اما در ايران چند سالي است كه استفاده از آن شروع شده است. OCR چند نوع است: OCR براي متون تايپي و OCR براي متون دست نويس. يعني نوعي که يك متن قبلا تايپ شده (مثل كتاب يا روزنامه) را مي توان وارد كامپيوتر کرد و نوعي که متن دست نويس را مي تواند بخواند.

متن هاي دست نويس هم به دو صورت گسسته و پيوسته وجود دارند: متن دست نويس پيوسته مثل همان چيزهايي است كه ما هر از گاهي كه دلمان تنگ مي شود روي كاغذ مي نويسيم، يا يك نامه، يا يك شعر و غيره. اما متن دست نويس گسسته همان نوشته هايي است كه حروف آن جدا از هم و به صورت گسسته نوشته شده اند مثل نام و نام خانوادگي كه در فرم هاي آزمون ثبت نام،‌ به صورت هر حرف داخل يك كادر نوشته مي شوند يا مثل اعداد.

خوشبختانه طراحي نرم افزار OCR گسسته فارسي در ايران مدتي است که طراحي و نوشته شده و در بعضي جاها استفاده مي شود. اما به دليل شباهت حروف فارسي و رسم الخط مشكل حروف پيوسته، مدت زمان زيادي طول خواهد کشيد تا نرم افزار OCR پيوسته براي خط فارسي نوشته شود.
منبع: ميکرو رايانه 

خدمات و محصولات صنعتی

 الکتروپمپ