استخراج النصوص من الصور إلى ملف TXT على لينكس [OCR]

KK_OCR@1024

في أحيان كثيرة قد نرغب بالحصول على النصوص الموجودة داخل الصور، ولكننا لا نجد السبيل إلى القيام بذلك، مما يضطرنا إلى القيام بنقل وإعادة كتابة النصّ الموجود داخل الصور، وهو أمر غير عملي، وقد يكون مضيعة لوقتك.

في هذا الدرس سوف نتعلم كيف نقوم بعمل استخراج (تحويل) للكلام أو النص المكتوب داخل الصورة، وسوف يتم تحويله إلى ملف بتنسيق نصّي (.txt)، وهو بالتالي قابل للتعديل والنسخ واللصق وغيرها…، وذلك باستخدام برنامج يُدعى (OCR)، أو بالتحديد (Tesseract-ocr)، وهو يعمل من خلال سطر اﻷوامر “الطرفية”، ولكنه سهل جدًا، وهو متوفر على معظم توزيعات لينكس.

1. لتثبيت البرنامج على Ubuntu\LinuxMint وبناتها، افتح الطرفية والصق اﻷمر اﻵتي:

sudo apt-get install tesseract-ocr

2. الصق اﻷمر اﻵتي، لتثبيت حزمة دعم اللغة العربية:

sudo apt-get install tesseract-ocr-ara

3. بعد الانتهاء من التثبيت، اكتب اﻷمر اﻵتي:

cd FolderName

* ملاحظة: استبدل FolderName باسم المجلد الذي تتواجد فيه الصورة المطلوب تحويلها إلى نصّ؛ على فرض أنها موجودة في مجلد التنزيلات، اكتب cd Downloads ، وهكذا…

4. اﻵن حان وقت التحويل، اكتب اﻷمر اﻵتي (*هذا اﻷمر إذا كانت الصورة تحوي نصًا إنجليزيًا فقط) :

tesseract photo.png output

* ملاحظة 1: استبدل photo.png بالاسم الكامل للصورة مع صيغتها كما هي.

* ملاحظة 2: يمكنك أيضا تغيير اسم الملف الذي سيتم استخراجه، من خلال تعديل كلمة output إلى أيّ كلمة تريدها.

5. أما إذا كنت تريد تحويل نصّ عربي، فيجب لصق اﻷمر اﻵتي، طبعا لا تنسَ تغيير اسم الصورة كما أشرنا أعلاه:

tesseract photo.png output -l ara

6. انتهى! اﻵن ستجد الملف النصي (*.txt) المُستخرج متواجدًا في نفس المجلد الذي يحوي الصورة.

* ملاحظة: في الواقع لم أجد طريقة لتحويل النصوص الممزوجة (عربي+إنجليزي، معًا)، إذا كانت لديك الطريقة فلا تتردد بطرحها في التعليقات!

مشاركة