SlideShare une entreprise Scribd logo
1  sur  7
‫الجدول‬‫رقم‬1:‫فصل‬‫الكلمات‬‫في‬‫النص‬‫النجليزي‬
‫استدعاء‬=100x a/ (a+ c(‫ودقة‬‫محددة‬‫كدقة‬=100X a/ (a+ b.(
‫سيحتوي‬‫النموذج‬‫المثالي‬‫على‬‫استدعاء‬‫ودقة‬100.%
‫يكون‬‫المقياس‬‫الكثر‬‫شيوعا‬‫متوفرا‬‫عند‬‫تقييم‬‫نماذج‬‫تصحيح‬،‫النص‬‫وعند‬‫إمكانية‬
‫مقارنة‬‫النص‬‫معالج‬ُ ‫ال‬‫بشكل‬‫مباشر‬‫مع‬‫النص‬‫الصلي‬.( )‫ويمكن‬ ‫الصحيح‬‫تحديد‬
‫الفرق‬‫بين‬‫هذين‬‫النصين‬‫من‬‫خلل‬‫تعديل‬‫المسافة‬‫بينهم‬)‫كورمين‬‫إت‬.، ‫أل‬1990.(
‫وقد‬‫تم‬‫تعريف‬‫مسافة‬‫التعديل‬‫بين‬،‫ركيزتين‬‫المعامل‬x‫والمعامل‬y،‫بأنها‬‫تسلسل‬
‫التحول‬‫الدنى‬‫الذي‬‫يحول‬‫المعامل‬x‫إلى‬‫المعامل‬y.‫ونحن‬‫نعرف‬‫الدقة‬‫بأنها‬
100–100x e/m،‫حيث‬e‫هي‬‫مساحة‬‫التعديل‬‫بين‬‫النص‬‫مصحح‬ُ ‫ال‬‫والنص‬
،‫الصلي‬‫و‬M‫هي‬‫عدد‬‫الرموز‬‫الموجودة‬‫في‬‫النص‬.‫عمليات‬ ‫الصلي‬‫التحويل‬:‫هي‬
‫حذف‬،‫رمز‬‫إدخال‬‫رمز‬،‫جديد‬‫وتغيير‬‫رمز‬‫إلى‬.‫ولقد‬ ‫آخر‬‫افترضنا‬‫تكاليف‬‫متساوية‬
‫لكل‬.‫على‬ ‫تحويل‬‫سبيل‬،‫المثال‬‫مساحة‬‫تعديل‬‫بين‬)Eloplicinsons and
Hokinsons(‫هي‬4.‫وتسلسل‬‫العمليات‬‫التي‬‫تؤدي‬‫هذا‬‫التحويل‬:‫حذف‬ ‫هو‬E،
‫وتغيير‬I‫إلى‬H،‫حذف‬I،‫وتغيير‬c‫إلى‬k.
1.5‫تجزئة‬( )‫الكلمة‬ ‫فصل‬
‫لدى‬‫اللغة‬‫النجليزية‬‫علم‬‫هجائي‬‫أبجدي‬‫وتباعد‬‫بين‬،‫الكلمات‬‫على‬‫عكس‬‫اللغات‬
‫الخرى‬‫مثل‬‫اليابانية‬‫أو‬،‫الصينية‬‫لذا‬‫فإنها‬‫لغة‬‫سهلة‬‫نسبيا‬‫لتعتمد‬" "‫كوحدة‬ ‫الكلمة‬
‫أساسية‬‫باستخدام‬‫مسافة‬‫فارغة‬‫وعلمات‬‫تنقيط‬‫متنوعة‬.‫كمحددات‬
‫إن‬‫تجزئة‬( )‫الكلمة‬ ‫فصل‬‫هي‬‫عملية‬‫هامة‬‫ومطلوبة‬‫للتطبيقات‬‫التي‬‫تبدأ‬‫بتمثيل‬
،‫هجائي‬‫مثل‬‫التعرف‬‫على‬،‫الكلم‬‫أو‬‫عملية‬‫الكتابة‬‫الصوتية‬‫اللية‬‫لشفرة‬.‫مورس‬
‫ولقد‬‫قدم‬‫بونتو‬‫وكروفت‬)1996(‫طريقة‬)USeg(‫من‬‫أجل‬‫توقع‬‫مواقع‬‫المسافة‬
‫وفحصوا‬‫أداءها‬‫باستخدام‬‫مستخرج‬‫حجم‬500‫كيلو‬‫بايت‬‫من‬‫صحيفة‬‫وال‬.‫ستريت‬
Useg‫هو‬‫نموذج‬‫يعتمد‬‫على‬‫الكلمة‬‫تم‬‫تدريبه‬‫على‬‫نص‬‫حجم‬1‫جيجا‬،‫بايت‬‫وقدم‬
‫استدعاء‬‫بنسبة‬93.54%‫ودقة‬‫بنسبة‬90.03.%
‫وتقدم‬‫استخدام‬‫طريقة‬‫رموز‬PPM‫المعتمدة‬‫على‬‫الرموز‬‫في‬‫نفس‬‫الحضار‬
( )‫كل‬ ‫كوربوس‬‫من‬‫معدلت‬‫الستدعاء‬‫والدقة‬‫بنسبة‬99.51%،‫مع‬‫دقة‬‫مساحة‬
‫تعديل‬‫بنسبة‬99.04.%‫ولم‬‫يستخدم‬‫هذا‬‫التحسين‬‫لنتائج‬‫بونت‬‫وكروفت‬‫إل‬‫جزء‬
‫صغير‬‫فقط‬‫من‬‫نصوص‬.‫تدريبهم‬
‫يظهر‬‫الجدول‬‫رقم‬1‫مثال‬‫مستخدم‬‫من‬‫قبل‬‫بونت‬‫وكروفت‬‫مع‬‫إضافة‬‫التوقعات‬
‫المقدمة‬‫التي‬‫قدمها‬PPM.
‫جدول‬‫رقم‬2:‫تصحيح‬PPM‫لنص‬OCR
‫إن‬‫التحسن‬‫الذي‬‫يقدمه‬‫نموذج‬PPM‫واضح‬‫في‬‫هذا‬‫المثال‬.‫وعلى‬ ‫البسيط‬‫الرغم‬
‫من‬‫أن‬‫الكلمة‬Micronite‫ل‬‫تحدث‬‫في‬The brown Corups،‫فإنه‬‫تم‬/‫فصل‬ ‫تجزئة‬
‫الكلمة‬‫بشكل‬‫صحيح‬‫باستخدام‬PPM.‫وعلى‬‫نحو‬،‫مماثل‬‫تم‬‫تجزئة‬‫الكلمة‬inits
‫إلى‬‫كلمتي‬in‫و‬its.‫وفي‬‫هذا‬،‫المثال‬‫فإن‬PPM‫قد‬‫تلفي‬.‫لم‬ ‫خطآن‬‫تكن‬
‫المسافة‬‫في‬Loews Corp‫متوقعة‬‫لن‬Loews Corp‫تطلبت‬54.3‫لترميز‬‫النص‬
‫بينما‬‫تتطلب‬‫النص‬‫الصلي‬55.0.‫وبشكل‬ ‫بت‬،‫مماثل‬‫أضيفت‬ُ‫مساحة‬‫إ‬‫ضافية‬‫في‬
crocidolite‫لن‬‫المسافة‬‫قللت‬‫عدد‬‫البتات‬‫ليتم‬‫تشفيرها‬‫من‬57.7‫لـ‬55.3.‫بت‬
2.5‫تصحيح‬‫نص‬OCR
‫من‬‫خلل‬،‫المقارنة‬‫فإن‬‫نتاج‬‫التصحيح‬‫الناتج‬‫عن‬‫نظام‬OCR‫هو‬‫مشكلة‬‫أكثر‬
.‫وفي‬ ‫صعوبة‬‫هذا‬،‫القسم‬‫نقدم‬‫نموذج‬PPM‫لنتاج‬‫نظام‬‫تعريف‬‫الرموز‬‫التجارية‬
OmniPage 7.0،‫في‬‫محاولة‬‫لتصحيح‬‫أخطاء‬.‫من‬ ‫بسيطة‬‫الناحية‬،‫المثالية‬‫فإنه‬‫قد‬
‫يضمن‬ُ‫النموذج‬PPM‫في‬‫نظام‬OCR،‫لكي‬‫يتم‬‫تمكين‬‫الوصول‬‫للتوزيع‬‫الحتمالي‬
‫الكامل‬‫من‬‫خلل‬‫الرموز‬.‫ولكن‬ ‫المختلفة‬‫مع‬،‫السف‬‫لم‬‫تكن‬‫تلك‬‫المعلومة‬
‫متوفرة‬‫في‬‫أثناء‬‫تحليلنا‬‫النتاج‬‫في‬‫مرحلة‬‫ما‬‫بعد‬.‫المعالجة‬
‫كانت‬‫الصور‬‫المطلوبة‬‫لتلك‬‫التجربة‬‫محولة‬‫للصيغة‬‫الرقمية‬‫في‬150‫نقطة‬‫من‬
‫البوصة‬‫من‬‫النسخة‬‫الصلية‬‫لقصة‬‫ـجيفرسون‬‫الفيرجيني‬‫المطبوعة‬‫سنة‬1948
)‫المجلد‬‫الول‬‫لجيفرسون‬‫مالون‬.(‫ولقد‬ ‫وزمانه‬‫استخدمت‬،‫الصفحات‬‫بشكل‬
،‫فوري‬‫لتدريب‬‫نماذج‬‫الخلط‬‫المأخوذة‬‫من‬‫الفصول‬)‫حتى‬‫الصفحة‬89(‫قبل‬‫الفصل‬
‫الخير‬‫في‬‫جيفيرسون‬.‫واحتوت‬ ‫الفرجيني‬‫تلك‬‫الصفحات‬‫على‬32.000‫كلمة‬)185
.(‫واستخدم‬ ‫كيلوبايت‬‫نظام‬‫نموذج‬PPMD 5‫المستخدم‬‫في‬‫نص‬‫براون‬‫كوربوس‬
‫لتدريب‬‫نموذج‬‫اللغة‬.‫النجليزية‬
‫نحن‬‫نعرف‬‫الخلط‬‫على‬‫أنه‬‫التحويل‬‫المطلوب‬‫لتصحيح‬‫تسلسل‬‫عدد‬‫صغير‬‫للرموز‬
‫في‬.‫نحن‬ ‫النص‬‫نستخدم‬‫طريقة‬)‫المرصود‬( >--‫للشارة‬ ‫المصحح‬‫إلى‬‫تحول‬
‫الرتباك‬‫من‬‫النص‬‫المرصود‬‫إلى‬‫النص‬:‫على‬ ‫مصحح‬ُ ‫ال‬‫سبيل‬،‫المثال‬Ic---< K
‫يرمز‬‫إلى‬‫أن‬‫الرسم‬‫البياني‬Ic‫مصحح‬‫للحرف‬k.‫ومن‬‫أجل‬‫حد‬‫البحث‬‫المطلوب‬
‫من‬‫خلل‬‫خوارزمية‬،‫فيتربي‬‫تم‬‫تجاهل‬‫الخلط‬‫الذي‬‫يحدث‬‫مرة‬‫واحد‬،‫فقط‬‫أو‬
‫يحتوى‬‫على‬.‫مساحة‬
‫تظهر‬‫أمثلة‬‫الخطاء‬‫الموجودة‬‫في‬‫الصفحات‬‫الثلث‬‫الول‬‫للثلثة‬‫فصول‬‫الول‬‫في‬
‫الجدول‬‫رقم‬2) .‫بالترتيب‬‫الوارد‬‫في‬.(‫وتظهر‬ ‫النص‬‫مستخرجات‬‫من‬‫جزء‬‫من‬‫تلك‬
‫الصور‬‫المرتبطة‬‫بالمثلة‬‫في‬‫العمود‬.‫بعض‬ ‫الول‬‫الصور‬‫المنحرفة‬‫بشكل‬،‫طفيف‬
‫هي‬‫تأثير‬‫جانبي‬‫من‬‫كيفية‬‫وضع‬‫الصفحات‬‫في‬‫الماسح‬.‫الضوئي‬
‫يدرج‬‫الجدول‬‫رقم‬3‫مثال‬‫عن‬‫الخلط‬‫الذي‬‫تم‬‫تعلمه‬‫من‬‫بيانات‬‫تدريب‬.‫كما‬ ‫الخلط‬
‫يظهر‬‫تكرار‬‫كل‬‫من‬‫التحولت‬‫الصحيحة‬‫وغير‬.‫على‬ ‫الصحيحة‬‫سبيل‬،‫المثال‬‫تم‬
‫استبدال‬‫الحرف‬El‫التي‬‫تكرر‬‫ست‬‫مرات‬‫في‬‫بيانات‬‫التدريب؛‬‫بشكل‬‫غير‬‫صحيح‬
‫مرتين‬‫إلى‬‫الحرف‬‫الواحد‬H،‫وتم‬‫تعريفه‬‫بشكل‬‫صحيح‬‫أربع‬.‫يرتبط‬ ‫مرات‬‫هذا‬
‫الخلط‬‫بتصحيحات‬‫المثلة‬‫الموضحة‬‫في‬‫الجدول‬‫رقم‬2.
‫وتأتي‬‫كافة‬‫تصحيحات‬‫الكلمات‬)‫مثل‬‫كلمة‬Americam‫إلى‬‫كلمة‬American،
‫وكلمة‬Fotty-one‫إلى‬‫كلمة‬Forty-one،‫وكلمة‬chat‫إلى‬that،‫وكلمة‬
Ammapolis‫إلى‬Annapolis‫وكذلك‬‫كلمة‬hut‫إلى‬‫كلمة‬)but‫في‬‫كافة‬‫المقاطع‬
‫من‬‫خلط‬‫حرف‬‫واحد‬)‫مثل‬m‫إلى‬n، t‫إلى‬r(،‫في‬‫حين‬‫تكون‬‫تصحيحات‬‫كلمة‬
seal‫هي‬seat،)‫بما‬‫يشمل‬‫الفاصلة‬(، ‫الضافية‬‫وكلمة‬Eloplcinsons‫هي‬
Hopkinsons،‫وكلمة‬fumre‫هي‬‫كلمة‬future،‫وحرف‬m‫هو‬in.‫كان‬‫تصحيح‬
‫حرف‬v"‫في‬concetntd) "‫الخط‬3‫في‬‫الرسم‬" (‫و‬ ‫البياني‬elecclon) "‫الخط‬4(،
‫نجاحا‬‫جزئيا‬‫لن‬‫الخلط‬‫المطلوب‬‫لتصحيح‬‫تلك‬‫الخطاء‬)،‫مثال‬t‫إلى‬e، l‫إلى‬i(‫لم‬
‫يتم‬‫رؤيته‬‫مرتين‬‫على‬‫القل‬‫في‬‫بيانات‬‫التدريب‬)‫وبالتالي‬‫ل‬‫تحدث‬‫في‬‫الجدول‬3.(
‫يظهر‬‫الشكل‬1‫كيف‬‫أن‬‫عدد‬‫الخلط‬‫يزيد‬‫كلما‬‫زاد‬‫عدد‬‫صفح‬.‫ويظهر‬ ‫التدريب‬
‫الشكل‬2‫كيف‬‫تختلف‬‫مسافة‬‫التعديل‬‫التي‬‫تحدث‬‫بين‬‫النتاج‬‫مصحح‬ُ ‫ال‬‫لـ‬PPM
‫والنص‬‫الصحيح‬‫الصلي‬‫مع‬‫عدد‬‫صفح‬.‫التدريب‬
‫بعد‬90،‫صفحة‬‫قلت‬‫مسافة‬‫التعديل‬‫بالنسبة‬‫للنص‬... " "‫الصحيح‬
‫عدد‬
‫الخلط‬
‫عدد‬‫صفحات‬‫التدريب‬
‫من‬1756‫إلى‬1468،‫زيادة‬‫في‬‫الدقة‬‫من‬96.28%‫إلى‬96.89.%
‫يظهر‬ُ‫الشكل‬3‫نقص‬‫مساحة‬‫التعديل‬‫الحادثة‬‫بين‬‫النص‬‫الصحيح‬‫مصحح‬ُ ‫وال‬
‫بالترتيب‬‫في‬‫النموذج‬4‫و‬5‫ونص‬‫التدريب‬‫مختلف‬.‫يتم‬ ‫الحجم‬‫رسم‬‫المحور‬x
‫باستخدام‬‫مقياس‬.‫يظهر‬ُ ‫و‬ ‫لوغاريتمي‬‫الرسم‬‫البياني‬‫أن‬‫نموذج‬‫النظام‬5‫يحقق‬ُ
‫تصحيح‬‫خطأ‬‫أفضل‬‫بشكل‬‫قليل‬‫من‬‫نموذج‬‫النظام‬4.‫وتبلغ‬‫نسبة‬‫التحسن‬‫حوالي‬
4%‫بعد‬‫تدريب‬‫على‬5.6‫ميجا‬.‫بايت‬
6‫الملخص‬‫والستنتاج‬
‫لقد‬‫قدمنا‬‫طريقة‬‫تصحيح‬‫الخطاء‬‫في‬‫النص‬‫النجليزي‬‫اعتمادا‬‫على‬‫نموذج‬PPM.
‫ولقد‬‫تم‬‫تطبيق‬‫هذه‬‫الطريقة‬‫على‬-‫فصل‬ ‫مشكلتين‬‫حروف‬‫في‬‫النص‬،‫النجليزي‬
‫وتحسين‬‫النتاج‬‫من‬‫نظام‬OCR.‫وكانت‬ ‫التجاري‬‫دقة‬‫فاصل‬‫الحروف‬PPM
99.04%‫مع‬‫استدعاء‬‫ودقة‬‫بـ‬99.52.%‫بشكل‬،‫جوهري‬‫تطلب‬‫استخدام‬‫الرمز‬
‫القائم‬‫على‬‫النموذج‬‫نصوص‬‫تدريب‬‫أقل‬‫من‬‫الطرق‬‫الخرى؛‬‫على‬‫سبيل‬،‫المثال‬‫تم‬
‫العثور‬‫على‬‫الـ‬5.6‫ميجا‬‫بايت‬‫براون‬‫كروبس‬‫للداء‬‫بشكل‬‫أفضل‬‫من‬‫النموذج‬
‫السابق‬‫الذي‬‫تم‬‫نشره‬‫والمدرب‬‫على‬1‫ميجا‬‫بايت‬.‫للنص‬
‫من‬‫خلل‬‫تطبيق‬‫نموذج‬PPM‫إلى‬‫تصحيح‬‫النطق‬OCR،‫ولقد‬‫تمكنا‬‫من‬‫تحسين‬
‫دقة‬‫مساحة‬‫التعديل‬‫من‬96.3%‫إلى‬96.9%‫والتي‬‫قللت‬‫من‬‫نسبة‬14‫أ‬ً ‫خط‬‫في‬
‫كل‬.‫صفحة‬
‫تشير‬‫الخبرة‬‫السابقة‬‫مع‬‫النماذج‬‫المستخدمة‬‫لمقارنة‬‫النص‬‫أن‬‫تلك‬‫النتائج‬‫يمكن‬
‫تحسينها‬‫بشكل‬‫جوهري‬‫من‬‫خلل‬‫استخدام‬‫نصوص‬‫تدريب‬.‫وبالنسبة‬ ‫أكثر‬‫لـ‬
OCR،‫سيكون‬‫من‬‫المهم‬‫بشكل‬‫كبير‬‫جدا‬‫زيادة‬‫حجم‬‫بيانات‬‫تدريب‬.‫ولقد‬ ‫الخلط‬
‫تم‬،‫النتهاء‬‫وبشكل‬،‫رئيسي‬‫من‬‫استبعاد‬‫الخلط‬‫الذي‬‫حدث‬‫لمرة‬‫أو‬‫يحتوي‬‫على‬
‫مسافات‬‫من‬‫أجل‬‫تقليل‬‫المساحة‬‫والوقت‬‫المستهلك‬‫لخوارزمية‬.‫نحن‬ ‫فيرتبي‬‫نعمل‬
‫على‬‫تحسين‬‫كفاءة‬‫تطبيقتنا‬‫ونفترض‬‫أن‬‫استخدام‬‫بيانات‬‫خلط‬‫أكثر‬‫سيعمل‬‫على‬
‫زيادة‬‫تحسين‬.‫دقتها‬
‫دقة‬
‫مسافة‬‫التعديل‬
‫عدد‬‫صفحات‬‫التدريب‬
‫شكل‬2:‫كيف‬‫أن‬‫التدريب‬‫على‬‫الخطاء‬‫الناتجة‬‫عن‬‫نتاج‬Omnipages‫يؤثر‬‫على‬
‫النتاج‬PPM.‫المصحح‬
‫دقة‬
‫مسافة‬‫التعديل‬
‫حجم‬‫نص‬‫التدريب‬( )‫بالبايت‬
‫شكل‬3:‫كيف‬‫تختلف‬‫دقة‬‫مسافة‬‫التعديل‬‫لنماذج‬‫تنظيم‬‫مختلفة‬‫ونصوص‬‫تدريب‬
‫مختلفة‬.‫الحجم‬

Contenu connexe

Plus de Diaa Toma

Chinese A Cert.
Chinese  A Cert.Chinese  A Cert.
Chinese A Cert.Diaa Toma
 
Bachelor of Arts
Bachelor of ArtsBachelor of Arts
Bachelor of ArtsDiaa Toma
 
Prescription 1
Prescription 1Prescription 1
Prescription 1Diaa Toma
 
Hospitality 1
Hospitality 1Hospitality 1
Hospitality 1Diaa Toma
 
Medical AR into EN 2
Medical AR into EN 2Medical AR into EN 2
Medical AR into EN 2Diaa Toma
 
Story 4 of 4_DN_0916 (Diaa)
Story 4 of 4_DN_0916 (Diaa)Story 4 of 4_DN_0916 (Diaa)
Story 4 of 4_DN_0916 (Diaa)Diaa Toma
 

Plus de Diaa Toma (12)

Chinese A Cert.
Chinese  A Cert.Chinese  A Cert.
Chinese A Cert.
 
Bachelor of Arts
Bachelor of ArtsBachelor of Arts
Bachelor of Arts
 
Prescription 1
Prescription 1Prescription 1
Prescription 1
 
Medical 2
Medical 2Medical 2
Medical 2
 
Hospitality 1
Hospitality 1Hospitality 1
Hospitality 1
 
Medical AR into EN 2
Medical AR into EN 2Medical AR into EN 2
Medical AR into EN 2
 
Legal 1
Legal 1Legal 1
Legal 1
 
News 2
News 2News 2
News 2
 
News 3
News 3News 3
News 3
 
Story 4 of 4_DN_0916 (Diaa)
Story 4 of 4_DN_0916 (Diaa)Story 4 of 4_DN_0916 (Diaa)
Story 4 of 4_DN_0916 (Diaa)
 
Article 2
Article 2Article 2
Article 2
 
Medical 1
Medical 1Medical 1
Medical 1
 

Research studies 1