محاضرة ألقيت في ندوة الأدوات الحديثة لفهرسة وتكشيف مصادر المعلومات في البيئة الرقمية والتي أقامها المعهد العالي للتوثيق بالتعاون مع الاتحاد العربي للمكتبات والمعلومات (اعلم)، تونس، ابريل 2013
3. مفاهيم ومصطلحات
الكشاف :Index
الكشاف بمعناه العام هو ما يكشف عما هو مغمور أو مجهول
في وسط معين.
) هنري دليل أو مؤشر إلى موقع المعلومات التي نبحث عنها.
هويتلي(
دليل منظم يرشد إلى ما يمكن البحث عنه أو استرجاعه، من
مفردات أو حقائق أو معلومات أو نصوص أو وثائق، أو بدائل
النصوص والوثائق. ) حشمت قاسم(
تتلخص وظائف الكشاف في:
التحقق من المعلومات التي يمكن أن تكون متصلة بموضوع ما،
وتحديد موقعها في الوثيقة و أو الوثائق المكشفة.
/
استبعاد الحالت التي يرد فيها ذكر الموضوعات على نحو عابر،
ول تقدم شيئا يذكر للمستفيد.
4. ) تابع ( مفاهيم ومصطلحات
وظائف الكشاف ) تابع(:
بيان ما بين الموضوعات من علقات.
توجيه المستفيدين المستفيدين للمصطلحات الكشفية
المستخدمة بديل عن المصطلحات التي يبحثون بها.
توجيه المستفيدين نحو موضوعات يمكن البحث عنها أيضا
وتتصل بالموضوع.
Indexing Lلغة التكشيف anguage
مجموعة الرموز أو المصطلحات أو المفردات التي تشكل اللغة
المستهدفة التي تترجم إليها المفاهيم الدالة على المحتوى
الموضوعي للوثيقة الوثائق، بمعنى أنها تمثل المداخل
/
الموضوعية لسترجاع الوثيقة
لغة التكشيف أيا كان شكلها ونوعها هي الساس في نظام
المضاهاة والسترجاع الموضوعي لوثائق.
5. ) تابع ( مفاهيم ومصطلحات
هناك نوعين من التكشيف في نظم السترجاع:
التكشيف بالتعيين:
يعتمد على الجهد الفكري للمكشف في تحديد عناصر المحتوى
الموضوعي للوثيقة ثم اختيار المصطلحات أو الرموز الكشفية
الدالة عليها،
يعتمد في الساس على لغة مقيدة ) مكنز، خطة تصنيف، قائمة
رءوس موضوعات(
التكشيف الشتقاقي أو بالشتقاق:
وفيه تقتبس أو تشتق جميع المصطلحات أو الواصفات
الموضوعية من الوثيقة أو الوثائق المكشفة، فهو يعتمد في
الساس على اللغة الطبيعية
6. خطوات التحليل الموضوعي
الخطوة الولى ، تحليل المفاهيم أو تحليل محتوى مصدر
المعلومات:
تهتم بفحص وتصفح مصدر المعلومات بهدف تحديد المفاهيم
والفكار التي يتناولها المصدر.
الخطوة الثانية ، ترجمة أو التعبير عن ناتج التحليل:
تهتم بالتعبير عن ناتج تحليل المفاهيم باستخدام مجموعة من نقاط
الوصول الموضوعية أو مؤشرات المحتوى )مصطلحات، رموز،
عبارات أو جمل(
يتم الحصول عليها إما من لغة مصدر المعلومات نفسه أو من لغة
استفسارات وأسئلة المستفيدين، أو تعيينها من لغة أخرى خارج
نطاق مصدر المعلومات.
الخطوة الثالثة: الربط بين نقاط الوصول الموضوعية وبين
مصدر المعلومات:
8. (نظم التسترجاع )تابع
INFORMATION NEED DOCS. DOCUMENTS
User Interface
QUERY SELECT DATA FOR
INDEXING
RESULTS
QUERY PROCESSING RESULT PARSING & TERM
(PARSING & TERM REPRESENTATION PROCESSING
PROCESSING)
RANKING
LOGICAL VIEW OF THE SEARCHING
INFORM. NEED INDEX
17. خصائص مصادر )الوثائق( الويب
كم ضخم من البيانات، والنمو المستمر، ارتفاع معدل تغير
تنوع كبير وعدم التجانس:
جودة ومصداقية المصادر
الوثائق الثابتة في مقابل الديناميكية
أنواع مختلفة من الوسائط ) نص، صور، صوت، الفيديو(
صيغ مختلفة من الملفات ) (…، H M ،flash ،P
T L DF
تنوع في الموضوعات، واللغات
العلنات
النص الفائق ) التشعبي( ، والرتباط ، linkingوالروابط
B المعطلة roken
التكرار Redundancy
موزعة
18. تكشيف الويب
يعتمد تكشيف الويب وما تحتويه من صفحات ومواقع على
اختلف أنواعها على أساليب التكشيف اللي حيث أنه
السلوب الذي يتناسب مع طبيعة الويب من حيث الحجم
، Sizeوالتساع ، scalabilityوالتحديث Updateالمستمر
لمحتواها.
(Lالحاجة إلى التكشيف وصف لينش ) ynch,1996,Online
اليدوي والتكشيف اللي على أنهما ضرورة تفرضها تنوع
احتياجات المستفيدين وتنوع مصادر الويب، حيث يرى أن
مهارات التصنيف والختيار الدقيق التي يمتلكها المكتبيون
لبد أن يكملها قدرات وإمكانيات علماء الحاسب اللي في
ميكنة عمليات التكشيف وتخزين المعلومات.
Indexing Mأساليب التكشيف ethods
19. أول : التكشيف بواسطة الناشرين علي الويب
يتولى الفراد أو المؤسسات التي تضع صفحات معلومات
علي الويب تكشيف محتويات هذه الصفحات بواسطة
مجموعة من الكلمات المفتاحية أو الدللية التي تصف بدقه
محتويات هذه الصفحات والتي يمكن أن تستخدم عند
تكشيف هذه الصفحات من خلل محركات البحث.
يتيح أسلوب لتوجيه محركات البحث عند تكشيف هذه
الصفحات.
(Mأحد اكواد لغة تكويد يعد كود تاج الميتا ) eta T
ag /
النصوص الفائقة H Mمن أكثر الوسائل التي يعتمد عليها
T L
ناشري الويب لعداد ميتاداتا تساعد علي وصف المحتوي
الموضوعي لتك الصفحات ) مثل: تاج الكلمات المفتاحيه
، Kوتاج الوصف (Description eywords
20. أول : التكشيف بواسطة الناشرين علي الويب
) تابع (
خداع محركات البحث
مشكلة تكشيف صفحات الويب تتمثل في قدرة ناشري الويب على
معالجة الترتيب من خلل وضع كلمات مفتاحية مكررة في الصفحات
لخداع محركات البحث، وهو ما يشار إليه بالعديد من المصطلحات
E) مثل: ،ngine Search Persuasion ،Stuffing ،Spam-Indexing
.(Keyword Spam
تتجاهل العديد من محركات البحث تكشيف الميتاداتا نظرا لنهم
يعتبروه حقل مخادع وغير حقيقي.
من أنواع التكشيف بواسطة البشر:
واصفات البيانات ) الميتاداتا(
التوسيم والفوكسونومي
21. ثانيا : التكشيف فى محركات البحث
تعمل محركات البحث على بناء كشافات لمصادر المعلومات
المنشورة على الويب من خلل اشتقاق كلمات أو عبارات من
النصوص نفسها لبناء ملفات تسمح ببحث هذه المشتقات
بالعتماد على أساليب البحث والسترجاع المعروفة ) مثل:
المنطق البولينى، وتجاور المصطلحات، والبتر، الخ(.
أن هذه الملفات ليست أكثر من الملفات المقلوبة التقليدية
التي استخدمت في السترجاع منذ أن حل السترجاع
العشوائي محل السترجاع التسلسلي.
23. ? How far do people look for results
(Source: iprospect.com WhitePaper_2006_SearchEngineUserBehavior.pdf)
24. محركات البحث
تأتي محركات البحث على رأس أدوات البحث والسترجاع
للمحتوى على الويب:
نسبة استخدام تقارب 48% من اجمالي إجراءات البحث عن
المحتوى,
بلغ عدد الستفسارت الموجه إلى محركات البحث نحو 051 مليون
استفسار في اليوم الواحد،
%04 من المستخدمين يصلون إلى محتوى الويب من خلل نتائج
محركات البحث .
ومع ذلك:
تكشف فقط نحو 61% من محتوى الويب القابل للتكشيف
%08 من المستخدمين ليتجاوزا استخدام أول صفحيتين من نتائج
محركات البحث
بلغت نسبة التكرار في استرجاع المحتوى بين محركات البحث بعضها
البعض نحو 9.48%
25. Standard Web Search Engine Architecture
Sponsored Links
CG Appliance Express
Discount Appliances (650) 756-3931
Same Day Certified Installation
User
www.cgappliance.com
San Francisco-Oakland-San Jose,
CA
Miele Vacuum Cleaners
Miele Vacuums- Complete Selection
Free Shipping!
www.vacuums.com
Miele Vacuum Cleaners
Miele-Free Air shipping!
All models. Helpful advice.
www.best-vacuum.com
Web Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds)
Miele, Inc -- Anything else is a compromise
At the heart of your home, Appliances by Miele. ... USA. to miele.com. Residential Appliances.
Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System ...
www.miele.com/ - 20k - Cached - Similar pages
Web spider Miele
Welcome to Miele, the home of the very best appliances and kitchens in the world.
www.miele.co.uk/ - 3k - Cached - Similar pages
Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this
page ]
Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit
...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes.
www.miele.de/ - 10k - Cached - Similar pages
Herzlich willkommen bei Miele Österreich - [ Translate this page ]
Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch
weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE ...
www.miele.at/ - 3k - Cached - Similar pages
Search
Indexer
The Web
Indexes Ad indexes
26. بنية محرك البحث SE Architecture
الزواحف : T crawler
he
برنامج يعمل على توفير المحتوى لمحرك البحث حيث يقوم بتتبع
الروابط الفائقة بين المواقع للوصول إلى الصفحات التي تشتمل
على المحتوى. ثم استخراج URLواعطائها إلى وحدة التحكم
s
للزاحف.
وحدة التحكم للزاحف : Crawler Control
تحديد أي الروابط الفائقة التي سيتم زيارتها مستقبل وتغذية الزاحف
بالخوارزميات الخاصة بعملية الزحف.
وحدة تحليل المجموعات :Collection analysis module
مسئولة عن انشاء الكشافات من واقع تحليل الوثائق وتحديد طبيعة
البني التكوينية للوثائق.
27. بنية محرك البحث ) تابع (
المكشف : Indexerيشتمل على ثلثة أنماط من الكشافات.
كشافات النص : text indexيشتمل على الكلمات المفتاحية
والعناوين والجمل الدللية الواردة في محتوى الوثيقة المكشفة.
حيث يعمل على استخراج كافة الكلمات من كافة الصفحات، وتسجيل
محددات فريدة للمواقع ومكان ظهور كل كلمة.
كشافات البناء : Structure indexتعكس الروابط بين الصفحات،
وتشتمل على المعلومات التي تتعلق ببنية الروابط الفائقة للصفحات
المكشفة وتحفظ في ملف يعرف بالكشاف الساسي، وتعتمد عليه
الزواحف في تتبع الصفحات لسحبها من خلل الروابط الفائقة.
كشافات الغراض الخاصة :Utility indexككشافات الكيانات الخرى
غير الكيانات المكودة بالنصوص الفائقة، مثل كشافات ملفات P
DF
وكشافات الصور.
28. بنية محرك البحث ) تابع (
مستودع الوثائق : pages repository
تقوم محركات البحث باختزان وحفظ الصفحات الملتقطة من الويب
في مستودع الصفحات.
محرك الستفسار : query engine
المسئول عن استلم طلبات البحث والستفسارات من المستفيدين.
: Rank Mوحدة الترتيب odule
المسئولة عن ترتيب وفرز النتائج ذات الصلة باستفسارات
المستفيدين.
29. General Web Search Engine Architecture
CLIENT WWW
QUERIES RESULTS
PAGE
REPOSITORY
QUERY
RANKING
ENGINE
CRAWLER(S)
COLLECTION INDEXER CRAWL
ANALYSIS MOD. MODULE CONTROL
INDEXES
UTILITY STRUCTURE TEXT
USAGE FEEDBACK
30. تفسير
تفسير محرك البحث ) تابع (
اختلف
اختلف
النتائج
النتائج تختلف محركات البحث من حيث:
المسترجعة
المسترجعة طبيعة المواد التي تنتقيها من مصادر الويب
لنفس
لنفس الساليب التي تستخدمها في تكشيف تلك المواد
الستفسار
الستفسار تنوع المصادر المكشفة نفسها
باختلف
باختلف القدرات التي تتيحها لبحث المواد
محركات
محركات كما تختلف أيضا من حيث:
البحث
الجراءات التي تتبعها في تحديد حجم المادة المكشفةالبحث تتراوح
التي
ما بين التكشيف النتقائي والتكشيف الشامل،
عدد الحروف أو الكلمات التي يتم تكشيفها من الصفحة.
بعض محركات البحث تقوم أول ببناء مستخلص للصفحات المكشفة،
ثم تستخدم هذا المستخلص في تكشيف الصفحة.
31. الزواحف ( Crawler (Robots, Spiders
تتعامل الزواحف مع الويب من خلل استخدام مجموعة
محددات المصدر الموحدة ) (URLكنقاط إرتكازية.
s
تقوم الزواحف بمسح الويب أما:
أفقيا: بأن تبدأ بصفحة واحدة ثم تتبع كل الصفحات المرتبطة بها من
خلل تتبع الروابط الفائقة المتاحة داخل هذه الصفحة
رأئيا: بأن تتبع رابط فائق واحد من كل صفحة تقابلها حتى تنتهي من
العمق المطلوب في تتبع الروابط.
معظم الزواحف تقوم بتقديم معلومات عن الصفحات من
أجل تكشيفها ويتم تخزين هذه المعلومات في مستودعات
للوثائق بمحركات البحث تربط بين معلومات التكشيف وهذه
الصفحات في مواقعها.
إن نمطية عمل الزواحف يتم تحديدها وفقا لمجموعة من
السياسات.
32. سياسات الزاحف Crawler policies
سياسة الختيار :Selection policyحيث يحدد فيها طبيعة
المحتوى الذي يجب أن يجمع، وتقسم محركات البحث وفقا
لسياسات الختيار إلى: محركات البحث العمودية ، Vertical
ومحركات البحث العالمية ، Globalومحركات البحث
الموضوعية.
:Pسياسة تكرار زيارة الصفحات age Re-visiting policy
وتتمثل في تحديد أوقات إعادة التجميع والجدول الزمني لها.
: Pوتتمثل فيالسياسة الخلقية للزاحف oliteness policy
سياسة التهذيب في عدم الثقال على المواقع في تحميلها.
33. الكشاف أو الملف المقلوب Inverted Index
((or File
هو ذلك الملف الذي يعمل على توفير سبل للوصول إلى
محتوى الوثائق.
يشتمل على المصطلحات الكشفية بشكل يضمن الفاعلية في
السترجاع.
يوفر طريقة مختصرة في عملية البحث، بدل من بحث قاعدة
بيانات الوثائق بأكملها لتحديد المصطلحات الواردة في
الستفسار.
يعمل على تنظيم المعلومات في قائمة مختصرة من
المصطلحات ومن ثم العتماد على المصطلح في تحديد
مجموعة الوثائق الملئمة.
34. الكشاف المقلوب ) تابع (
نتيجة لتتنوع صيغ الملفات المنشورة على الويب ) ، html , pdf
الخ( ؛
Tلبد من تطويع أو تطبيع النصوص للمعالجة ext
Normalizationوفقا لشكل موحد.
إنشاء مصفوفة المصطلح ــ الوثيقة term-document matrix
:
:Tوتشمل تفتيت النصوص الكاملة لكلماتالتأخيذ okenization
وتحديدها.
قائمة الستبعاد :stopwordsوتتمثل في استبعاد الكلمات التي
تحمل دللت معلوماتية ولغوية ضئيلة في الوثيقة، وفي نظم
استرجاع المعلومات عادة ما يتم التخلص من هذة الكلمات
لسباب تتعلق بالكفاءة.
35. ( الكشاف المقلوب ) تابع
Term Doc # Term Doc # Freq
now 1 a 2 1
is 1 aid 1 1
Now is the time
Now is the time the 1 all 1 1
time 1 and 2 1
for all good men
for all good men for 1
come 1 1
all 1
country 1 1
to come to the aid
to come to the aid good 1
men 1 country 2 1
of their country
of their country to 1 dark 2 1
come 1 for 1 1
to 1 good 1 1
the 1
Doc 1 aid 1
in 2 1
is 1 1
of 1
it 2 1
their 1
country 1 manor 2 1
men 1 1
It was a dark and
It was a dark and it 2
was 2 midnight 2 1
stormy night in
stormy night in a 2 night 2 1
dark 2 now 1 1
the country manor.
the country manor. and 2 of 1 1
stormy 2
past 2 1
night 2
The time was past
The time was past in 2
stormy 2 1
the 2 the 1 2
midnight
midnight country 2 the 2 2
manor 2 their 1 1
Doc 2 the 2 time 1 1
time 2 time 2 1
was 2
to 1 2
past 2
was 2 2
midnight 2
36. How Inverted Files are Created
Term Doc # Freq
a
aid
2
1
1
1
Dictionary/Lexicon Postings
all 1 1 Term N docs Tot Freq Doc # Freq
and 2 1 a 1 1 2 1
come 1 1 aid 1 1 1 1
country 1 1 all 1 1 1 1
country 2 1 and 1 1 2 1
dark 2 1 come 1 1 1 1
country 2 2 1 1
for 1 1
dark 1 1 2 1
good 1 1 2 1
for 1 1
in 2 1 good 1 1 1 1
is 1 1 in 1 1 1 1
it 2 1 is 1 1 2 1
manor 2 1 it 1 1 1 1
men 1 1 manor 1 1 2 1
men 1 1 2 1
midnight 2 1
midnight 1 1 1 1
night 2 1
night 1 1 2 1
now 1 1 2 1
now 1 1
of 1 1 of 1 1 1 1
past 2 1 past 1 1 1 1
stormy 2 1 stormy 1 1 2 1
the 1 2 the 2 4 2 1
the 2 2 their 1 1 1 2
time 2 2 2 2
their 1 1
to 1 2 1 1
time 1 1
was 1 2 1 1
time 2 1 2 1
to 1 2 1 2
was 2 2 2 2
37. The Hidden / Invisible ماذا عن الويب الخفي
Web
يقصد به مجموعة الصفحات الديناميكية والتفاعلية التي
.تخزن في قواعد البيانات أو يتم تجميعها حسب الطلب
:من بينها
Content found in databases:
Example: ERIC database, Library catalogs.
Subscription database content:
Examples: E SCOhost databases, L
B exisNexis Academic.
Sites requiring login authorization
Examples: Blackboard, membership sites.
Sites blocked by Robot Exclusion Protocols (with a no-index
protocol)
etc.
39. المشكلة والحل...
المشكلة:
تضخم مخرجات النشر الفردي والمؤسسي على شبكة الويب
وما ترتب عليه من إشكالية ضبط وتنظيم مصادر الويب
وتنظيمها لتيسير استكشافها واسترجاعها .
الحل المقترح:
أن تصاحب مصدر المعلومات بياناته الواصفة ) الميتاداتا(
التي تيسر تحديد هويته واسترجاعه وضبط استخدامه والذي
يتولى منشئ الوثيقة تضمينها أو من ينوب عنه.
40. التعريف والمفهوم
الميتاداتا هي "البيانات المتضمنة في كيا ن ما أو المرتبطة
ٍ
) ISO بكيا ن ما وتصف هذا الكيان وتساعد في استرجاعه”.
ٍ
2002-5-9548(
الميتاداتا هي مصطلح ارتبط بوصف وتحديد هوية وملمح
وصفات كيان معلوماتي Information Objectقائم على
شاهين( شبكة الويب. ) شريف
: Descriptive Mالميتاداتا الوصفية etadata
تستخدم في تحديد خصائص الكيان المعلوماتي ووصفه
لغراض التكشيف والسترجاع، فهي تشمل عناصر مثل العنوان
والمؤلف والمستخلص والكلمات المفتاحية.
توفر معلومات مهيكلة structured informationتعزز عمليات
،Fالمعالجة اللية ) مثل: إتاحة البحث بالحقول ielded searches
41. طرق ربط الميتاداتا بمصدر المعلومات
أو ل: التضمين Embedded metadata
ً
حيث يتم إنشاء الميتاداتا في نفس وقت إنشاء المصدر ومتضمنة مع لغة
تكوين الوثيقة.
ثانيا: المصاحبة Associated metadata
وفيها يتم إنشاء ملف يحتوي على الميتاداتا ويصاحب أو يزاوج ملف المصدر
محل الوصف؛ بمعنى أن لدينا ملفين الول للمحتوى والثاني لعناصر وصف
المحتوى )الميتاداتا(.
ثالثا: المستقلة Third-Party metadata
وفيها يتم الحتفاظ بالميتاداتا بمستودعات مستقلة عن المصادر من قبل
مؤسسات قد تملك أو ل تملك حق التحكم في المحتوى، وغالبا ما تكون
الميتاداتا مخزنة في قواعد بيانات.
45. خطط الميتاداتا schema
خطط الميتاداتا هي عبارة عن مجموعة من عناصر الميتاداتا، مع
قواعد استخدامها، وقد قصد بهذه المجموعة أن تحقق هدفا معينا.
صُ
هناك ثلثة عناصر رئيسية مرتبطة بأي خطة من خطط الميتاداتا،
وهي:
دللت عناصر البيانات semantics .1
قواعد المحتوى content rules .2
التركيبة أو الصيغة Syntaxالتي ترد فيها عناصر البيانات .3
معيار دبلن DC
يستهدف دعم استكشاف المصادر اللكترونية على شبكة الويب
ووصفها.
يتسم بعمومية استخدامه حيث يوجه لكل المشتغلين بالمعلومات
من أخصائيي مكتبات وموردين ومطوري المحتوى الرقمي.
46. عناصر المحتوى
عنوان :Titleاسم يعطى للمصدر، هو السم الذي يعرف به المصدر
صُ
رسميا.
موضوع وكلمات مفتاحية :Subjectيعبر عن موضوع محتوى
المصدر، بكلمات أو عبارات مفتاحية، أو برموز تصنيف تصف موضوع
المصدر. ويوصى باختيارها من قائمة مصطلحات مقيدة، أو من خطة
تصنيف رسمية.
وصف :Descriptionبيان محتوى المصدر، وتشتمل أمثلة الوصف على:
مستخلص، أو قائمة محتويات، أو إشارة إلى تمثيل رسومي للمحتوى، أو
نص حر يصف المحتوى، ولكنه ل يقتصر على ذلك فقط.
مصدر :Sourceإشارة إلى مصدر استمد منه المصدر الحالي،قد يستمد
المصدر الحالي كليا أو جزئيا من مصدر آخر، ويوصى عند تعريف
المصدر استخدام رقم أو سلسلة أرقام تؤخذ من نظام رسمي لتحديد
الهوية.
47. )تابع( عناصر المحتوى
لغة :Languageلغة المحتوى الفكري للمصدر، ويوصى باستخدام
المواصفة الدولية 936 ISOالتي تستخدم حرفين أو ثلثة حروف
لتيجان اللغة. ومثال ذلك " "ENأو " "Engللغة النجليزية، و" "Akk
للغة الكادية، و" "EN-GBللغة النجليزية المستخدمة في المملكة
المتحدة.
علقة :Relationإشارة إلى مصدر ذي علقة أو ارتباط، ويوصى عند
تعريف المصدر استخدام رقم أو سلسلة تؤخذ من نظام رسمي لتحديد
الهوية.
تغطية :Coverageالمدى أو المجال لمحتوى المصدر، وتشتمل
التغطية على حيز مكاني )اسم مكان، أو إحداثيات جغرافية(، أو فترة
زمنية )مميز فترة، أو تاريخ، أو مدى تاريخي(، أو سلطة )مثل اسم كيان
إداري(. ويوصى باختيار قيمة من قائمة مصطلحات مقيدة )مثل، مكنز
السماء الجغرافية ] ( [TGNواستخدام أسماء الماكن أو الفترات
الزمنية.
49. التعريف والمفهوم
التوسيم مأتى للميتاداتا الموضوعية لنواع متعددة من مصادر الويب
بواسطة الناس ؛ لغراض التنظيم والسترجاع التشاركي للمعلومات،
دون قيود أو قواعد تطبيق معقدة،
يمكن أن تتم بواسطة غير الخبراء، وأنها بديل غير مكلف للفهرسة
التقليدية لمصادر النترنت. )فتحي عبدالهادي(
الواسمة هي كلمة مفتاحية أو مصطلح غير هرمي يخصص لقطعة
معلومات )مثل صورة رقمية، ملف كمبيوتر، روابط إنترنت مفضلة،
الخ(. ويساعد هذا النوع من الميتاداتا في وصف مادة ما والعثور عليها
مرة أخرى إما بواسطة التصفح أو البحث. وبشكل عام يتم اختيار
الكلمات الدللية من جانب منشيء المادة أو من يقوم باستعرضها
إعتمادا على النظام. وقد انتشر التوسيم بارتباطه بالجيل الثاني من
الويب فهو خاصية مهمة للعديد من خدمات الويب 2. )(Wikipedia
50. التعريف والمفهوم )تابع(
الواسمات أو الكلمات الدللية يمكن أن تعتمد على:
الموضوع )مثل الطبخ، الميتاداتا(
الشكل )مثل الصور، المدونات(
الغرض )مثل التسليم، السفر(
الوقت )مثل فبراير، الن، 9002، المستقبل(
الفعال او الوضع )مثل تقرأ، تفرز، ملكي(
ردود الفعال المؤثرة أو النقدية )مثل بارد، مؤلف أكاديمي(
51. لماذا ننشئ الواسمات..؟
لتنظيم المعلومات
لدعم عملية البحث
لجيجاد نفس الواسمات فيما بعد
لستكشاف الموقع ومشاركتها مع الرخرجين
لتنظيم مجموعة ضخمة في فئات تتناغم مع النموذج العقلي للمستفيد..
لكشفها علنا/إظهارها وزجيادة استخدامها
للستفادة من الوظيفية/المكانية المتاحة
طرجيقة للتعبير عن آراءهم
للعب لعبة..
52. أنواع التوسيم
توسيم الجمهور :public tagging
فيه يسمح لزائري الموقع إضافة وإدراة واسمات المحتوى الخاص بهم.
وبال مقارنة بالتبويب التقليدي وغيرها من أساليب التكشيف؛ فإن التوسيم العام
يسمح للزائرين حرية الختيار للكلمات الدللية/المفتاحية لوصف المحتوى، ب
معنى أن المستفيدين من المحتوى هم الذين يحددون مدى ارتباطها أو صلتها
بالموضوع، مثل مواقع المفضلت الجتماعية )مثل ,Digg.com
.(Del.icio.us
عندما يقوم المستفيدين بتعيين واسمات ذات صلة بالمحتوى أو الرابط الذي تم
إرساله أو تحميله للموقع؛ بعدها يمكن للمستفيدين الخرين البحث بهذه
الواسمات للعثور على المحتوى. ومن ثم فإنه عند القيام بعملية بحث يكون
العتماد على توسيم مستخدمي المحتوى واتفاقهم على ارتباط الواسمات
المستخدمة بالمحتوى، أفضل من العتماد فقط على الواسمات التي وضعها
منشيء أو ناشر المحتوى.
53. أنواع التوسيم
توسيم الناشر :publisher tagging
يختلف عن النوع الول فقط في أن منشيء أو ناشر المحتوى هو فقط من
يقوم بوضع الواسمات أو الكلمات الدللية، ول يسمح لغيره من المستفيدين
بإضافتها أو إنشاءها.
يعد موقع فليكر Flickerلمشاركة الصور من أكثر المثلة على هذا النوع، حيث
يمك ن للشخص الذي يقوم بمشاركة الصور من توسيم كل منها بسلسلة من
الكلمات المفتاحية أو الدللية، بحيث يمكن بعدها لمستخدمي الموقع البحث عن
الصور اعتماداعلى تلك الواسمات المصاغة من قبل ناشري الصور.
55. نموذج نظم التوسيم Tagging Systems Model
ممحممم ”مممممميث“ أن النموذج
س أوض
مامممسي ممممم التوسيم يتكون
لنظ الس
مستفيد من ثلثة عناصر، هي: المستفيد،
والمصادر، والواسمات.
ممامممدر هي الكيانات المراد
المص
توسيمها.
مصادر
الواسمات هي الكلمات المفتاحية
أو الدللية
تحدد نظم التوسيم:
واسمات
من يقوم بعملية التوسيم
ما الذي يمكن توسيمه
ما نوع الواسمات/الكلمات الدللية التي
يمكن استخدامها
56. العيوب
التضليل في صياغة الواسمات لضمان الوصول للمصدر.
استخدام الواسمات غير ذات دللة أو الغامضة )مثل أنا كئيب،
5، ،(zzzzzzzومن ثم ل تكون واصفة للمواد التي تحويها.
عدم وجود لغة مقيدة للواسمات يجعل من الصعوبة الوصول لجميع
المواد أو البحث عنها.
57. سحب/حشود الواسمات tag cloud
هي عبارة عن تمثيلت مرئية للتيجان؛ تستهدف في الساس التمثيل
المرئي لمعدلت تكرار أو شدة الستخدام لتيجان بعينها، مما يدلل
على أهميتها النسبية قياسا بغيرها من التيجان.
62. المفهوم والمصطلح
يرجع ظهور مصطلح ” “Folksonomyإلى مقال لـ ”توماس فاندر“ Thomas
Vanderعام 4002 ؛ للتعبير عن تصنيف يبتكره المستخدمون, ويتكون المصطلح من
المزج بين مصطلحين: الناس/البشر ” ،“Folkوالتصنيف ”.“Taxonomy
الفوكسونومي هو نظام منشا بواسطة المستفيد User-generatedيسمح بتوسيم
نُ
مصادرهم الرقمية المفضلة باستخدام كلمات أو جمل اللغة الطبيعية التي يخترونها.
الفوكسونومي هو ممارسة لمنهجية تعاونية في إنشاء وإدارة الواسمات لشرح أو توضيح
annotateوتبويب categorizeالمحتوى.
الفوكسونومي هو ناتج التوسيم الحر للمعلومات والكيانات على الويب )أى شئ له عنوان
موحد للمصدر (URLبواسطة المستفيد ولرغراضه السترجاعية.
الفوكسونومي هو تعبير عن محتوى الويب من خلل المستخدمين رغير المهنيين، على أن
يكون هذا التنظيم وفق رؤيتهم من خلل تأثرهم بالثقافة والمجتمع واللغة وأشياء أخرى كثيرة،
على أن يتم استرجاع المحتوى بنفس طريقة التنظيم.
63.
64. عناصر الفوكسونومي
تتمثل مقومات إنشاء الفوكسونومي في ثلثة
عناصر رئيسية: المصادر، والمستفيديون،
والواسمات )الكلمات الدللية/الدالة(
يضاف إلى العناصر السابقة تطوير بيئة تعاونية
مبنية على الويب )الجيل الثاني من الويب web
0.2(.
يتولى المستفيدون مهمة صيانة هذا التصنيف من
خلل إضافتهم للمزيد من الواسمات
65. الونواع
الفوكسونومي العريض Broad Folksonomy )1
وهو التصنيف الذى من خلله يتمكن عدد من المستفيدين من أن يضعوا الرمز أو
الكلمة الدللية المناسبة من وجهة نظرهم كما هو الحال فى دليشيز )الشكل(
يستخدم كأداة لكشف اتجاهات مجموعة من المستخدمين أثناء وضعهم لعنصر أو وثيقة
واحدة، بحيث يمكن بعد ذلك استخدام تلك القائمة التى وضعت لختيار أفضل
نُ
المصطلحات للتعبير عن ذلك المحتوى.
الفوكسونومي الضيق Narrow Folksonomy )1
فيه يمكن للمستفيد أن يحدد رموزا لسهاماته فقط ويتم وضعها مرة واحدة فقط، ول
اً
يمكن لمستفيد آخر من توسيم تلك السهامات.
الفرق الجوهري بين النوعين في من يضع الكلمات الدللية؛ ففي الفوكسونومي الضيق
يقتصر وضع الواسمات )الكلمات الدللية( على المستخدم الذي رفع المحتوى إلى
الموقع فقط دون رغيره، والعكس في الفوكسونومي العريض حيث يسمح للمستخدمين
جميعا بوضع واسمات للمحتوى.
67. المزايا
الشمولية: فهو ي عكس المفردات المستخدمة من جانب المستفيدين، وهو بذلك يمكن أن
يوصف بأنه أكثر ديمقراطية مقارنة بالنظم الخرى التى تعتمد على اللغات المقيدة. حيث
يقدم هذا السلوب الفرصة لكل مستفيد للتعبير عن المحتوى الموضوعى بطريقته
الخاصة، والسماح بمشاركة رغيره من المستفيدين فى الرموز الموضوعة للتعبير عن وثيقة
واحدة.
الملئمة والتساع: يمكن من خلل الفوكسونومي أن يتسع للمظاهر الجديدة فى مجال
معين أو لموضوع معين.
يعكس فعليا المصطلحات التي يتم استخدامها من قبل الفراد المستخدمين لمصادر
بِ
المعلومات.
يعتبر بداية لتصميم نظام )مكنز(، حيث يعتبر نواة لبداية العمل على التنقيح والستبعاد
لتكوين مكنز جيد.
68. المزايا
المصطلحات التي يستخدمها الفراد قد تكون أكثر حداثة مقارنة بالمهنيين، وقد يرجع ذلك
لمتابعتهم المستمرة لكل ما يضاف من مصادر وما يستحدث من مصطلحات في مجال
اهتماماتهم.
إمكانية إضافة العديد من المصطلحات للتعبير عن مصدر واحد.
عدم وجود مصطلحات أو كلمات دالة يعتمد عليها هذا النوع من التصنيف؛ ومن ثم فيمكن
لى مستفيد أن يضع الرموز التى يراها مناسبة من وجهة نظره، وقد تكون مناسبة بالفعل
وقد ل تكون.
إمكانية استخدام المستخدم للغته الخاصة التي يمكن بها وصف المعلومات بكلمات تعكس
ثقافته.
إمكانية استخدام المستخدم لمصطلحات ذات معاني معينة تعكس مدى اهتمامه بالموضوع.
المشاركة الموضوعية عن طريق تجميع الهتمامات الخاصة بالمستخدمين كلهم وإتاحة
المصادر المتعلقة بهذا الهتمام.
69. المزايا
عدم وجود الهرمية في التنظيم؛ وبالتالي ل يحتاج المستخدم أن يكون ملما بنظام تصنيف
معين ليتصفح الموقع، حيث ل يحتاج إلى فهم المصطلحات وإيجاد الروابط المختلفة أو
حتى محاولة التفكير في أي رأس موضوع يندرج تحته استفساره.
سهولة وضع الواصفات أو المصطلحات دون الحاجة إلى التدريب على التصنيف أو
التكشيف.
استخدام المصطلحات الكثر استخداما )شائعة( كمصطلحات واصفة للمعلومات مما
يساعد على سهولة استرجاعها بالطريقة الشائعة لغير المهنيين.
من السهل إدراج أي واصفات جديدة وتغييرها أو تحديثها.
70. الونتقادات
نقص الدقة: رغياب الضبط يسمح لمستخدمي الموقع تحديد أو وضع الكلمات التى تعبر
عن المحتوى الموضوعى لوثيقة ما، وعلى ذلك فيمكن أن نجد أشكال مختلفة للكلمة
الواحدة، صيغة المفرد والجمع للسماء، الختصارات؛ وذلك لتباين ثقافات الفراد
ومستوياتهم.
التصنيف الحر ل يشتمل على دليل للستخدام أو ملحظات توضيحية.
ينتج عنه عدد من مشكلت استكشاف العلقات بين الكلمات الدللية؛ كنتيجة طبيعية
لتفاوت طبيعية مستوى الكلمات المستخدمة للتعبير عن المحتوى ما بين مصطلحات
رغاية فى العمومية إلى مصطلحات رغاية فى التخصيص.
صعوبة السترجاع في بعض الحيان؛ فالشخص الذي يبحث عن موضوع معين يجب
عليه أن يكون على دراية بثقافة الخرين؛ حتى يتمكن من البحث بالمصطلح الذي أتى
به بعض الشخاص الواضعين للواصفات من قبلهم.
بِ
71. الونتقادات
الغموض والختلف في المعاني بجانب كثرة المرادفات من حيث إعطاء أكثر من
مسمى )مصطلح( لمعنى واحد.
تعدد استخدام الشكال لرصد المحتوى، حيث هناك من يضع )كلمة واحدة( لوصف
المحتوى وهناك من يضع )شبه جملة( أو )جملة كاملة(.
تشابه بعض المصطلحات في طريقة الكتابة مع اختلف المعنى، مثال: المغرب )دولة(،
المغرب )صلة(، المغرب )جهة الغرب(.
اختلف التعبير عن المصطلحات فهناك من يعبر )بالصيغة المفردة(، وهناك من يعبر
)بالصيغة الجمع(.
عدم وجود رقابة من قبل المسئولين عن الموقع على الواصفات التي يتم وضعها من قبل
بِ نُ
المستخدمين مما يؤدى إلى وجود بعض اللفاظ الخارجة.
استخدام مصطلحات رغير لغوية من قبل فئة معينة من المستخدمين.
بِ
72. الونتقادات
استخدام أكثر من لغة واحدة للتعبير عن المحتوى.
استخدام البعض للكلمات الخاصة أو الضمائر، مثال: كلبي – كلب.
استخدام الكثير من العلمات التي تعيق عملية السترجاع، مثـال: & - % -.
استخدام المصطلحات العامية كواصفات.
73. مزيد من المعلومات .. قراءات .. مصادر
.2000 ،حشمت قاسم . مدخل لدراسة التكشيف والستخلص.ـ القاهرة: دار غريب
Larson and Hearst’s slides, at UC-Berkeley. http://www.sims.berkeley.edu/courses/is202/f00/
Wolfgang Hürst (2006). Web Search, Albert-Ludwigs-University Freiburg, Germany, Summer
Term
Zdravko Markov and Daniel T. Larose, Data Mining the Web: Uncovering Patterns in Web
Content, Structure, and Usage, Wiley, 2007. Slides for Chapter 1: Information Retrieval an Web
Search
K.T. Anuradha. Search Engines for Intranets. National Centre for Science Information (NCSI),
Indian Institute of Science, Bangalore
Dragomir R. Radev. Search Engine Technology
خالد عبد الفتاح . تحليل وفرز النتائج في محركات بحث الشبكة العنكبوتية. في: مؤتمر محركات البحث
.2005 على النترنت، شرم الشيخ، فبراير
مؤمن سيد النشرتي. التحديات التي تواجه خوارزميات محركات البحث في استرجاع المحتوى العربي على
.(2012 .- ع 92 )سبتمبرCybrarians Journal -.الشبكة العنكبوتية العالمية دراسة مسحية تحليلية
74. محمد فتحي عبد الهادي. التجاهات الحديثة في التحليل الموضوعي للمعلومات وموقف قطاع
المعلومات العربي منها. في: مؤتمر التحاد العربي للمكتبات والمعلومات، المغرب، 9002.
شريف كامل شاهين. التجاهات الحديثة في التحليل الموضوعي .ـ مجلة المكتبات والمعلومات العربية،
س42 ، ع2)4002(. ص 5-14.
:Smith, Gene. Tagging: People-Powered Metadata for the Social Web.- Berkeley, California
8002,New Riders
Getting, B. (2007). What Are “Tags” And What Is “Tagging?”. Retrieved 5 2, 2011, from
-http://www.practicalecommerce.com/articles/589-What-Are-Tags-And-What-Is-Tagging
Notes de l'éditeur
Margaret Maurer OPAL Conference, August 2008 http://www.personal.kent.edu/~mbmaurer