H:\مىل هاي باؤيابي

مدل های بازیابی اطلاعاتمدل های کلاسیک Masoud_mohamadi@live.com

تعریف یک مدل: توصیف آزمایشی یک تئوری یا سیستم که تمامی ویژگی های آن را تشریح می کند.(Soukhanov, et al. (1946

اساس تمام مدل ها: تطابق ((Matching تطابق یک مدل در بازیابی اطلاعات نیست، بلکه پایه و اساس فعالیت های بازیابی اطلاعات است. تطابق ارگانیسم اساسی بازیابی اطلاعات است. تطابق می تواند بین واژگان یا بین معیارهای تشابه از قبیل فاصله و بسامد واژگان.

تطابق واژگان (Term matching) واژه هایی که در بازیابی اطلاعات مورد استفاده واقع میشوند کلید واژه ها، توصیف کننده ها یا شناسانگر ها هستند. واژگان همچنین شامل لغات، عبارات و سایر بیانات هستند. تطابق واژگان می تواند از چهار طریق اجرا شود: تطابق عین واژه(Exact match), تطابق نسبی ( Partial match), تطابق موقعیتی (Positional match), تطابق میدانی (Range match)

تطابق عین واژه (Exact match) بدین معناست که بازنمودهای سوال با بازنمودهای مدرک در سیستم بازیابی اطلاعات، دقیقاً مطابقت داشته باشند. جستجوی عبارتی (phrase search) نمونه ای از این تطابق است. برای مثال عبارت web filtering یک عبارت در جعبه جستجو است. دقیقاً همان عبارت در سیستم برای جستجو مدنظر قرار می گیرد و در نتیجه جستجو عین این عبارت به دست می آید.

تطابق نسبی (Partial match) بر خلاف تطابق عین واژه ، در تطابق نسبی بخشی از عبارت مورد جستجو با بازنمود های مدرک در سیستم بازیابی اطلاعات تطابق دارد. کوتاه سازی یا truncation معمول ترین نمونه از جشتجوی نسبی است. برای مثال، در یک جستجو در این حالت، در پاسخ به پرسش Information technolog* (که در اینجا علامت * نشان دهنده کوتاه سازی است) مدارکی هم که شامل Information technology, information technologies, information technologists مشوند، بازیابی می شوند.

تطابق موقعیتی (Positional match) این تطابق با در نظر گرفتن موقعیت آنچه که در فرایند بازیابی اطلاعات بازیابی می شود انجام می گیرد. اگر عبارت جستجو used 1WITH store باشد نتایج جستجو شامل مدارکی می شود که عباراتی از قبیل used book store, used cloth store ,used information store را در بر دارند. در اینجا تطابق تنها از طریق کلمات ابتدایی و انتهایی که بین پرسش و بازنمود مدرک مشابه هستند انجام می شود و واژه های در بین موقعیت آنها در فرایند تطابق در نظر گرفته نمی شود.

تطابق میدانی(Range match) برای عبارات عددی کاربرد دارد. مانند مقدار فروش. یا برای عبارات دارای نظم طبیعی مانند ماه های سال. آنچه که در این تطابق به آن توجه می شود محدودیت بالای گستره(مانند انتشارات قبل از سال 2003)، محدودیت پایین گستره(انتشارات بعد از 2009) و یا هر دوی آنهاست (مانند انتشارات بین سالهای 2004 تا 2008). پایگاه های اطلاعاتی عددی و تاریخ های انتشار، مثال های معمولی از جستجوی میدانی هستند.

تطابق از طریق اندازه تشابه ((Similarity measurement matching این نوع تطابق از راه های مختلفی انجام می شود.به طور مثال تطابق در مدل فضای برداری بر پایه فاصله بردارها و درجه زاویه بردار است. یعنی زاویه بردار کوچک تر برابر است با درجه تشابه بیشتر بین پرسش و مدرک. در مدل احتمالی تشابه بر اساس تکرار واژه تعین می شود تا احتمال ربط بین پرسش و مدرک به دست آید. در این نوع تطابق، بیشتر از خود اصطلاحات، تشابه آنها مدنظر است.

مدل منطقی بولی (The Boolean Logic Model)

این مدل بعد از ارایه آن توسط ژرژ بول (George Boole) در میانۀ قرن نوزدهم ارایه شد، به این عنوان نام گذاری شد. منطق بولی سه عملکرد منطقی را در بر می گیرد: ضرب منطقی (x)، جمع منطقی (+)، و تفریق منطقی (-). سه عملگر AND, OR, NOT برای بیان عملکرد های منطقی در بازیابی اطلاعات مورد استفاده قرار می گیرد. ضرب منطقی یا عملگر AND دو یا چند اصطلاح را در بیان جستجو ترکیب می کند و باید تمام واژهای مورد جستجو در مدرک موجود باشد تا آن مدرک بازیابی شود. جمع منطقی یا عملگر OR دو یا چند مترادف یا اصطلاح مرتبط را در عبارت جستجو به هم متصل می کرد. مدارکی که شامل هر کدام از واژگان مشخص شده هستند در جستجو به عنوان نتیجه نهایی ارایه می شوند. تفریق منطقی یا عملگر NOT ، جستجو ها را به آنهایی که اصطلاح بعد از NOT در آنها وجود نداشته باشد محدود می کند.

نقاط قوت مدل منطق بولی اولاً:استفاده زیاد از مدل منطق بولی در بازیابی اطلاعات بر ارزش این مدل صحه می گذارد. این مدل امکان دستکاری جنبه های مختلف را از طریق تجزیه و تحلیل کردن پرسش فراهم می آورد. عملگر AND می تواند در جنبۀ ساده را برای تشکیل یک رابطۀ پیچیده ترکیب کند و به این ترتیب جستجو را محدود می کند. عملگر OR جنبه های متفاوت یک پرسش یا مدرک را جمع می کند و جستجو را گسترش می دهد. عملگر NOT جنبه های پیچیده یک جستجو را تفکیک می کند، بنابراین موارد نا مطلوب را از نتیجۀ نهایی جدا می کند. این اصلاحات در جستجو، اگر به طور صحیح به کار گرفته شوند، می توانند انعطاف پذیری و تاثیرگذاری جستجو را در بازیابی اطلاعات به ارمغان بیاورند، در سطحی که هیچ کدام از مدل های دیگر نمی توانند این کار را انجام دهند.

ثانیاً:سیستم های بازیابی با منطق بولی، هزینه اثربخشی خوبی دارند و استفاده از آن تاکنون برای کاربران اجتناب ناپذیر بوده است.

سوم:اینکه این مدل به آسانی درک می شود و قابل فهم است. در مقایسه با کارهایی که این مدل می تواند انجام دهد، بحث های کمتری در مورد ناتوانایی های این مدل شده است که این نیز به دو دلیل است.یکی اینکه مدل منطقی بولی در میان مدل های IR قدیمی ترین است. تصور می شود که نقاط قوت آن چنان زیاد است که به جزئیات بیشتری نیاز نباشد. عامل دوم این است که منطق بولی، به عنوان قدیمیترین مدل در IR، زمانی نقد شود که مدل IR قوی تری ارائه شود. طبیعی است که افراد می گویند که مدل جدید IR ، برای غلبه بر محدودیت های مدل قدیمی تر بوجود می آید. طراحان سیستم و کاربران تمایل دارند که با مدلی کار کنند که به خوبی فهمیده شده است.

چهارم:سیستم های مبتنی برمنطق بولی IR در مقایسه با دیگر سیستم های مبتنی بر سایر مدل های IR، به عنوان الگوریتم هایی جامع ، به کار گیری آنها ساده تر است وآسانتر ساخته می شوند و ممکن است در بخشی از سیستم های IR بولی مشارکت کنند. به دلیل نقاط قوت بیان شده، معمولاً زمانی که مدل های بازیابی IR در جزئیات بررسی می شوند، مدل منطقی بیشتر مورد توجه است.

محدودیت های مدل منطقی بولی نخست:برای کاربرانی که آموزش دیده نیستند دنبال کردن جستجو ها مشکل است. مشکل از دو نظر ایجاد می شود. 1- برای کاربران انتخاب عملگر مناسب مشکل است. اغلب، آنها بین استفاده از عملگر های AND و OR دچار ابهام می شوند. این دو کلمه درک معمول یا معنای مرسوم متفاوت هستند. 2- برای کاربر مشکل است که نظم درستی را در فرایند ترکیب عملگرها به کار گیرند.جستجوی بولین ترکیبی شامل بیشتر از یک نوع عملگر خواهد بود که نظم طبیعی آن در این جستجو به این صورت تعریف تعریف شده است: ابتدا عملگر NOT،سپس عملگر ADN و در آخرORیعنی کاربران نمی توانند نظم طبیعی جستجوی ترکیبی بولی را تغییر دهند، مگر اینکه آموزش ها و تمرینات مناسب داشته باشند.

دوم: بیان روابطی غیر از عملگرهای بولی مشکل است. چون این مکانیسم ها در این مدل پیش بینی نشده است. درست است که از طریق جستجوهای ترکیبی مفاهیم پیچیده تری را می شود مطرح کرد، اما این کار باعث می شود تفاسیر اشتباهی بوجود آید که در نتیجه ناتوانی مدل عملگر های بولی در بیان روابط است. سوم: نبود مکانیسم وزن دهی در مدل منطقی بولی برای مشخص کردن اهمیت و وزن دهی به مفاهیم در طوال جستجو.

چهارم: بیان ربط نسبی جستجو در این مدل است، چون مدل منطقی بولی تمام داده ها را در سیستم، با میزان ربط یکسانی مرتب می کند که این کار برحسب تطابق پرسش و بازنمود مدارک مرتبط یا غیر مرتبط است. بنابراین این سیستم نمی تواند نتایج را بر حسب ربط افزایشی نشان دهد. در نتیجه خروجی های مرتب شده نخواهد شد و کاربر نمی تواند مثلا 15 مدرک بسیار مرتبط را بازیابی کند، کاربر مجبور است تمام نتایج را ببیند، که گاهی تعداد آن به هزاران یا حتی بیشتر هم می رسد، که سیستم بولی آن را بدون نظم ربط آن را نمایش داده است. از این نظر، کاربر کنترلی بر تعداد خروجی ها ندارد.

پنجم: کاربر ممکن است هیچ نتیجه ای را پیدا نکند یا نتایج همپوشانی بسیاری با هم داشته باشند. خروجی صفر در حالتی که جستجو بسیار محدود شده است پیش می آید. مثلا چندین اصطلاح از طریق عملگر AND با هم ترکیب شده باشند. ضمناً همپوشانی نتایج زمانی اتفاق می افتد که عبارت جستجو گسترده باشد، مثلاً چندین اصطلاح از طریق عملگر OR با هم ترکیب شده باشند

مدل فضای برداری (Vector space model)

مدل فضای برداری که با نام مدل پردازش نسبی نیز شناخته می شود، توسط سالتون و همکارانش ارایه شد. در مدل فضای برداری هر اصطلاح به عنوان یک بعد تعریف می شود و هر پرسش یا مدرک به عنوان یک بردار. یک بردار شامل لیستی از ارزش های نمایانگر اصطلاح یک مدرک است. (مثلاً یک پرسش یا سند). این ارزش هم می تواند دودویی (Binary) باشد و هم وزن دهی شده. ارزش های دودویی می توان صفر یا یک باشد که یک به معنای وجود اصطلاح در یک مدرک باشد. ارزش های وزنی شامل اعداد مثبت واقعی(0و1و2و...) است. ارزش وزنی برای هر اصطلاح مطابق است با اهمیت آن واژه در بازنمود مدرک. طرحی که برای وزن دهی به اصطلاح در مدل فضای برداری مورد استفاده واقع می شود می تواند عینی باشد (مثلا فراوانی اصطلاح) یا غیر عینی باشد (مثلا درک کاربر) .

روش وزن دهی قادر است برای واژگان در بردار وزن تعیین کند. تعداد بعد ها در بردار پرسش و مدرک برابر است با تعداد واژگان متفاوتی که در مدرک وجود دارند و بازنمود مدرک هستند. همۀ بردارهای پرسش و مدرک یک فضای چند بعدی را تشکیل می دهند. مجموعه کامل ارزش اصطلاح در بردار، جهت پرسش یا مدرک را توصیف می کنند که در فضا نمود می یابد. هدایت کردن جستجو در سیستم IR فضای برداری به نشان دادن فضای بین یک زاویه، بین بردار پرسش و پاسخ منتج می شود. مدل فضای برداری تشابه بین یک مدرک و یک پرسش را تشخیص می دهد. این کار از طریق مقایسه ابعاد مشابه و حساب کردن تشابهات اندازه گیری شده به عنوان ضریب کسینوس به دست می آید. اگر یک پرسش و یک مدرک در موضوع مشابه باشند زاویۀ بین بردارها باید کوچک باشد.اگر پرسش و مدرک موضوع متفاوتی داشته باشند زاویۀ بین بردارهای آنها باید بسیار زیاد باشد. تشابه بین مدارک نیز به همین طریق اندازه گیری می شود.

فورمول ضریب کسینوس تشابه: =

که در این فورمول: q= پرسش T= تعداد اصطلاحات نمایه ای در سامانه Ki= یک اصطلاح عام نمایه ای Dj= یک سند Wij= dj از سند ki وزن Dj= dj بردار اصطلاح نمایه ای T= مجموع تعداد اصطلاحات موجود در سامانه

نقاط قوت مدل فضای بر داری: مدل فضای برداری اصول یکسانی را برای طیف گسترده ای از عملگرهای بازیابی فراهم می کند. این عملگرها شامل نمایه سازی (indexing) ، بازخورد ربط (relevance feed back) و طبقه بندی مدارک (doc. Classification ) است. نقاط قوت این مدل زمانی که با محدودیت های مدل منطقی بولی مقایسه می شود کاملا بارز می شود.

نخست:اینکه کاربر زمانی که در سیستم ir فضای برداری جستجو می کند ، دیگر نیازمند این نیست که منطق بولی را بفهمد و آنرا به کار گیرد، بلکه آنچه که کاربر لازم است انجام دهد انتخاب ساده بین چندین واژه بر اساس اطلاعات مورد نیازش است. دوم: می توان برای نشان دادن اهمیت واژگان یا مفاهیمی که برای ارائه پرسش یا مدرک انتخاب می شوند ، آنها را در بردار وزن دهی کرد.

سوم : خروجی جستجو های مدل فضای برداری بر حسب ربط افزایش یافته مرتب می شوند. این سیستم قادر است که مرتبط ترین مدرک را به طور اتوماتیک به کاربر ارائه نماید . چهارم: بازخورد درربط(relevance feed back) مکانیسمی که در مدل فضای برداری برای بهبود بازیابی مورد استفاده واقع می شود. بر اساسی خروجی مرتبطی که قبلا بازیابی شده بود، سیستم ir فضای برداری قادر است به طور اتوماتیک بردار پرسش را اصلاح کند و آن را به کاربر برای نتایج مرتبط تر ارائه دهد

محدودیت های مدل فضای برداری : نخستین محدودیت: مدل فضای برداری به این برمیگردد که فرض می شود واژگان انتخاب شده برای توصیف مدرک، مستقل هستند. هنگامی که مدل منطقی بولی بررسی می شود مشاهده می شود که این مدل نمی تواند انواع دیگر رابطه ها را غیر از منطق بولی بیان کند. به هر حال مدل فضای برداری قادر به انتقال هر رابطه ای که شامل روابط بولی موجود بین واژؤگان باشد نیست. به علاوه این مدل به این فرض نیاز دارد که واژه هایی که پایه های را برای فضای مدل برداری به وجود می آورند از همدیگر مستقل است. این فرض به طور واضح نادرست است.

محدودیت دوم مدل فضای برداری، مشکل بودن مشخص کردن صریح مترادف ها یا روابط عبارتی است که این محدودیت به دلیل فقدان عملگرهای بولی و مجاورتی است. برای خاص تر کردن ، این مدل عملگرهای مجاورتی و بولی را پشتیبانی نمی کند. در نتیجه، عملگر or را برای مترادف ها نمی توان به کار بر د و عمگر with را برای ساختن یک عبارت نمی توان استفاده کرد.

محدودیت سوم مدل فضای برداری به مکانیسم وزن دهی آن مربوط است . این مکانیسم پیچیده و غیر عینی است. زمانی که کاربر می خواهد برایاصطلاحات وزن تعیین کند، مخصوصاً اصطلاحات پرسش(که این وزن دهی بر اساس درک و قضاوت خودش است) فرایند وزن دهی عینی است. کاربر باید میزان اهمیت مرتبط بات واژه را پیش بینی کند که سپس برای آن وزن تعیین کند. غیر عینی بودن و ذهنی بودن در طول این فرایند اجتناب ناپذیر است. از طرف دیگر، وزن دهی در شرایطی که بدون الگویتم وزن دهی این کار انجام شود، بدون اشتباه نخواهد بود و یافتن بهترین الگوریتم برای یک محیط بازیابی خاص کار آسانی نیست..

مدل فضای برداری برای ارائه یک پرسش یا مدرک به چندین اصطلاح نیاز دارد. در حالی که در مدل منطقی بولی دو یا سه واژه ای که با AND مرتبط شده اند برای دادن خروجی های با کیفیت مناسب هستند. تعین کردن واژه های بیشتر در مدل فضای برداری نتایج با ارزش بیشتری را می دهد.

مدل احتمالی (probability model)

این مدلتوسط مارون و کوهن(Maron and Kuhns) ارائه شده است. و بعد ها توسط روبرتسون و سایر محققان توسعه یافت. این مدل نظریۀ احتمال را به کار می گیرد. هر رویدادی احتمالی از ه تا 100 درصد دارد که در بازیابی اطلاعات رخ بدهد. عوامل عدم قطعیت و نامعلومی در فرایند ir وجود دارند. به طور مثال عدم قطعیت در مورد اینکه آیا مدارک بازیابی شده از طریق سیستم با پرسش مطرح شده مرتبط هستند یا خیر. این مدل، احتمال اینکه مدرک با پرسش مرتبط باشد را بر اساس برخی روش ها ارزیابی و حساب می کند.

رویداد، در این زمینه از بازیابی اطلاعات، به احتمال ربط بین پرسش و مدرک اشاره دارد. بر خلاف دیگر مدل های ir مدل احتمالی با مقولۀربط واژگان ، از عبارت دقیق یا بدون ربط برخورد نمی کند، بلکه ربط واژگان بر اساس احتمال است. برای مثال ، مدرک d به احتمال 35 درصد با پرسش q مرتبط است

نقاط قوت مدل احتمالی: نخست:این مدل راهنمایی های مهمی برای مشخص کردن فرایند های بازیابی و همچنین توجیهات تئوری برای مواردی که قبال بر اساس تجربه انجام می شد، از قبیل تعریف سیستم های وزن دهی به واژگان را فراهم می کند. فرایند های بازیابی با درجه نااطمینانی هنگامی که ربط بین پرسش و مدرک مورد قضاوت قرار می گیرد توصیف می شود. بیان احتمال ربط به جای ربط مطلق بین پرسش و مدرک، بسیار واقعی تر است. به علاوه، عملگر های بیشتر در این مدل از قبیل اندازه تشابه بین مدرک و پرسش، به جای اینکه بعضی تصمیمات دلخواهانه(همانند مدل بولی) آنرا تعیین کند، از طریق خود مدل تعیین می شود.

دوم: این مدل در عملگرهای خود، همبستگی واژگان و روابط آنها را شامل می شود.مثلاً یک رویداد بر رویداد دیگر تاثیر می گذارد.کاربران دیگر نیاز ندارند که همانند مدل فضای برداری ، استقلال واژگان را فرض کنند. خروجی های مرتب شده تهیه می شوند ، چون مدل فرض می کند که اصول عملکرد سیستم ir بر اساس مرتب کردن مدارک در یک مجموعه، بر حسب احتمال صعودی است که بر حسب نیاز اطلاعاتی کاربر است. این مفروضات را "اصول مرتب سازی احتمال" می نامند. به وسیله اصول مرتب سازی احتمال کاربر می تواند بر حجم خروجی های بازیابی شده کنترل داشته باشد.

سوم: این مدل قادر است از مزایای بازخورد اطلاعات (info. Feed back) برای توسعه روش های پیشرفته استفاده کند. چهارم: مدل احتمالی در شکل اولیه آن تسهیلات عملگر های بولی را که بسیاری از کاربران استفاده از آن را مشکل می پنداشتند، به کار نمی گیرد. از این نظر سیستم های بازیابی اطلاعات بر اساس مدل احتمال ، بسیار کاربر پسند تر از سیستم های ir، بر اساس منطق بولی هستند.

محدودیت های مدل احتمالی : نخست:اگر چه میزان ربط در این مدل، به جای دو بخشی بودن از صفر و یک مدل بولی، پیوسته است ، مدل احتمالی فرض می کند که ربط ، خاصیت دودویی (binary) دارد که در اینجا pr(rel) احتمال ربط است و pr(nonrel) احتمال عدم ربط. در کارهای دیگر، ارزش احتمال ربط که ثابت است به دست می آید و از تفاضل آن از عدد یک، عدم ربط هم به دست می آید. فرض دوبخشی بودن قویترین فرض است و اغلب هم خیلی معتبر نیست.

دوم: مدل احتمال نمی تواند تاثیر گذاری بازیابی را خیلی بهبود بخشد. نتایجی که از طریق مدل احتمالی به دست می آیند اگر چه خوب هستند، اما بهتر از نتایج بازیابی شده از سیستم های مدل بولی یا فضای برداری نیستند. هنگامی که تنها از یک مدل استفاده می کنیم سوالهای زیادی در مورد لزوم یک مدل ir دیگر ظهور می کند.

مقایسه مختصر مدل های کلاسیک: عموماً نظر بر این است که مدل بولی ضعیف ترین روش کلاسیک است. مشکل اصلی در این روش ، ناتوانی در تشخیص انطباق های جزیی است که اغلب به عملکرد ضعیف منتهی می شود. در این باره که آیا مدل احتمالاتی، بهتر از مدل برداری عمل می کند، بحث و مجادله وجود دارد. «کرافت» ازمایش های چندی انجام دهد و اظهار کرد که مدل احتمالاتی ، در بازیابی عملکرد بهتری را نشان می دهد. اما در آزمایش های بعدی «سالتون» و «باکلی» با چندین آزمایش مختلف نشان دادند که انتظار می رود مدل برداری در کار با گردآوردهای عام ، از مدل احتمالی پیشی بگیرد. همچنین به نظر میرسد این تفکر در میان پژوهشگران ، شاغلان ، و جامعه وب ـــ که محبوبیت مدل برداری در آنجا رو به فزونی است ــــ تفکر غالب باشد.

یا به اندازۀ تلاشت آرزو کن یا به اندازۀ آرزوهایت تلاش کن

H:\مىل هاي باؤيابي

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (18)

Similaire à H:\مىل هاي باؤيابي

Similaire à H:\مىل هاي باؤيابي (20)

H:\مىل هاي باؤيابي