SlideShare une entreprise Scribd logo
1  sur  41
مدل های بازیابی اطلاعاتمدل های کلاسیک Masoud_mohamadi@live.com
تعریف یک مدل:  توصیف آزمایشی یک تئوری یا سیستم که تمامی ویژگی های آن را تشریح می کند.(Soukhanov, et al.  (1946
اساس تمام مدل ها: تطابق ((Matching      تطابق یک مدل در بازیابی اطلاعات نیست، بلکه پایه و اساس فعالیت های بازیابی اطلاعات است. تطابق ارگانیسم اساسی بازیابی اطلاعات است. تطابق می تواند بین واژگان یا بین معیارهای تشابه از قبیل فاصله و بسامد واژگان.
تطابق واژگان (Term matching)     واژه هایی که در بازیابی اطلاعات مورد استفاده واقع میشوند کلید واژه ها، توصیف کننده ها یا شناسانگر ها هستند. واژگان همچنین شامل لغات، عبارات و سایر بیانات هستند.      تطابق واژگان می تواند از چهار طریق اجرا شود:    تطابق عین واژه(Exact match), تطابق نسبی ( Partial match), تطابق موقعیتی (Positional match), تطابق میدانی (Range match)
تطابق عین واژه (Exact match)     بدین معناست که بازنمودهای سوال با بازنمودهای مدرک در سیستم بازیابی اطلاعات، دقیقاً مطابقت داشته باشند. جستجوی عبارتی (phrase search) نمونه ای از این تطابق است. برای مثال عبارت web filtering  یک عبارت در جعبه جستجو است. دقیقاً همان عبارت در سیستم برای جستجو مدنظر قرار می گیرد و در نتیجه جستجو عین این عبارت به دست می آید.  
تطابق نسبی (Partial match)      بر خلاف تطابق عین واژه ، در تطابق نسبی بخشی از عبارت مورد جستجو با بازنمود های مدرک در سیستم بازیابی اطلاعات تطابق دارد. کوتاه سازی یا truncation معمول ترین نمونه از جشتجوی نسبی است. برای مثال، در یک جستجو در این حالت، در پاسخ به پرسش Information technolog*  (که در اینجا علامت * نشان دهنده کوتاه سازی است) مدارکی هم که شامل Information technology, information technologies, information technologists مشوند، بازیابی می شوند.
تطابق موقعیتی (Positional match)     این تطابق با در نظر گرفتن موقعیت آنچه که در فرایند بازیابی اطلاعات بازیابی می شود انجام می گیرد. اگر عبارت جستجو used 1WITH store باشد نتایج جستجو شامل مدارکی می شود که عباراتی از قبیل used book store, used cloth store ,used information store  را در بر دارند. در اینجا تطابق تنها از طریق کلمات ابتدایی و انتهایی که بین پرسش و بازنمود مدرک مشابه هستند انجام می شود و واژه های در بین موقعیت آنها در فرایند تطابق در نظر گرفته نمی شود.
تطابق میدانی(Range match)      برای عبارات عددی کاربرد دارد. مانند مقدار فروش. یا برای عبارات دارای نظم طبیعی مانند ماه های سال. آنچه که در این تطابق به آن توجه می شود محدودیت بالای گستره(مانند انتشارات قبل از سال 2003)، محدودیت پایین گستره(انتشارات بعد از 2009) و یا هر دوی آنهاست (مانند انتشارات بین سالهای 2004 تا 2008). پایگاه های اطلاعاتی عددی و تاریخ های انتشار، مثال های معمولی از جستجوی میدانی هستند.
تطابق از طریق اندازه تشابه ((Similarity measurement matching     این نوع تطابق از راه های مختلفی انجام می شود.به طور مثال تطابق در مدل فضای برداری بر پایه فاصله بردارها و درجه زاویه بردار است. یعنی زاویه بردار کوچک تر برابر است با درجه تشابه بیشتر بین پرسش و مدرک. در مدل احتمالی تشابه بر اساس تکرار واژه تعین می شود تا احتمال ربط بین پرسش و مدرک به دست آید. در این نوع تطابق، بیشتر از خود اصطلاحات، تشابه آنها مدنظر است.
مدل منطقی بولی (The Boolean Logic Model)
    این مدل بعد از ارایه آن توسط ژرژ بول (George Boole) در میانۀ قرن نوزدهم ارایه شد، به این عنوان نام گذاری شد. منطق بولی سه عملکرد منطقی را در بر می گیرد: ضرب منطقی (x)، جمع منطقی (+)، و تفریق منطقی (-). سه عملگر AND, OR, NOT برای بیان عملکرد های منطقی در بازیابی اطلاعات مورد استفاده قرار می گیرد. ضرب منطقی یا عملگر AND دو یا چند اصطلاح را در بیان جستجو ترکیب می کند و باید تمام واژهای مورد جستجو در مدرک موجود باشد تا آن مدرک بازیابی شود. جمع منطقی یا عملگر OR دو یا چند مترادف یا اصطلاح مرتبط را در عبارت جستجو به هم متصل می کرد. مدارکی که شامل هر کدام از واژگان مشخص شده هستند در جستجو به عنوان نتیجه نهایی ارایه می شوند. تفریق منطقی یا عملگر NOT ، جستجو ها را به آنهایی که اصطلاح بعد از NOT در آنها وجود نداشته باشد محدود می کند.   
نقاط قوت مدل منطق بولی اولاً:استفاده زیاد از مدل منطق بولی در بازیابی اطلاعات بر ارزش این مدل صحه می گذارد. این مدل امکان دستکاری جنبه های مختلف را از طریق تجزیه و تحلیل کردن پرسش فراهم می آورد. عملگر AND می تواند در جنبۀ ساده را برای تشکیل یک رابطۀ پیچیده ترکیب کند و به این ترتیب جستجو را محدود می کند. عملگر OR جنبه های متفاوت یک پرسش یا مدرک را جمع می کند و جستجو را گسترش می دهد. عملگر NOT جنبه های پیچیده یک جستجو را تفکیک می کند، بنابراین موارد نا مطلوب را از نتیجۀ نهایی جدا می کند. این اصلاحات در جستجو، اگر به طور صحیح به کار گرفته شوند، می توانند انعطاف پذیری و تاثیرگذاری جستجو را در بازیابی اطلاعات به ارمغان بیاورند، در سطحی که هیچ کدام از مدل های دیگر نمی توانند این کار را انجام دهند.
ثانیاً:سیستم های بازیابی با منطق بولی، هزینه اثربخشی خوبی دارند و استفاده از آن تاکنون برای کاربران اجتناب ناپذیر بوده است.
سوم:اینکه این مدل به آسانی درک می شود و قابل فهم است. در مقایسه با کارهایی که این مدل می تواند انجام دهد، بحث های کمتری در مورد ناتوانایی های این مدل شده است که این نیز به دو دلیل است.یکی اینکه مدل منطقی بولی در میان مدل های IR قدیمی ترین است. تصور می شود که نقاط قوت آن چنان زیاد است که به جزئیات بیشتری نیاز نباشد. عامل دوم این است که منطق بولی، به عنوان قدیمیترین مدل در IR، زمانی نقد شود که مدل IR  قوی تری ارائه شود. طبیعی است که افراد می گویند که مدل جدید IR ، برای غلبه بر محدودیت های مدل قدیمی تر بوجود می آید. طراحان سیستم و کاربران تمایل دارند که با مدلی کار کنند که به خوبی فهمیده شده است.
چهارم:سیستم های مبتنی برمنطق بولی IR در مقایسه با دیگر سیستم های مبتنی بر سایر مدل های IR، به عنوان الگوریتم هایی جامع ، به کار گیری آنها ساده تر است وآسانتر ساخته می شوند و ممکن است در بخشی از سیستم های IR بولی مشارکت کنند. به دلیل نقاط قوت بیان شده، معمولاً زمانی که مدل های بازیابی IR در جزئیات بررسی می شوند، مدل منطقی بیشتر مورد توجه است.
محدودیت های مدل منطقی بولی نخست:برای کاربرانی که آموزش دیده نیستند دنبال کردن جستجو ها مشکل است. مشکل از دو نظر ایجاد می شود. 1- برای کاربران انتخاب عملگر مناسب مشکل است. اغلب، آنها بین استفاده از عملگر های AND و OR دچار ابهام می شوند. این دو کلمه درک معمول یا معنای مرسوم متفاوت هستند. 2- برای کاربر مشکل است که نظم درستی را در فرایند ترکیب عملگرها به کار گیرند.جستجوی بولین ترکیبی شامل بیشتر از یک نوع عملگر خواهد بود که نظم طبیعی آن در این جستجو به این صورت تعریف تعریف شده است: ابتدا عملگر NOT،سپس عملگر ADN و در آخرORیعنی کاربران نمی توانند نظم طبیعی جستجوی ترکیبی بولی را تغییر دهند، مگر اینکه آموزش ها و تمرینات مناسب داشته باشند.
دوم: بیان روابطی غیر از عملگرهای بولی مشکل است. چون این مکانیسم ها در این مدل پیش بینی نشده است. درست است که از طریق جستجوهای ترکیبی مفاهیم پیچیده تری را می شود مطرح کرد، اما این کار باعث می شود تفاسیر اشتباهی بوجود آید که در نتیجه ناتوانی مدل عملگر های بولی در بیان روابط است.  سوم: نبود مکانیسم وزن دهی در مدل منطقی بولی برای مشخص کردن اهمیت و وزن دهی به مفاهیم در طوال جستجو.
چهارم: بیان ربط نسبی جستجو در این مدل است، چون مدل منطقی بولی تمام داده ها را در سیستم، با میزان ربط یکسانی مرتب می کند که این کار برحسب تطابق پرسش و بازنمود مدارک مرتبط یا غیر مرتبط است. بنابراین این سیستم نمی تواند نتایج را بر حسب ربط افزایشی نشان دهد. در نتیجه خروجی های مرتب شده نخواهد شد و کاربر نمی تواند مثلا 15 مدرک بسیار مرتبط را بازیابی کند، کاربر مجبور است تمام نتایج را ببیند، که گاهی تعداد آن به هزاران یا حتی بیشتر هم می رسد، که سیستم بولی آن را بدون نظم ربط آن را نمایش داده است. از این نظر، کاربر کنترلی بر تعداد خروجی ها ندارد.
پنجم: کاربر ممکن است هیچ نتیجه ای را پیدا نکند یا نتایج همپوشانی بسیاری با هم داشته باشند. خروجی صفر در حالتی که جستجو بسیار محدود شده است پیش می آید. مثلا چندین اصطلاح از طریق عملگر AND  با هم ترکیب شده باشند. ضمناً همپوشانی نتایج زمانی اتفاق می افتد که عبارت جستجو گسترده باشد، مثلاً چندین اصطلاح از طریق عملگر OR  با هم ترکیب شده باشند
مدل فضای برداری  (Vector space model)
مدل فضای برداری که با نام مدل پردازش نسبی نیز شناخته می شود، توسط سالتون و همکارانش ارایه شد. در مدل فضای برداری هر اصطلاح به عنوان یک بعد تعریف می شود و هر پرسش یا مدرک به عنوان یک بردار. یک بردار شامل لیستی از ارزش های نمایانگر اصطلاح یک مدرک است. (مثلاً یک پرسش یا سند). این ارزش هم می تواند دودویی (Binary) باشد و هم وزن دهی شده. ارزش های دودویی می توان صفر یا یک باشد که یک به معنای وجود اصطلاح در یک مدرک باشد. ارزش های وزنی شامل اعداد مثبت واقعی(0و1و2و...) است. ارزش وزنی برای هر اصطلاح مطابق است با اهمیت آن واژه در بازنمود مدرک. طرحی که برای وزن دهی به اصطلاح در مدل فضای برداری مورد استفاده واقع می شود می تواند عینی باشد (مثلا فراوانی اصطلاح) یا غیر عینی باشد (مثلا درک کاربر) .
روش وزن دهی قادر است برای واژگان در بردار وزن تعیین کند. تعداد بعد ها در بردار پرسش و مدرک برابر است با تعداد واژگان متفاوتی که در مدرک وجود دارند و بازنمود مدرک هستند. همۀ بردارهای پرسش و مدرک یک فضای چند بعدی را تشکیل می دهند. مجموعه کامل ارزش اصطلاح در بردار، جهت پرسش یا مدرک را توصیف می کنند که در فضا نمود می یابد. هدایت کردن جستجو در سیستم IR فضای برداری به نشان دادن فضای بین یک زاویه، بین بردار پرسش و پاسخ منتج می شود. مدل فضای برداری تشابه بین یک مدرک و یک پرسش را تشخیص می دهد. این کار از طریق مقایسه ابعاد مشابه و حساب کردن تشابهات اندازه گیری شده به عنوان ضریب کسینوس به دست می آید. اگر یک پرسش و یک مدرک در موضوع مشابه باشند زاویۀ بین بردارها باید کوچک باشد.اگر پرسش و مدرک موضوع متفاوتی داشته باشند زاویۀ بین بردارهای آنها باید بسیار زیاد باشد. تشابه بین مدارک نیز به همین طریق اندازه گیری می شود.
فورمول ضریب کسینوس تشابه:                                          =
که در این فورمول: q= پرسش T= تعداد اصطلاحات نمایه ای در سامانه  Ki= یک اصطلاح عام نمایه ای  Dj=  یک سند Wij= dj از سند ki وزن Dj= dj بردار اصطلاح نمایه ای  T= مجموع تعداد اصطلاحات  موجود در سامانه  
نقاط قوت مدل فضای بر داری:  مدل فضای برداری اصول یکسانی را برای طیف گسترده ای از عملگرهای بازیابی فراهم می کند. این عملگرها شامل نمایه سازی (indexing) ، بازخورد ربط (relevance feed back) و طبقه بندی مدارک (doc. Classification ) است. نقاط قوت این مدل زمانی که با محدودیت های مدل منطقی بولی مقایسه می شود کاملا بارز می شود.
نخست:اینکه کاربر زمانی که در سیستم ir فضای برداری جستجو می کند ، دیگر نیازمند این نیست که منطق بولی را بفهمد و آنرا به کار گیرد، بلکه آنچه که کاربر لازم است انجام دهد انتخاب ساده بین چندین واژه بر اساس اطلاعات مورد نیازش است.   دوم: می توان برای نشان دادن اهمیت واژگان یا مفاهیمی که برای ارائه پرسش یا  مدرک انتخاب می شوند ، آنها را در بردار وزن دهی کرد.
سوم : خروجی جستجو های مدل فضای برداری بر حسب ربط افزایش یافته مرتب می شوند. این سیستم قادر است که مرتبط ترین مدرک را به طور اتوماتیک به کاربر ارائه نماید .  چهارم: بازخورد درربط(relevance feed back) مکانیسمی که در مدل فضای برداری برای بهبود بازیابی مورد استفاده واقع می شود. بر اساسی خروجی مرتبطی که قبلا بازیابی شده بود، سیستم ir فضای برداری قادر است به طور اتوماتیک بردار پرسش را اصلاح کند و آن را به کاربر برای نتایج مرتبط تر ارائه دهد  
محدودیت های مدل فضای برداری : نخستین محدودیت: مدل فضای برداری به این برمیگردد که فرض می شود واژگان انتخاب شده برای توصیف مدرک، مستقل هستند. هنگامی که مدل منطقی بولی بررسی می شود مشاهده می شود که این مدل نمی تواند انواع دیگر رابطه ها را غیر از منطق بولی بیان کند. به هر حال مدل فضای برداری قادر به انتقال هر رابطه ای که شامل روابط بولی موجود بین واژؤگان باشد نیست. به علاوه این مدل به این فرض نیاز دارد که واژه هایی که پایه های را برای فضای مدل برداری به وجود می آورند از همدیگر مستقل است. این فرض به طور واضح نادرست است.
محدودیت دوم مدل فضای برداری، مشکل بودن مشخص کردن صریح مترادف ها یا روابط عبارتی است که این محدودیت به دلیل فقدان عملگرهای بولی و مجاورتی است. برای خاص تر کردن ، این مدل عملگرهای مجاورتی و بولی را پشتیبانی نمی کند. در نتیجه، عملگر or را برای مترادف ها نمی توان به کار بر د و عمگر with را برای ساختن یک عبارت نمی توان استفاده کرد.
محدودیت سوم  مدل فضای برداری به مکانیسم وزن دهی آن مربوط است . این مکانیسم پیچیده و غیر عینی است. زمانی که کاربر می خواهد برایاصطلاحات وزن تعیین کند، مخصوصاً اصطلاحات پرسش(که این وزن دهی بر اساس درک و قضاوت خودش است) فرایند وزن دهی عینی است. کاربر  باید میزان اهمیت مرتبط بات واژه را پیش بینی کند که سپس برای آن وزن تعیین کند. غیر عینی بودن و ذهنی بودن در طول این فرایند اجتناب ناپذیر است. از طرف دیگر، وزن دهی در شرایطی که بدون الگویتم وزن دهی این کار انجام شود، بدون اشتباه نخواهد بود و یافتن بهترین الگوریتم برای یک محیط بازیابی خاص کار آسانی نیست..
مدل فضای برداری برای ارائه یک پرسش یا مدرک به چندین اصطلاح نیاز دارد. در حالی که در مدل منطقی بولی دو یا سه واژه ای که با AND مرتبط شده اند برای دادن خروجی های با کیفیت مناسب هستند. تعین کردن واژه های بیشتر در مدل فضای برداری نتایج با ارزش بیشتری را می دهد.
مدل احتمالی  (probability model)
این مدلتوسط مارون و کوهن(Maron and Kuhns) ارائه شده است. و بعد ها توسط روبرتسون و سایر محققان توسعه یافت. این مدل نظریۀ احتمال را به کار می گیرد. هر رویدادی احتمالی از ه تا 100 درصد دارد که در بازیابی اطلاعات رخ بدهد. عوامل عدم قطعیت و نامعلومی در فرایند ir وجود دارند. به طور مثال عدم قطعیت در مورد اینکه آیا مدارک بازیابی شده از طریق سیستم با پرسش مطرح شده مرتبط هستند یا خیر. این مدل، احتمال اینکه مدرک با پرسش مرتبط باشد را بر اساس برخی روش ها ارزیابی و حساب می کند.
رویداد، در این زمینه از بازیابی اطلاعات، به احتمال ربط بین پرسش و مدرک اشاره دارد. بر خلاف دیگر مدل های ir مدل احتمالی با مقولۀربط واژگان ، از عبارت دقیق یا بدون ربط برخورد نمی کند، بلکه ربط واژگان بر اساس احتمال است. برای مثال ، مدرک d به احتمال 35 درصد با پرسش q مرتبط است
نقاط قوت مدل احتمالی: نخست:این مدل راهنمایی های مهمی برای مشخص کردن فرایند های بازیابی و همچنین توجیهات تئوری برای مواردی که قبال بر اساس تجربه انجام می شد، از قبیل تعریف سیستم های وزن دهی به واژگان را فراهم می کند. فرایند های بازیابی با درجه نااطمینانی هنگامی که ربط بین پرسش و مدرک مورد قضاوت قرار می گیرد توصیف می شود. بیان احتمال ربط به جای ربط مطلق بین پرسش و مدرک، بسیار واقعی تر است. به علاوه، عملگر های بیشتر در این مدل از قبیل اندازه تشابه بین مدرک و پرسش، به جای اینکه بعضی تصمیمات دلخواهانه(همانند مدل بولی) آنرا تعیین کند، از طریق خود مدل تعیین می شود.
دوم: این مدل در عملگرهای خود، همبستگی واژگان و روابط آنها را شامل می شود.مثلاً یک رویداد بر رویداد دیگر تاثیر می گذارد.کاربران دیگر نیاز ندارند که همانند مدل فضای برداری ، استقلال واژگان را فرض کنند. خروجی های مرتب شده تهیه می شوند ، چون مدل فرض می کند که اصول عملکرد سیستم ir بر اساس مرتب کردن مدارک در یک مجموعه، بر حسب احتمال صعودی است که بر  حسب نیاز اطلاعاتی کاربر  است. این مفروضات را "اصول مرتب سازی احتمال" می نامند. به وسیله اصول مرتب سازی احتمال کاربر می تواند بر حجم خروجی های بازیابی شده کنترل داشته باشد.
سوم: این مدل قادر است از مزایای بازخورد اطلاعات (info. Feed back) برای توسعه روش های پیشرفته استفاده کند.  چهارم: مدل احتمالی در شکل اولیه آن تسهیلات عملگر های بولی را که بسیاری از کاربران استفاده از آن را مشکل می پنداشتند، به کار نمی گیرد. از این نظر سیستم های بازیابی اطلاعات بر اساس مدل احتمال ، بسیار کاربر پسند تر از سیستم های  ir، بر اساس منطق بولی هستند.
محدودیت های مدل احتمالی : نخست:اگر چه میزان ربط در این مدل، به جای دو بخشی بودن از صفر و یک مدل بولی، پیوسته است ، مدل احتمالی فرض می کند که ربط ، خاصیت دودویی (binary) دارد که در اینجا pr(rel) احتمال ربط است و pr(nonrel) احتمال عدم ربط. در کارهای دیگر، ارزش احتمال ربط که ثابت است به دست می آید و از تفاضل آن از عدد یک، عدم ربط هم به دست می آید. فرض دوبخشی بودن قویترین فرض است و اغلب هم خیلی معتبر  نیست.
دوم: مدل احتمال نمی تواند تاثیر گذاری بازیابی را خیلی بهبود بخشد. نتایجی که از طریق مدل احتمالی به دست می آیند اگر چه خوب هستند، اما بهتر از نتایج بازیابی شده از سیستم های مدل بولی یا فضای برداری نیستند. هنگامی که تنها از یک مدل استفاده می کنیم سوالهای زیادی در مورد لزوم یک مدل ir دیگر ظهور می کند.
مقایسه مختصر مدل های کلاسیک: عموماً نظر بر این است که مدل بولی ضعیف ترین روش کلاسیک است. مشکل اصلی در این روش ، ناتوانی در تشخیص انطباق های جزیی است که اغلب به عملکرد ضعیف منتهی می شود. در این باره که آیا مدل احتمالاتی، بهتر از مدل برداری عمل می کند، بحث و مجادله وجود دارد. «کرافت» ازمایش های چندی انجام دهد و اظهار کرد که مدل احتمالاتی ، در بازیابی عملکرد بهتری را نشان می دهد. اما در آزمایش های بعدی  «سالتون» و «باکلی» با چندین آزمایش مختلف  نشان دادند که انتظار می رود مدل برداری در کار با گردآوردهای عام ، از مدل احتمالی پیشی بگیرد. همچنین به نظر میرسد این تفکر در میان پژوهشگران ، شاغلان ، و جامعه وب ـــ که محبوبیت  مدل برداری در آنجا رو به فزونی است ــــ تفکر غالب باشد.
یا به اندازۀ تلاشت آرزو کن                    یا به اندازۀ آرزوهایت تلاش کن

Contenu connexe

En vedette

Break Even adv - Presentazione 2012 - Canali Tematici
Break Even adv - Presentazione 2012 - Canali TematiciBreak Even adv - Presentazione 2012 - Canali Tematici
Break Even adv - Presentazione 2012 - Canali Tematicibreakevenadv
 
Powerpoint
PowerpointPowerpoint
Powerpointyucho
 
Data Shaping Consumer Decisions and 5 Key Trends in User Behaviour and Tech...
Data Shaping Consumer Decisions and 5 Key Trends in User Behaviour and Tech...Data Shaping Consumer Decisions and 5 Key Trends in User Behaviour and Tech...
Data Shaping Consumer Decisions and 5 Key Trends in User Behaviour and Tech...Miami Ad School/ESPM
 
Icarly מצגת
Icarly מצגתIcarly מצגת
Icarly מצגתRonchuk197
 
Karlovy vary
Karlovy varyKarlovy vary
Karlovy varyVesdo 1
 
Imagining data slides
Imagining data slidesImagining data slides
Imagining data slidescruz.at
 
Piesen o rodnej_zemi
Piesen o rodnej_zemiPiesen o rodnej_zemi
Piesen o rodnej_zemiVesdo 1
 
How Integrated Talent Management Can Improve Your Return On People Final
How Integrated Talent Management Can Improve Your Return On People  FinalHow Integrated Talent Management Can Improve Your Return On People  Final
How Integrated Talent Management Can Improve Your Return On People FinalGary Kilzer
 
Ave maria ob
Ave maria obAve maria ob
Ave maria obVesdo 1
 
Open Wonderland SubSnapshots Project
Open Wonderland SubSnapshots ProjectOpen Wonderland SubSnapshots Project
Open Wonderland SubSnapshots ProjectNicole Yankelovich
 
+ Kyticky a_vera_spinarova
+ Kyticky a_vera_spinarova+ Kyticky a_vera_spinarova
+ Kyticky a_vera_spinarovaVesdo 1
 
נפלו בין הכיסאות
נפלו בין הכיסאותנפלו בין הכיסאות
נפלו בין הכיסאותreisegali
 
Simply wonderful
Simply wonderfulSimply wonderful
Simply wonderfulVesdo 1
 

En vedette (18)

Break Even adv - Presentazione 2012 - Canali Tematici
Break Even adv - Presentazione 2012 - Canali TematiciBreak Even adv - Presentazione 2012 - Canali Tematici
Break Even adv - Presentazione 2012 - Canali Tematici
 
Powerpoint
PowerpointPowerpoint
Powerpoint
 
Introduction to AdWords
Introduction to AdWordsIntroduction to AdWords
Introduction to AdWords
 
Future of Web Design
Future of Web DesignFuture of Web Design
Future of Web Design
 
Laporan kadar asam
Laporan kadar asamLaporan kadar asam
Laporan kadar asam
 
Data Shaping Consumer Decisions and 5 Key Trends in User Behaviour and Tech...
Data Shaping Consumer Decisions and 5 Key Trends in User Behaviour and Tech...Data Shaping Consumer Decisions and 5 Key Trends in User Behaviour and Tech...
Data Shaping Consumer Decisions and 5 Key Trends in User Behaviour and Tech...
 
Icarly מצגת
Icarly מצגתIcarly מצגת
Icarly מצגת
 
Karlovy vary
Karlovy varyKarlovy vary
Karlovy vary
 
Imagining data slides
Imagining data slidesImagining data slides
Imagining data slides
 
Piesen o rodnej_zemi
Piesen o rodnej_zemiPiesen o rodnej_zemi
Piesen o rodnej_zemi
 
How Integrated Talent Management Can Improve Your Return On People Final
How Integrated Talent Management Can Improve Your Return On People  FinalHow Integrated Talent Management Can Improve Your Return On People  Final
How Integrated Talent Management Can Improve Your Return On People Final
 
Ave maria ob
Ave maria obAve maria ob
Ave maria ob
 
Open Wonderland SubSnapshots Project
Open Wonderland SubSnapshots ProjectOpen Wonderland SubSnapshots Project
Open Wonderland SubSnapshots Project
 
Pusinky
PusinkyPusinky
Pusinky
 
Acdc
AcdcAcdc
Acdc
 
+ Kyticky a_vera_spinarova
+ Kyticky a_vera_spinarova+ Kyticky a_vera_spinarova
+ Kyticky a_vera_spinarova
 
נפלו בין הכיסאות
נפלו בין הכיסאותנפלו בין הכיסאות
נפלו בין הכיסאות
 
Simply wonderful
Simply wonderfulSimply wonderful
Simply wonderful
 

Similaire à H:\مىل هاي باؤيابي

Ordbms پایگاه داده شی گرا-رابطه ای
Ordbms پایگاه داده شی گرا-رابطه ایOrdbms پایگاه داده شی گرا-رابطه ای
Ordbms پایگاه داده شی گرا-رابطه ایAli Moradi
 
particle swarm optimized autonomous learning fuzzy system
particle swarm optimized autonomous learning fuzzy systemparticle swarm optimized autonomous learning fuzzy system
particle swarm optimized autonomous learning fuzzy systemAmir Shokri
 
Cd student help-final
Cd student help-finalCd student help-final
Cd student help-finalsaaheh
 
93 7-4- final- proposal writing
93 7-4- final- proposal writing93 7-4- final- proposal writing
93 7-4- final- proposal writingReza Assadi
 
نگرشی بر کتاب روش تحقیق مهندسی یک بینش عملی برای محققان
نگرشی بر کتاب روش تحقیق مهندسی یک بینش عملی برای محققاننگرشی بر کتاب روش تحقیق مهندسی یک بینش عملی برای محققان
نگرشی بر کتاب روش تحقیق مهندسی یک بینش عملی برای محققانmehran sultany nezhad
 
نحوه ی نوشتن پروپوزال
نحوه ی نوشتن پروپوزالنحوه ی نوشتن پروپوزال
نحوه ی نوشتن پروپوزالAmirRahimi25
 
Instructions for Big data analysis and modelling
Instructions for Big data analysis and modellingInstructions for Big data analysis and modelling
Instructions for Big data analysis and modellingkeivan mahdavi
 
Software methodologies, Chapter 29, Kaizen
Software methodologies, Chapter 29, KaizenSoftware methodologies, Chapter 29, Kaizen
Software methodologies, Chapter 29, KaizenMohammad Kadkhodaei
 
Why our papers publish in low impact journals 1
Why our papers publish in low impact journals 1Why our papers publish in low impact journals 1
Why our papers publish in low impact journals 1Abbas Keshtkar
 
آموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایع
آموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایعآموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایع
آموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایعSiamak H. Mehrabani
 
نرمال سازی بانك های اطلاعاتی
نرمال سازی بانك های اطلاعاتینرمال سازی بانك های اطلاعاتی
نرمال سازی بانك های اطلاعاتیnioshapakpour
 
Ahp multi index decision . ms.samaneh mirrahimi and ms.masomeh jahanshahi
Ahp  multi index decision . ms.samaneh mirrahimi and ms.masomeh jahanshahiAhp  multi index decision . ms.samaneh mirrahimi and ms.masomeh jahanshahi
Ahp multi index decision . ms.samaneh mirrahimi and ms.masomeh jahanshahiHossein Zeinivand
 
Classification of Iris flower data
Classification of Iris flower dataClassification of Iris flower data
Classification of Iris flower datasahar zare
 
Enterprise Resource Planning Implementation Architectures and Frameworks.pdf
Enterprise Resource Planning Implementation Architectures and Frameworks.pdfEnterprise Resource Planning Implementation Architectures and Frameworks.pdf
Enterprise Resource Planning Implementation Architectures and Frameworks.pdfhadi mikaili manie
 
Organizational Learning - Persian
Organizational Learning - PersianOrganizational Learning - Persian
Organizational Learning - PersianHamideh Iraj
 
دانلود رایگان فایل کد آموزشی داده کاوی خوشه بندی K-means در متلب
دانلود رایگان فایل کد آموزشی داده کاوی خوشه بندی K-means در متلبدانلود رایگان فایل کد آموزشی داده کاوی خوشه بندی K-means در متلب
دانلود رایگان فایل کد آموزشی داده کاوی خوشه بندی K-means در متلبکتابخانه خانه متلب
 

Similaire à H:\مىل هاي باؤيابي (20)

Ordbms پایگاه داده شی گرا-رابطه ای
Ordbms پایگاه داده شی گرا-رابطه ایOrdbms پایگاه داده شی گرا-رابطه ای
Ordbms پایگاه داده شی گرا-رابطه ای
 
particle swarm optimized autonomous learning fuzzy system
particle swarm optimized autonomous learning fuzzy systemparticle swarm optimized autonomous learning fuzzy system
particle swarm optimized autonomous learning fuzzy system
 
Cd student help-final
Cd student help-finalCd student help-final
Cd student help-final
 
S1
S1S1
S1
 
93 7-4- final- proposal writing
93 7-4- final- proposal writing93 7-4- final- proposal writing
93 7-4- final- proposal writing
 
نگرشی بر کتاب روش تحقیق مهندسی یک بینش عملی برای محققان
نگرشی بر کتاب روش تحقیق مهندسی یک بینش عملی برای محققاننگرشی بر کتاب روش تحقیق مهندسی یک بینش عملی برای محققان
نگرشی بر کتاب روش تحقیق مهندسی یک بینش عملی برای محققان
 
نحوه ی نوشتن پروپوزال
نحوه ی نوشتن پروپوزالنحوه ی نوشتن پروپوزال
نحوه ی نوشتن پروپوزال
 
Instructions for Big data analysis and modelling
Instructions for Big data analysis and modellingInstructions for Big data analysis and modelling
Instructions for Big data analysis and modelling
 
Software methodologies, Chapter 29, Kaizen
Software methodologies, Chapter 29, KaizenSoftware methodologies, Chapter 29, Kaizen
Software methodologies, Chapter 29, Kaizen
 
Why our papers publish in low impact journals 1
Why our papers publish in low impact journals 1Why our papers publish in low impact journals 1
Why our papers publish in low impact journals 1
 
Time series data mining
Time series data miningTime series data mining
Time series data mining
 
آموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایع
آموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایعآموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایع
آموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایع
 
نرمال سازی بانك های اطلاعاتی
نرمال سازی بانك های اطلاعاتینرمال سازی بانك های اطلاعاتی
نرمال سازی بانك های اطلاعاتی
 
Ahp multi index decision . ms.samaneh mirrahimi and ms.masomeh jahanshahi
Ahp  multi index decision . ms.samaneh mirrahimi and ms.masomeh jahanshahiAhp  multi index decision . ms.samaneh mirrahimi and ms.masomeh jahanshahi
Ahp multi index decision . ms.samaneh mirrahimi and ms.masomeh jahanshahi
 
Mcdm
McdmMcdm
Mcdm
 
Classification of Iris flower data
Classification of Iris flower dataClassification of Iris flower data
Classification of Iris flower data
 
Voic maning
Voic maningVoic maning
Voic maning
 
Enterprise Resource Planning Implementation Architectures and Frameworks.pdf
Enterprise Resource Planning Implementation Architectures and Frameworks.pdfEnterprise Resource Planning Implementation Architectures and Frameworks.pdf
Enterprise Resource Planning Implementation Architectures and Frameworks.pdf
 
Organizational Learning - Persian
Organizational Learning - PersianOrganizational Learning - Persian
Organizational Learning - Persian
 
دانلود رایگان فایل کد آموزشی داده کاوی خوشه بندی K-means در متلب
دانلود رایگان فایل کد آموزشی داده کاوی خوشه بندی K-means در متلبدانلود رایگان فایل کد آموزشی داده کاوی خوشه بندی K-means در متلب
دانلود رایگان فایل کد آموزشی داده کاوی خوشه بندی K-means در متلب
 

H:\مىل هاي باؤيابي

  • 1. مدل های بازیابی اطلاعاتمدل های کلاسیک Masoud_mohamadi@live.com
  • 2. تعریف یک مدل: توصیف آزمایشی یک تئوری یا سیستم که تمامی ویژگی های آن را تشریح می کند.(Soukhanov, et al. (1946
  • 3. اساس تمام مدل ها: تطابق ((Matching تطابق یک مدل در بازیابی اطلاعات نیست، بلکه پایه و اساس فعالیت های بازیابی اطلاعات است. تطابق ارگانیسم اساسی بازیابی اطلاعات است. تطابق می تواند بین واژگان یا بین معیارهای تشابه از قبیل فاصله و بسامد واژگان.
  • 4. تطابق واژگان (Term matching) واژه هایی که در بازیابی اطلاعات مورد استفاده واقع میشوند کلید واژه ها، توصیف کننده ها یا شناسانگر ها هستند. واژگان همچنین شامل لغات، عبارات و سایر بیانات هستند. تطابق واژگان می تواند از چهار طریق اجرا شود: تطابق عین واژه(Exact match), تطابق نسبی ( Partial match), تطابق موقعیتی (Positional match), تطابق میدانی (Range match)
  • 5. تطابق عین واژه (Exact match) بدین معناست که بازنمودهای سوال با بازنمودهای مدرک در سیستم بازیابی اطلاعات، دقیقاً مطابقت داشته باشند. جستجوی عبارتی (phrase search) نمونه ای از این تطابق است. برای مثال عبارت web filtering یک عبارت در جعبه جستجو است. دقیقاً همان عبارت در سیستم برای جستجو مدنظر قرار می گیرد و در نتیجه جستجو عین این عبارت به دست می آید.  
  • 6. تطابق نسبی (Partial match) بر خلاف تطابق عین واژه ، در تطابق نسبی بخشی از عبارت مورد جستجو با بازنمود های مدرک در سیستم بازیابی اطلاعات تطابق دارد. کوتاه سازی یا truncation معمول ترین نمونه از جشتجوی نسبی است. برای مثال، در یک جستجو در این حالت، در پاسخ به پرسش Information technolog* (که در اینجا علامت * نشان دهنده کوتاه سازی است) مدارکی هم که شامل Information technology, information technologies, information technologists مشوند، بازیابی می شوند.
  • 7. تطابق موقعیتی (Positional match) این تطابق با در نظر گرفتن موقعیت آنچه که در فرایند بازیابی اطلاعات بازیابی می شود انجام می گیرد. اگر عبارت جستجو used 1WITH store باشد نتایج جستجو شامل مدارکی می شود که عباراتی از قبیل used book store, used cloth store ,used information store را در بر دارند. در اینجا تطابق تنها از طریق کلمات ابتدایی و انتهایی که بین پرسش و بازنمود مدرک مشابه هستند انجام می شود و واژه های در بین موقعیت آنها در فرایند تطابق در نظر گرفته نمی شود.
  • 8. تطابق میدانی(Range match) برای عبارات عددی کاربرد دارد. مانند مقدار فروش. یا برای عبارات دارای نظم طبیعی مانند ماه های سال. آنچه که در این تطابق به آن توجه می شود محدودیت بالای گستره(مانند انتشارات قبل از سال 2003)، محدودیت پایین گستره(انتشارات بعد از 2009) و یا هر دوی آنهاست (مانند انتشارات بین سالهای 2004 تا 2008). پایگاه های اطلاعاتی عددی و تاریخ های انتشار، مثال های معمولی از جستجوی میدانی هستند.
  • 9. تطابق از طریق اندازه تشابه ((Similarity measurement matching این نوع تطابق از راه های مختلفی انجام می شود.به طور مثال تطابق در مدل فضای برداری بر پایه فاصله بردارها و درجه زاویه بردار است. یعنی زاویه بردار کوچک تر برابر است با درجه تشابه بیشتر بین پرسش و مدرک. در مدل احتمالی تشابه بر اساس تکرار واژه تعین می شود تا احتمال ربط بین پرسش و مدرک به دست آید. در این نوع تطابق، بیشتر از خود اصطلاحات، تشابه آنها مدنظر است.
  • 10. مدل منطقی بولی (The Boolean Logic Model)
  • 11. این مدل بعد از ارایه آن توسط ژرژ بول (George Boole) در میانۀ قرن نوزدهم ارایه شد، به این عنوان نام گذاری شد. منطق بولی سه عملکرد منطقی را در بر می گیرد: ضرب منطقی (x)، جمع منطقی (+)، و تفریق منطقی (-). سه عملگر AND, OR, NOT برای بیان عملکرد های منطقی در بازیابی اطلاعات مورد استفاده قرار می گیرد. ضرب منطقی یا عملگر AND دو یا چند اصطلاح را در بیان جستجو ترکیب می کند و باید تمام واژهای مورد جستجو در مدرک موجود باشد تا آن مدرک بازیابی شود. جمع منطقی یا عملگر OR دو یا چند مترادف یا اصطلاح مرتبط را در عبارت جستجو به هم متصل می کرد. مدارکی که شامل هر کدام از واژگان مشخص شده هستند در جستجو به عنوان نتیجه نهایی ارایه می شوند. تفریق منطقی یا عملگر NOT ، جستجو ها را به آنهایی که اصطلاح بعد از NOT در آنها وجود نداشته باشد محدود می کند.  
  • 12. نقاط قوت مدل منطق بولی اولاً:استفاده زیاد از مدل منطق بولی در بازیابی اطلاعات بر ارزش این مدل صحه می گذارد. این مدل امکان دستکاری جنبه های مختلف را از طریق تجزیه و تحلیل کردن پرسش فراهم می آورد. عملگر AND می تواند در جنبۀ ساده را برای تشکیل یک رابطۀ پیچیده ترکیب کند و به این ترتیب جستجو را محدود می کند. عملگر OR جنبه های متفاوت یک پرسش یا مدرک را جمع می کند و جستجو را گسترش می دهد. عملگر NOT جنبه های پیچیده یک جستجو را تفکیک می کند، بنابراین موارد نا مطلوب را از نتیجۀ نهایی جدا می کند. این اصلاحات در جستجو، اگر به طور صحیح به کار گرفته شوند، می توانند انعطاف پذیری و تاثیرگذاری جستجو را در بازیابی اطلاعات به ارمغان بیاورند، در سطحی که هیچ کدام از مدل های دیگر نمی توانند این کار را انجام دهند.
  • 13. ثانیاً:سیستم های بازیابی با منطق بولی، هزینه اثربخشی خوبی دارند و استفاده از آن تاکنون برای کاربران اجتناب ناپذیر بوده است.
  • 14. سوم:اینکه این مدل به آسانی درک می شود و قابل فهم است. در مقایسه با کارهایی که این مدل می تواند انجام دهد، بحث های کمتری در مورد ناتوانایی های این مدل شده است که این نیز به دو دلیل است.یکی اینکه مدل منطقی بولی در میان مدل های IR قدیمی ترین است. تصور می شود که نقاط قوت آن چنان زیاد است که به جزئیات بیشتری نیاز نباشد. عامل دوم این است که منطق بولی، به عنوان قدیمیترین مدل در IR، زمانی نقد شود که مدل IR قوی تری ارائه شود. طبیعی است که افراد می گویند که مدل جدید IR ، برای غلبه بر محدودیت های مدل قدیمی تر بوجود می آید. طراحان سیستم و کاربران تمایل دارند که با مدلی کار کنند که به خوبی فهمیده شده است.
  • 15. چهارم:سیستم های مبتنی برمنطق بولی IR در مقایسه با دیگر سیستم های مبتنی بر سایر مدل های IR، به عنوان الگوریتم هایی جامع ، به کار گیری آنها ساده تر است وآسانتر ساخته می شوند و ممکن است در بخشی از سیستم های IR بولی مشارکت کنند. به دلیل نقاط قوت بیان شده، معمولاً زمانی که مدل های بازیابی IR در جزئیات بررسی می شوند، مدل منطقی بیشتر مورد توجه است.
  • 16. محدودیت های مدل منطقی بولی نخست:برای کاربرانی که آموزش دیده نیستند دنبال کردن جستجو ها مشکل است. مشکل از دو نظر ایجاد می شود. 1- برای کاربران انتخاب عملگر مناسب مشکل است. اغلب، آنها بین استفاده از عملگر های AND و OR دچار ابهام می شوند. این دو کلمه درک معمول یا معنای مرسوم متفاوت هستند. 2- برای کاربر مشکل است که نظم درستی را در فرایند ترکیب عملگرها به کار گیرند.جستجوی بولین ترکیبی شامل بیشتر از یک نوع عملگر خواهد بود که نظم طبیعی آن در این جستجو به این صورت تعریف تعریف شده است: ابتدا عملگر NOT،سپس عملگر ADN و در آخرORیعنی کاربران نمی توانند نظم طبیعی جستجوی ترکیبی بولی را تغییر دهند، مگر اینکه آموزش ها و تمرینات مناسب داشته باشند.
  • 17. دوم: بیان روابطی غیر از عملگرهای بولی مشکل است. چون این مکانیسم ها در این مدل پیش بینی نشده است. درست است که از طریق جستجوهای ترکیبی مفاهیم پیچیده تری را می شود مطرح کرد، اما این کار باعث می شود تفاسیر اشتباهی بوجود آید که در نتیجه ناتوانی مدل عملگر های بولی در بیان روابط است. سوم: نبود مکانیسم وزن دهی در مدل منطقی بولی برای مشخص کردن اهمیت و وزن دهی به مفاهیم در طوال جستجو.
  • 18. چهارم: بیان ربط نسبی جستجو در این مدل است، چون مدل منطقی بولی تمام داده ها را در سیستم، با میزان ربط یکسانی مرتب می کند که این کار برحسب تطابق پرسش و بازنمود مدارک مرتبط یا غیر مرتبط است. بنابراین این سیستم نمی تواند نتایج را بر حسب ربط افزایشی نشان دهد. در نتیجه خروجی های مرتب شده نخواهد شد و کاربر نمی تواند مثلا 15 مدرک بسیار مرتبط را بازیابی کند، کاربر مجبور است تمام نتایج را ببیند، که گاهی تعداد آن به هزاران یا حتی بیشتر هم می رسد، که سیستم بولی آن را بدون نظم ربط آن را نمایش داده است. از این نظر، کاربر کنترلی بر تعداد خروجی ها ندارد.
  • 19. پنجم: کاربر ممکن است هیچ نتیجه ای را پیدا نکند یا نتایج همپوشانی بسیاری با هم داشته باشند. خروجی صفر در حالتی که جستجو بسیار محدود شده است پیش می آید. مثلا چندین اصطلاح از طریق عملگر AND با هم ترکیب شده باشند. ضمناً همپوشانی نتایج زمانی اتفاق می افتد که عبارت جستجو گسترده باشد، مثلاً چندین اصطلاح از طریق عملگر OR با هم ترکیب شده باشند
  • 20. مدل فضای برداری (Vector space model)
  • 21. مدل فضای برداری که با نام مدل پردازش نسبی نیز شناخته می شود، توسط سالتون و همکارانش ارایه شد. در مدل فضای برداری هر اصطلاح به عنوان یک بعد تعریف می شود و هر پرسش یا مدرک به عنوان یک بردار. یک بردار شامل لیستی از ارزش های نمایانگر اصطلاح یک مدرک است. (مثلاً یک پرسش یا سند). این ارزش هم می تواند دودویی (Binary) باشد و هم وزن دهی شده. ارزش های دودویی می توان صفر یا یک باشد که یک به معنای وجود اصطلاح در یک مدرک باشد. ارزش های وزنی شامل اعداد مثبت واقعی(0و1و2و...) است. ارزش وزنی برای هر اصطلاح مطابق است با اهمیت آن واژه در بازنمود مدرک. طرحی که برای وزن دهی به اصطلاح در مدل فضای برداری مورد استفاده واقع می شود می تواند عینی باشد (مثلا فراوانی اصطلاح) یا غیر عینی باشد (مثلا درک کاربر) .
  • 22. روش وزن دهی قادر است برای واژگان در بردار وزن تعیین کند. تعداد بعد ها در بردار پرسش و مدرک برابر است با تعداد واژگان متفاوتی که در مدرک وجود دارند و بازنمود مدرک هستند. همۀ بردارهای پرسش و مدرک یک فضای چند بعدی را تشکیل می دهند. مجموعه کامل ارزش اصطلاح در بردار، جهت پرسش یا مدرک را توصیف می کنند که در فضا نمود می یابد. هدایت کردن جستجو در سیستم IR فضای برداری به نشان دادن فضای بین یک زاویه، بین بردار پرسش و پاسخ منتج می شود. مدل فضای برداری تشابه بین یک مدرک و یک پرسش را تشخیص می دهد. این کار از طریق مقایسه ابعاد مشابه و حساب کردن تشابهات اندازه گیری شده به عنوان ضریب کسینوس به دست می آید. اگر یک پرسش و یک مدرک در موضوع مشابه باشند زاویۀ بین بردارها باید کوچک باشد.اگر پرسش و مدرک موضوع متفاوتی داشته باشند زاویۀ بین بردارهای آنها باید بسیار زیاد باشد. تشابه بین مدارک نیز به همین طریق اندازه گیری می شود.
  • 24. که در این فورمول: q= پرسش T= تعداد اصطلاحات نمایه ای در سامانه Ki= یک اصطلاح عام نمایه ای Dj= یک سند Wij= dj از سند ki وزن Dj= dj بردار اصطلاح نمایه ای T= مجموع تعداد اصطلاحات موجود در سامانه  
  • 25. نقاط قوت مدل فضای بر داری: مدل فضای برداری اصول یکسانی را برای طیف گسترده ای از عملگرهای بازیابی فراهم می کند. این عملگرها شامل نمایه سازی (indexing) ، بازخورد ربط (relevance feed back) و طبقه بندی مدارک (doc. Classification ) است. نقاط قوت این مدل زمانی که با محدودیت های مدل منطقی بولی مقایسه می شود کاملا بارز می شود.
  • 26. نخست:اینکه کاربر زمانی که در سیستم ir فضای برداری جستجو می کند ، دیگر نیازمند این نیست که منطق بولی را بفهمد و آنرا به کار گیرد، بلکه آنچه که کاربر لازم است انجام دهد انتخاب ساده بین چندین واژه بر اساس اطلاعات مورد نیازش است.   دوم: می توان برای نشان دادن اهمیت واژگان یا مفاهیمی که برای ارائه پرسش یا مدرک انتخاب می شوند ، آنها را در بردار وزن دهی کرد.
  • 27. سوم : خروجی جستجو های مدل فضای برداری بر حسب ربط افزایش یافته مرتب می شوند. این سیستم قادر است که مرتبط ترین مدرک را به طور اتوماتیک به کاربر ارائه نماید . چهارم: بازخورد درربط(relevance feed back) مکانیسمی که در مدل فضای برداری برای بهبود بازیابی مورد استفاده واقع می شود. بر اساسی خروجی مرتبطی که قبلا بازیابی شده بود، سیستم ir فضای برداری قادر است به طور اتوماتیک بردار پرسش را اصلاح کند و آن را به کاربر برای نتایج مرتبط تر ارائه دهد  
  • 28. محدودیت های مدل فضای برداری : نخستین محدودیت: مدل فضای برداری به این برمیگردد که فرض می شود واژگان انتخاب شده برای توصیف مدرک، مستقل هستند. هنگامی که مدل منطقی بولی بررسی می شود مشاهده می شود که این مدل نمی تواند انواع دیگر رابطه ها را غیر از منطق بولی بیان کند. به هر حال مدل فضای برداری قادر به انتقال هر رابطه ای که شامل روابط بولی موجود بین واژؤگان باشد نیست. به علاوه این مدل به این فرض نیاز دارد که واژه هایی که پایه های را برای فضای مدل برداری به وجود می آورند از همدیگر مستقل است. این فرض به طور واضح نادرست است.
  • 29. محدودیت دوم مدل فضای برداری، مشکل بودن مشخص کردن صریح مترادف ها یا روابط عبارتی است که این محدودیت به دلیل فقدان عملگرهای بولی و مجاورتی است. برای خاص تر کردن ، این مدل عملگرهای مجاورتی و بولی را پشتیبانی نمی کند. در نتیجه، عملگر or را برای مترادف ها نمی توان به کار بر د و عمگر with را برای ساختن یک عبارت نمی توان استفاده کرد.
  • 30. محدودیت سوم مدل فضای برداری به مکانیسم وزن دهی آن مربوط است . این مکانیسم پیچیده و غیر عینی است. زمانی که کاربر می خواهد برایاصطلاحات وزن تعیین کند، مخصوصاً اصطلاحات پرسش(که این وزن دهی بر اساس درک و قضاوت خودش است) فرایند وزن دهی عینی است. کاربر باید میزان اهمیت مرتبط بات واژه را پیش بینی کند که سپس برای آن وزن تعیین کند. غیر عینی بودن و ذهنی بودن در طول این فرایند اجتناب ناپذیر است. از طرف دیگر، وزن دهی در شرایطی که بدون الگویتم وزن دهی این کار انجام شود، بدون اشتباه نخواهد بود و یافتن بهترین الگوریتم برای یک محیط بازیابی خاص کار آسانی نیست..
  • 31. مدل فضای برداری برای ارائه یک پرسش یا مدرک به چندین اصطلاح نیاز دارد. در حالی که در مدل منطقی بولی دو یا سه واژه ای که با AND مرتبط شده اند برای دادن خروجی های با کیفیت مناسب هستند. تعین کردن واژه های بیشتر در مدل فضای برداری نتایج با ارزش بیشتری را می دهد.
  • 32. مدل احتمالی (probability model)
  • 33. این مدلتوسط مارون و کوهن(Maron and Kuhns) ارائه شده است. و بعد ها توسط روبرتسون و سایر محققان توسعه یافت. این مدل نظریۀ احتمال را به کار می گیرد. هر رویدادی احتمالی از ه تا 100 درصد دارد که در بازیابی اطلاعات رخ بدهد. عوامل عدم قطعیت و نامعلومی در فرایند ir وجود دارند. به طور مثال عدم قطعیت در مورد اینکه آیا مدارک بازیابی شده از طریق سیستم با پرسش مطرح شده مرتبط هستند یا خیر. این مدل، احتمال اینکه مدرک با پرسش مرتبط باشد را بر اساس برخی روش ها ارزیابی و حساب می کند.
  • 34. رویداد، در این زمینه از بازیابی اطلاعات، به احتمال ربط بین پرسش و مدرک اشاره دارد. بر خلاف دیگر مدل های ir مدل احتمالی با مقولۀربط واژگان ، از عبارت دقیق یا بدون ربط برخورد نمی کند، بلکه ربط واژگان بر اساس احتمال است. برای مثال ، مدرک d به احتمال 35 درصد با پرسش q مرتبط است
  • 35. نقاط قوت مدل احتمالی: نخست:این مدل راهنمایی های مهمی برای مشخص کردن فرایند های بازیابی و همچنین توجیهات تئوری برای مواردی که قبال بر اساس تجربه انجام می شد، از قبیل تعریف سیستم های وزن دهی به واژگان را فراهم می کند. فرایند های بازیابی با درجه نااطمینانی هنگامی که ربط بین پرسش و مدرک مورد قضاوت قرار می گیرد توصیف می شود. بیان احتمال ربط به جای ربط مطلق بین پرسش و مدرک، بسیار واقعی تر است. به علاوه، عملگر های بیشتر در این مدل از قبیل اندازه تشابه بین مدرک و پرسش، به جای اینکه بعضی تصمیمات دلخواهانه(همانند مدل بولی) آنرا تعیین کند، از طریق خود مدل تعیین می شود.
  • 36. دوم: این مدل در عملگرهای خود، همبستگی واژگان و روابط آنها را شامل می شود.مثلاً یک رویداد بر رویداد دیگر تاثیر می گذارد.کاربران دیگر نیاز ندارند که همانند مدل فضای برداری ، استقلال واژگان را فرض کنند. خروجی های مرتب شده تهیه می شوند ، چون مدل فرض می کند که اصول عملکرد سیستم ir بر اساس مرتب کردن مدارک در یک مجموعه، بر حسب احتمال صعودی است که بر حسب نیاز اطلاعاتی کاربر است. این مفروضات را "اصول مرتب سازی احتمال" می نامند. به وسیله اصول مرتب سازی احتمال کاربر می تواند بر حجم خروجی های بازیابی شده کنترل داشته باشد.
  • 37. سوم: این مدل قادر است از مزایای بازخورد اطلاعات (info. Feed back) برای توسعه روش های پیشرفته استفاده کند. چهارم: مدل احتمالی در شکل اولیه آن تسهیلات عملگر های بولی را که بسیاری از کاربران استفاده از آن را مشکل می پنداشتند، به کار نمی گیرد. از این نظر سیستم های بازیابی اطلاعات بر اساس مدل احتمال ، بسیار کاربر پسند تر از سیستم های ir، بر اساس منطق بولی هستند.
  • 38. محدودیت های مدل احتمالی : نخست:اگر چه میزان ربط در این مدل، به جای دو بخشی بودن از صفر و یک مدل بولی، پیوسته است ، مدل احتمالی فرض می کند که ربط ، خاصیت دودویی (binary) دارد که در اینجا pr(rel) احتمال ربط است و pr(nonrel) احتمال عدم ربط. در کارهای دیگر، ارزش احتمال ربط که ثابت است به دست می آید و از تفاضل آن از عدد یک، عدم ربط هم به دست می آید. فرض دوبخشی بودن قویترین فرض است و اغلب هم خیلی معتبر نیست.
  • 39. دوم: مدل احتمال نمی تواند تاثیر گذاری بازیابی را خیلی بهبود بخشد. نتایجی که از طریق مدل احتمالی به دست می آیند اگر چه خوب هستند، اما بهتر از نتایج بازیابی شده از سیستم های مدل بولی یا فضای برداری نیستند. هنگامی که تنها از یک مدل استفاده می کنیم سوالهای زیادی در مورد لزوم یک مدل ir دیگر ظهور می کند.
  • 40. مقایسه مختصر مدل های کلاسیک: عموماً نظر بر این است که مدل بولی ضعیف ترین روش کلاسیک است. مشکل اصلی در این روش ، ناتوانی در تشخیص انطباق های جزیی است که اغلب به عملکرد ضعیف منتهی می شود. در این باره که آیا مدل احتمالاتی، بهتر از مدل برداری عمل می کند، بحث و مجادله وجود دارد. «کرافت» ازمایش های چندی انجام دهد و اظهار کرد که مدل احتمالاتی ، در بازیابی عملکرد بهتری را نشان می دهد. اما در آزمایش های بعدی «سالتون» و «باکلی» با چندین آزمایش مختلف نشان دادند که انتظار می رود مدل برداری در کار با گردآوردهای عام ، از مدل احتمالی پیشی بگیرد. همچنین به نظر میرسد این تفکر در میان پژوهشگران ، شاغلان ، و جامعه وب ـــ که محبوبیت مدل برداری در آنجا رو به فزونی است ــــ تفکر غالب باشد.
  • 41. یا به اندازۀ تلاشت آرزو کن یا به اندازۀ آرزوهایت تلاش کن