بایگانی بهمن ۱۳۹۳ :: موتور جستجوی هوشمند زال

در اکثر موتورهای جستجوی امروزی، برای هر کدام از نتایج جستجو خلاصه ای از صفحه ی مربوط به آن نتیجه ارائه می شود. هدف از این کار این است که کاربران بدون مراجعه به آن صفحه و مطالعه کامل آن، تصمیم بگیرند که آیا این صفحه، صفحه مد نظر آن ها هست یا نه. جالب است بدانید که تحقیقات نشان داده است که یک موتور جستجو هر قدر هم که دارای یک سیستم رتبه بندی قوی باشد اما سیستم خلاصه ساز آن ضعیف باشد، کاربران نمی توانند در آن براحتی به نتیجه خود دست یابند زیرا اگر عنوان صفحه به اندازه کافی گویا نباشد، فاکتور بعدی در تصمیم گیری خلاصه نتیجه است و تنها در صورت مربوط بودن خلاصه روی نتیجه کلیک می نمایند.

به نظر می رسد که یک خلاصه خوب باید دارای ویژگی های زیر باشد:

باید کوتاه و قابل فهم باشد.
باید خوانا باشد.
باید بیانگر محتوای صفحه باشد.
باید متناسب با پرس و جوی مطرح شده باشد.

در زال توجه ویژه ای به خوانا بودن خلاصه ها شده است تا متناسب با زبان فارسی، خلاصه ها از مکان درستی در جمله شروع شوند و تا حد امکان در مکان درستی از جمله خاتمه یابند. البته با توجه به این هدف که خلاصه ها باید کوتاه باشند و تا آنجا که ممکن است باید کلمات ذکر شده در پرس و جو را هم شامل شوند در برخی موارد نمی توان خلاصه ای تولید کرد که از جای مناسب شروع شود و یا در جای مناسب خاتمه یابد. به عبارت دیگر یک توازن بین کوتاهی و خوانایی خلاصه ها برقرار است که باید رعایت شود. همچنین در برخی موارد به منظور پوشش کامل کلمات پرس و جو خلاصه باید از قسمت های مختلف یک صفحه باشد (اصطلاحا چند پاره شود) که معمولا باعث کاهش خوانایی آن می شود.

نمونه ای از خلاصه های تولید شده توسط زال

الگوریتم زال برای تولید یک خلاصه مناسب و رعایت توازن بین فاکتورهای مختلف، از حل همزمان سه مساله پایه بهینه سازی در حوزه علوم کامپیوتر بهره می گیرد: مساله دسته بندی برخط نقاط، مساله پوشش مجموعه، و مساله کوله پشتی با چند انتخاب. به منظور ارزیابی عملکرد این الگوریتم، سامانه ای توسعه داده شد تا ارزیابان بتوانند از بین خلاصه های تولید شده برای یک صفحه توسط چندین موتور جستجو، خلاصه ای را که از نظر آن ها بهتر است انتخاب کنند. ارزیابان اطلاعی از این که این خلاصه توسط چه موتور جستجویی تولید شده نداشتند. از طریق این سامانه و با کمک تعدادی از داوطلبان، خلاصه های تولید شده توسط زال با خلاصه های تولید شده توسط موتورهای گوگل و بینگ برای صفحات فارسی مقایسه شد و مشخص شد که داوطلبان خلاصه های تولید شده توسط زال را بیشتر از خلاصه های گوگل و بینگ می پسندند. در تصویر زیر دو نمونه از خلاصه های تولید شده توسط این موتورهای جستجو نشان داده شده است. نتایج این تحقیق در مقاله ای با عنوان "A fast multi-part snippet extraction algorithm" در سومین کنفرانس زبان شناسی رایانشی ارائه شد.

موتور جستجوی هوشمند زال

۱ مطلب در بهمن ۱۳۹۳ ثبت شده است

خلاصه های خوانا