سوالات متداول

لطفا سوالات و پیشنهادات خود را ذیل این مطلب بیان کنید.

۱۹ مهر ۹۳ ، ۱۳:۰۰ ۰ نظر موافقین ۲ مخالفین ۰

خلاصه های توسعه پذیر

خلاصه های ارائه شده برای نتایج جستجو معمولا به گونه ای تولید می شوند که کوتاه باشند تا کاربران بتوانند با یک نگاه مختصر تشخیص دهند که آیا آن نتیجه مرتبط با جستجویی که انجام داده اند هست یا خیر. مطالعات نشان داده است که در اکثر موارد ارائه یک خلاصه طولانی موجب سردرگمی کاربران می شود. با این وجود نشان داده شده است که در برخی از انواع پرس و جوها مثلا وقتی که کاربر بدنبال جواب یک سوال می گردد خلاصه طولانی می تواند کمک کننده باشد زیرا کاربر ممکن است با خواندن خلاصه جواب خود را بیابد و حتی احتیاجی به رفتن به صفحه نتیجه را نداشته باشد. در نتیجه به نظر می رسد که در یک موتور جستجوی ایده آل، طول خلاصه ها باید متناسب با نوع پرس و جو و یا حتی سلیقه و مدل رفتاری کاربر باشند اما آنچه در اکثر موتورهای جستجوی امروزی پیاده سازی شده است این است که خلاصه ها تا حد ممکن کوتاه باشند.

راه کاری که برای کاهش این مشکل در موتور جستجوی زال در پیش گرفته شده است این است که به طور پیش فرض خلاصه های کوتاه برای پرس و جوها تولید شوند اما اگر کاربر تمایل داشت بتواند خلاصه تولید شده را توسعه دهد و خلاصه طولانی تری را مشاهده کند. برای این منظور کاربر کافی است که بر روی دکمه "..." که در انتهای هر خلاصه آورده شده است کلیک کند تا ادامه خلاصه به او نشان داده شود.


قبل از توسعه خلاصه


بعد از توسعه خلاصه

۱۲ خرداد ۹۴ ، ۱۰:۱۰ ۰ نظر موافقین ۰ مخالفین ۰

تصحیح اشتباه در نوشتار بواسطه زبان صفحه کلید

شاید برای شما هم پیش آمده باشد که بدون توجه به اینکه زبان صفحه کلید شما روی انگلیسی تنظیم شده، شروع به تایپ یک متن فارسی کنید و بعد که به صفحه نمایش نگاه می کنید تازه متوجه می شوید که زحمتتان بر باد رفته و دوباره مجبور می شوید که از ابتدا متن را تایپ کنید. این اشتباه خصوصا در هنگام کار با موتورهای جستجو که متن تایپ شده کوتاه است و کاربر به سرعت می خواهد به نتیجه برسد رخ می دهد. 

برای رفع این مشکل، در صورتیکه متن تایپ شده یک جمله انگلیسی معتبر نبود، زال سعی می کند که معادل این متن را در حالتیکه زبان صفحه کلید روی فارسی تنظیم شده بود پیدا کند و در صورتیکه در این حالت یک متن معتبر فارسی بدست آمد این متن جدید را به عنوان پرس و جو در نظر بگیرد. به عنوان مثال اگر شما "sghl" را تایپ کنید زال آن را به کلمه "سلام" بر می گرداند. یکی از ویژگی های منحصر بفرد زال در این زمینه این است که در صورتیکه متن شما شامل چندین کلمه هم باشد باز می تواند تا حد زیادی این کار را انجام دهد. به عنوان مثال اگر شما "l,j,v sghl" را تایپ کنید زال جمله "موتور سلام" را جستجو می کند.



در حال حاضر زال تنها از چینش استاندارد صفحه کلید فارسی در ویندوز استفاده می کند و صفحه کلید استاندارد فارسی را پشتیبانی نمی کند.

۲۲ فروردين ۹۴ ، ۱۱:۲۹ ۰ نظر موافقین ۰ مخالفین ۰

تشخیص کلمات مرکب فارسی

یکی از ویژگی های زبان فارسی وجود کلمات مرکب در آن است. این کلمات شامل بیش از یک بخش هستند مثلا کلمه "برنامه نویس" که از دو بخش "برنامه" و "نویس" تشکیل شده است. ممکن است هر کدام از این بخش ها به تنهایی معنایی داشته باشند و هنگامیکه در کنار هم قرار می گیرند کلمه ای با معنای متفاوتی ایجاد کنند. 

به طور معمول در موتورهای جستجوی در صورتیکه دو کلمه با فاصله از هم جدا شده باشند به عنوان دو کلمه مجزا در نظر گرفته می شوند و به صورت مجزا آن دو را در صفحات جستجو می کنند. به عبارت دیگر بخش های یک کلمه مرکب به عنوان موجودیت واحد جستجو نمی شوند. به عنوان مثال وقتی شما برنامه نویس را جستجو می کنید، موتور جستجو بدنبال دو کلمه "برنامه" و "نویس" به طور مجزا می گردد. لذا موتور جستجو صفحاتی را به عنوان نتیجه بر می گرداند که شامل کلمات نامربوطی همچون "زیر نویس" و یا "برنامه و بودجه" هستند. البته بعلت اینکه یکی از ملاک های ارزش گذاری  این است که کلمات در چه فاصله ای در کنار هم قرار گرفته اند معمولا صفحاتی در ابتدای نتایج قرار می گیرند که دو کلمه "برنامه" و "نویس" در کنار هم قرار گرفته باشند.

موتور جستجوی زال برای افزایش دقت جستجو سعی می کند که کلمات مرکب فارسی را تشخیص داده و آن ها را به صورت یک کلمه در نظر بگیرد و جستجو کند. در نتیجه صفحات با کلمات نامربوط کمتری به عنوان نتیجه برگردانده میشود. البته در حال حاضر این قابلیت محدود بوده و تمامی کلمات مرکب فارسی تشخیص داده نمی شوند.

۱۶ فروردين ۹۴ ، ۱۳:۰۵ ۰ نظر موافقین ۰ مخالفین ۰

یکسان سازی حروف و کلمات

یک کلمه مشخص در گفتار ممکن است به چندین صورت نوشته شود. به عنوان مثال کلمه "آدم های" را در نظر بگیرید. ممکن است به صورت "آدمهای" نوشته شود یا یک نفر آن را به صورت "ادمهای" و یا حتی "ادمهــــا" بنویسد. طبیعتا هر موتور جستجویی باید بتواند این تنوع در نوشتار را تشخیص دهد تا در هنگام پرس و جوی کاربران تفاوتی بین این کلمات قائل نشود.

زال نیز در این راستا کارهای زیر را انجام می دهد:

  • نگاشت بیش از 1000 کاراکتر به کاراکترهای استاندارد منجمله انواع ی و ک.
  • تشخیص فاصله و نیم فاصله ها.
  • تبدیل حروف در صورت عدم ابهام مانند "آ" و "ا".
۲۳ اسفند ۹۳ ، ۱۲:۱۳ ۰ نظر موافقین ۰ مخالفین ۰

پرش به مکان خلاصه

آیا تا کنون با این مشکل برخورد کرده اید که در موتور جستجوی مورد علاقه خود مطلبی را جستجو کنید، بعد با توجه به خلاصه های داده شده بر روی یکی از نتایج کلیک کنید و ناگهان با صفحه بزرگی مواجه شوید که نمی دانید خلاصه داده شده توسط موتور جستجودر کجای آن صفحه قرار دارد؟ معمولا در این مواقع مجبور می شوید تا دوباره در آن صفحه با استفاده از قابلیت جستجوی مرورگر خود قسمت مربوطه را جستجو کنید. به عبارت دیگر شما برای رسیدن به هدف خود مجبور شده اید که دوبار جستجو کنید.

مشکل اصلی در اینجا این است که وقتی یک صفحه جدید در مرورگر باز می شود به طور معمول نمی توان به مرورگر گفت که کدام قسمت از صفحه را به کاربر نشان دهد (یعنی مکان اسکرول بار در کجا قرار بگیرد) و همواره ابتدای صفحه به کاربر نشان داده می شود. راه کاری که برای حل این مشکل در HTML داده شده است استفاده از لنگرها (anchor) است. در صورت قرار دادن یک لنگر در صفحه HTML، کسی که به این صفحه لینک می دهد می تواند به مرورگر بگوئید که بعد از باز شدن صفحه به مکان این لنگر برود.

برای کاهش مشکل جستجوی دوباره، موتور جستجوی زال از روش زیر استفاده می کند: در صورتیکه در نزدیکی خلاصه داده شده در صفحه یک لنگر قرار داشت، زال از این لنگر استفاده می کند به گونه ای که اگر کاربر بر روی خلاصه تولید شده توسط زال کلیک کند، صفحه در مکان آن لنگر باز شود. البته باید توجه کرد که چون لنگر ممکن است در صفحه مقصد از خلاصه کمی دور باشد صفحه دقیقا در مکان خلاصه باز نشود. همچنین، اگر در نزدیکی متن خلاصه، لنگری توسط کسی که صفحه مقصد را طراحی کرده است نباشد، طبیعتا زال نمی تواند از این قابلیت استفاده کند. در صورتیکه زال بتواند چنین لنگری را در نزدیکی خلاصه پیدا کند، آن قسمت از خلاصه را با علامت  مشخص میکند. در این حالت، کاربر می تواند با کلیک بر روی هر قسمت از خلاصه، به آن قسمت از صفحه که لنگر در آن قرار دارد برود.



۱۴ اسفند ۹۳ ، ۱۸:۳۷ ۰ نظر موافقین ۰ مخالفین ۰

خلاصه های خوانا

در اکثر موتورهای جستجوی امروزی، برای هر کدام از نتایج جستجو خلاصه ای از صفحه ی مربوط به آن نتیجه ارائه می شود. هدف از این کار این است که کاربران بدون مراجعه به آن صفحه و مطالعه کامل آن، تصمیم بگیرند که آیا این صفحه، صفحه مد نظر آن ها هست یا نه. جالب است بدانید که تحقیقات نشان داده است که یک موتور جستجو هر قدر هم که دارای یک سیستم رتبه بندی قوی باشد اما سیستم خلاصه ساز آن ضعیف باشد، کاربران نمی توانند در آن براحتی به نتیجه خود دست یابند زیرا اگر عنوان صفحه به اندازه کافی گویا نباشد، فاکتور بعدی در تصمیم گیری خلاصه نتیجه است و تنها در صورت مربوط بودن خلاصه روی نتیجه کلیک می نمایند.

به نظر می رسد که یک خلاصه خوب باید دارای ویژگی های زیر باشد:

  • باید کوتاه و قابل فهم باشد.
  • باید خوانا باشد.
  • باید بیانگر محتوای صفحه باشد.
  • باید متناسب با پرس و جوی مطرح شده باشد.
در زال توجه ویژه ای به خوانا بودن خلاصه ها شده است تا متناسب با زبان فارسی، خلاصه ها از مکان درستی در جمله شروع شوند و تا حد امکان در مکان درستی از جمله خاتمه یابند. البته با توجه به این هدف که خلاصه ها باید کوتاه باشند و تا آنجا که ممکن است باید کلمات ذکر شده در پرس و جو را هم شامل شوند در برخی موارد نمی توان خلاصه ای تولید کرد که از جای مناسب شروع شود و یا در جای مناسب خاتمه یابد. به عبارت دیگر یک توازن بین کوتاهی و خوانایی خلاصه ها برقرار است که باید رعایت شود. همچنین در برخی موارد به منظور پوشش کامل کلمات پرس و جو خلاصه باید از قسمت های مختلف یک صفحه باشد (اصطلاحا چند پاره شود) که معمولا باعث کاهش خوانایی آن می شود.

نمونه ای از خلاصه های تولید شده توسط زال

الگوریتم زال برای تولید یک خلاصه مناسب و رعایت توازن بین فاکتورهای مختلف، از حل همزمان سه مساله پایه بهینه سازی در حوزه علوم کامپیوتر بهره می گیرد: مساله دسته بندی برخط نقاط، مساله پوشش مجموعه، و مساله کوله پشتی با چند انتخاب. به منظور ارزیابی عملکرد این الگوریتم، سامانه ای توسعه داده شد تا ارزیابان بتوانند از بین خلاصه های تولید شده برای یک صفحه توسط چندین موتور جستجو، خلاصه ای را که از نظر آن ها بهتر است انتخاب کنند. ارزیابان اطلاعی از این که این خلاصه توسط چه موتور جستجویی تولید شده نداشتند. از طریق این سامانه و با کمک تعدادی از داوطلبان، خلاصه های تولید شده توسط زال با خلاصه های تولید شده توسط موتورهای گوگل و بینگ برای صفحات فارسی مقایسه شد و مشخص شد که داوطلبان خلاصه های تولید شده توسط زال را بیشتر از خلاصه های گوگل و بینگ می پسندند. در تصویر زیر دو نمونه از خلاصه های تولید شده توسط این موتورهای جستجو نشان داده شده است. نتایج این تحقیق در مقاله ای با عنوان "A fast multi-part snippet extraction algorithm" در سومین کنفرانس زبان شناسی رایانشی ارائه شد.




۲۷ بهمن ۹۳ ، ۱۰:۳۴ ۰ نظر موافقین ۰ مخالفین ۰