۲ مطلب در فروردين ۱۳۹۴ ثبت شده است

تصحیح اشتباه در نوشتار بواسطه زبان صفحه کلید

شاید برای شما هم پیش آمده باشد که بدون توجه به اینکه زبان صفحه کلید شما روی انگلیسی تنظیم شده، شروع به تایپ یک متن فارسی کنید و بعد که به صفحه نمایش نگاه می کنید تازه متوجه می شوید که زحمتتان بر باد رفته و دوباره مجبور می شوید که از ابتدا متن را تایپ کنید. این اشتباه خصوصا در هنگام کار با موتورهای جستجو که متن تایپ شده کوتاه است و کاربر به سرعت می خواهد به نتیجه برسد رخ می دهد. 

برای رفع این مشکل، در صورتیکه متن تایپ شده یک جمله انگلیسی معتبر نبود، زال سعی می کند که معادل این متن را در حالتیکه زبان صفحه کلید روی فارسی تنظیم شده بود پیدا کند و در صورتیکه در این حالت یک متن معتبر فارسی بدست آمد این متن جدید را به عنوان پرس و جو در نظر بگیرد. به عنوان مثال اگر شما "sghl" را تایپ کنید زال آن را به کلمه "سلام" بر می گرداند. یکی از ویژگی های منحصر بفرد زال در این زمینه این است که در صورتیکه متن شما شامل چندین کلمه هم باشد باز می تواند تا حد زیادی این کار را انجام دهد. به عنوان مثال اگر شما "l,j,v sghl" را تایپ کنید زال جمله "موتور سلام" را جستجو می کند.



در حال حاضر زال تنها از چینش استاندارد صفحه کلید فارسی در ویندوز استفاده می کند و صفحه کلید استاندارد فارسی را پشتیبانی نمی کند.

۲۲ فروردين ۹۴ ، ۱۱:۲۹ ۰ نظر موافقین ۰ مخالفین ۰

تشخیص کلمات مرکب فارسی

یکی از ویژگی های زبان فارسی وجود کلمات مرکب در آن است. این کلمات شامل بیش از یک بخش هستند مثلا کلمه "برنامه نویس" که از دو بخش "برنامه" و "نویس" تشکیل شده است. ممکن است هر کدام از این بخش ها به تنهایی معنایی داشته باشند و هنگامیکه در کنار هم قرار می گیرند کلمه ای با معنای متفاوتی ایجاد کنند. 

به طور معمول در موتورهای جستجوی در صورتیکه دو کلمه با فاصله از هم جدا شده باشند به عنوان دو کلمه مجزا در نظر گرفته می شوند و به صورت مجزا آن دو را در صفحات جستجو می کنند. به عبارت دیگر بخش های یک کلمه مرکب به عنوان موجودیت واحد جستجو نمی شوند. به عنوان مثال وقتی شما برنامه نویس را جستجو می کنید، موتور جستجو بدنبال دو کلمه "برنامه" و "نویس" به طور مجزا می گردد. لذا موتور جستجو صفحاتی را به عنوان نتیجه بر می گرداند که شامل کلمات نامربوطی همچون "زیر نویس" و یا "برنامه و بودجه" هستند. البته بعلت اینکه یکی از ملاک های ارزش گذاری  این است که کلمات در چه فاصله ای در کنار هم قرار گرفته اند معمولا صفحاتی در ابتدای نتایج قرار می گیرند که دو کلمه "برنامه" و "نویس" در کنار هم قرار گرفته باشند.

موتور جستجوی زال برای افزایش دقت جستجو سعی می کند که کلمات مرکب فارسی را تشخیص داده و آن ها را به صورت یک کلمه در نظر بگیرد و جستجو کند. در نتیجه صفحات با کلمات نامربوط کمتری به عنوان نتیجه برگردانده میشود. البته در حال حاضر این قابلیت محدود بوده و تمامی کلمات مرکب فارسی تشخیص داده نمی شوند.

۱۶ فروردين ۹۴ ، ۱۳:۰۵ ۰ نظر موافقین ۰ مخالفین ۰