فایل شماره 3974 |
- مدل کردن کاربر
- اجرای سیستم شخصیسازی
یعنی در واقع ابتدا کاربر شناخته میشود و نیازها و حیطه کاری او تشخیص داده میشود و سپس سیستم بر اساس شناختی که از کاربر دارد,کاربر رامدل کرده و در نهایت بر اساس مدل موجود به اجرای شخصیسازی یعنی مرتبکردن نتایج جستجو بر اساس شناخت اولیه میپردازد[۶].
۳-۴-۱ شناخت کاربر
برای مرحله شناخت، یک موتور خوشهبندی سلسله مراتبی، به نام اسنکت بررسی میشود که قادر به سازمان دهی مشخص نتایج جستجوی بهدستآمده از۱۶ موتور جستجوی کالا در یک سلسله مراتب با پوشههای برچسبگذاری شده میباشد[۲۱].
۳-۴-۱-۱ روشهای کمک به کاربران در جستجو در وب
۳-۴-۱-۱-۱ خوشهبندی کد آماده- وب[۶۳]
یک رویکرد نوآورانه برای کمک به کاربران در جستجو در وب است. این روش شامل خوشهبندی کدهای آماده بازگردانده شده توسط یک ابرجستجوگر[۶۴] به یک سلسله مراتب از پوشههایی میشود که با جملات با طول متغیر برچسبگذاری شدهاند. این برچسبها باید موضوع صفحات وب متناظر موجود در پوشههای مربوطه را در بر داشته باشند. این سلسله مراتب برچسبگذاری شده، نمایشی مکمل را برای لیست رتبهبندی شده-مسطح از نتایج بازگردانده شده توسط موتورهای جستجوی کنونی ارائه میدهد. کاربران میتوانند آن را با مرور در سلسله مراتب پوشههای برچسبگذاری شده، به واسطه نیازهای جستجوی خود استفاده نمایند[۴۳,۱۶].
خوشهبندی کد آماده- وب یک نوع چالش در خوشهبندی کلاسیک است، زیرا سلسله مراتب پوشههای برچسبگذاری شده، نشان دهنده یک راه هوشمند است که “زمینههای” مختلف و به طور بالقوه نامحدود از کدهای آماده توسط موتورهای جستجوی مورد پرسوجو بازگردانده می شوند. این مورد دو الزام را نیاز دارد.
- سلسله مراتب پوشه باید به طور مشخص از کدهای آماده تشکیل شده باشد، در حالی که خوشهبندی متعارف به این علت ماندگار است که “ساختار پوشه تنها یک بار تولید میشود و نگهداری پوشه را می توان در فواصل نسبتا نادر انجام داد.
- این پوشه باید با جملات معنی دار مشخص از کدهای آماده برچسبگذاری شود. هر مجموعه ثابت از برچسبهای رده که به اندازه کافی برای ضبط زمینههای کدهای آماده انعطاف پذیر نیست؛ علاوه بر این، با توجه به دلایل محاسباتی، موتور خوشهبندی باید تنها کدهای آماده (کوتاه و در نتیجه ضعیف) را پردازش نماید و نه صفحات وب نشات گرفته (طولانی و در نتیجه آموزنده) متناظر آنهارا[۴۸].
سیستم های صنعتی مختلف، خوشهبندی کد آماده- وب در ابرجستجوگرهای خود پیاده سازی می نمایند: Vivisimo، Mooter، Copernic، iBoogie، Kartoo، Groxis، Meta crawler با Dogpile و Clusty. اثر بخشی آنها با “جایزه بهترین ابرجستجوگر” منسوب به Vivisimo از سال ۲۰۰۱ تا ۲۰۰۳ توسط SearchEngineWatch.com شناخته شدهاست. در ژانویه ۲۰۰۵، پورتال Aol ، Vivisimo را در بالای نتایج جستجوی ارائه شده توسط گوگل قرار داد. همچنین به نظر میرسد گوگل و مایکروسافت به آن علاقهمند هستند ، چرا که “فناوری خوشهبندی، یک رتبهبندی صفحه[۶۵]برای آینده است[۲۱].
۳-۴-۱-۱-۲ شخصیسازی فهرست رتبهبندی شده- مسطح[۶۶] از نتایج پرسوجو
روش دیگر برای کمک به کاربران در جستجو در وب، شخصیسازی فهرست رتبهبندی شده- مسطح از نتایج پرسوجو است. رتبهبندی شخصی شده، یک گسترش جذاب از رتبهبندی مبتنی بر لینک های کلاسیک است که با ترکیب اطلاعات پیوند وب-گراف با برخی از اطلاعات زمینه مشخص شده، به جای پرسوجو، بر روی کاربران تمرکز میکند. سه الزام از شخصیسازی خوب باید: انطباق کامل با رفتارها/نیازهای متنوع کاربر، حفاظت حفظ حریم خصوصی، و مقیاس پذیری به تعداد پروفایل ها باشد. نمونه هایی از خدمات شخصی شده صنعتی، گوگل است که پروفایل های مبتنی بر رده بندی نگهداری شده توسط کاربران را روی یک مجموعه کوچک از رده ها جمع آوری میکند، Yahoo و Eurekster، که نیاز به ورود دارند و پروفایل هایی مبتنی بر فعالیت های کاربران می سازند. این روشها، یک راه حل جزئی را ارائه میدهند، زیرا آنها پروفایل ها روی یک مجموعه کوچک از گزینه ها (گوگل) را میسر می سازند و یا نیاز به به روز نگهداشتن پروفایل ها دارند که یک منبع مهم و خصوصی است. در نوشتههایی علمی، مشکل رتبهبندی شخصی شده با پیشنهاد فنونی با مقیاس خوب نسبت به رویکردهای کلاسیک بررسی شدهاست. با این حال، این راه حل ها در نهایت، برای هر صفحه وب، تعداد مقادیر رتبهبندی که به تعداد پروفایل های کاربر مربوط میشود، باید محاسبه شوند[۲۱].
۳-۴-۱-۲ راه حل های مشکل خوشهبندی کد آماده وب
نوشتههایی علمی راه حل های مختلف را برای مشکل خوشه بندی کدهای آماده-وب ارائه میدهد. در ساده ترین حالت، برچسب پوشه “کیسه ای از کلمات[۶۷]” است و خوشه بندی پوشه، مسطح است. در حالت کلی تر، برچسب پوشه یک جمله با طول متغیر است و خوشهبندی پوشه، سلسله مراتبی است[۲۱].
۳-۴-۱-۲-۱خوشه بندی مسطح
۳-۴-۱-۲-۱-۱ کلمات تنها و خوشه بندی مسطح
- WebCat یکی از اولین نرم افزارهای خوشه بندی-وب بود. این نرم افزار را می توان متعلق به این طبقه در نظر گرفت حتی با اینکه در یک موتور جستجوی وب آزمایش نشده بود.
- از K میانگین متقابل برای تولید خوشه بندی مسطح استفاده میکند.
- Retriever ، از خوشهبندی فازی واسطه ای قوی استفاده می نماید. این سیستم مجموعه ای از کدهای آماده بازیابی شده را با تمام صفحات لینک داخلی و خارجی به منظور بهبود دقت گسترش میدهد. موتورهای جستجو، دسترسی ارزان به گراف وب را ارائه می دهد که در نتیجه بازیابی کارآمد پیوند را صورت می دهد. روشهای استاندارد مانند نزدیکترین همسایه و K-means، در این گروه هستند چرا که آنها معمولا عبارات تک را به عنوان ویژگی به کار میگیرند. در میان این نرم افزارها، تنها Webcat به صورت آنلاین در دسترس است[۳۱,۵۷,۲۳,۲۲].
۳-۴-۱-۲-۱-۲ جملات و خوشه بندی مسطح
- Grouper اولین نرم افزار در دسترس عموم برای رسیدگی به مشکل خوشهبندی کد آماده- وب بود. این نرم افزار از جملات با طول متغیر برای برچسب گذاری پوشهها استفاده می نمود، اما این جملات به عنوان بخشهای به هم پیوسته از کدهای آماده با بهره گرفتن از ساختار دادههای درخت Suffix گرفتهشد[۶۲].
- Lingo ازSVD روی یک ماتریس با عبارت-سند برای پیدا کردن برچسبهای معنادار طولانی استفاده می نماید. مشکل این روش این است که SVD زمانی که برای تعداد زیادی از کدهای آماده کاربردی اعمال می شود وقت گیر است. به تازگی، مایکروسافت یک سیستم را پیشنهاد نمود که جملات (پیوسته) با طول متغیر از طریق رگرسیون ها در پنج اقدامات متفاوت استخراج می کند. با این حال که خوشه بندی مسطح است، رگرسیون نیاز به یک مرحله آموزش دارد (که انطباق روی وب خارجی کلی سخت است) و این سیستم برای آزمون در دسترس نیست. شایعاتی در مورد تجاری سازی این محصول وجود دارد. در میان نرم افزار های این کلاس، این مورد به صورت آنلاین تنها در Carrot2 در دسترس است که یک پیاده سازی منبع باز از Grouper است. Grouper اصلی دیگر در دسترس نیست[۴۵].
۳-۴-۱-۲-۲ خوشهبندی سلسله مراتبی
۳-۴-۱-۲-۲-۱ کلمات تنها و خوشهبندی سلسله مراتبی
- FIHC از تجزیه و تحلیل بر اساس مسئله مجموعه آیتم های مکرر به منظور ساخت سلسله مراتب پوشه استفاده می نماید
- Credoاز مفهوم شبکه در کلمات تک استفاده می نماید و تنها این سیستم در این کلاس به صورت آنلاین دردسترس است[۲۱].
۳-۴-۱-۲-۲-۲ جملات و خوشهبندی سلسله مراتبی
جالب ترین مورد، شامل سیستم هایی است که برای تقلید از Vivisimo تلاش می نماید.
- Lexical Affinities Clusteringاولین سیستم برای پیشنهاد این رویکرد بود. این سیستم، دقت را در فراخوان با بهره گرفتن از یک نمایندگی کدهای آماده ساخته شده از جفت واژه ها (نه لزوما مجاور) پیوند شده با پیوستگی لغوی، یعنی ارتباط با ظاهر معمول آن بهبود میبخشد[۴۰,۶۲]
- Etzioni فرمت ساده ای از Grouper را برای خوشهبندی سلسله مراتبی بر اساس اندازه هم پوشانی پوشهها پیشنهاد داد[۶۳].
- SHOC از آرایه Suffix برای استخراج جملات(به هم پیوسته) استفاده می نماید و پوشهها را در یک سلسله مراتب از طریق یک روش SVD سازمان دهی می کند[۵۹].
- Highlight یک تجزیه و تحلیل لغوی و یک چارچوب احتمالی برای ساخت و ساز سلسله مراتب را اتخاذ می کند، اما نویسندگان هیچ ارزیابی ارائه نمیدهند[۳۷].
- Ciirarchies جملات کدهای آماده را با بهره گرفتن از یک مدل زبانی از پیش محاسبه شدهاستخراج می نماید و سلسله مراتب را از طریق یک الگوریتم بازگشتی می سازد. نویسندگان اذعان دارند که سلسله مراتب های آنها اغلب غیر فشرده هستند دارای عمق بزرگ هستند و حاوی برخی از کلمات حامل مطلب می شوند که تکرار میشود[۳۵].
- IBM یک سیستم را پیشنهاد نمود که سلسله مراتب پوشه را بر اساس حداقل کردن تابع هدف شبیه به موردی می سازد که دراسنکت استفاده می شود. با این حال برچسبهای آنها غالبا از کلمات تک تشکیل شدهاست، در موارد دیگر (چند) آنها جملات به هم پیوسته میباشند. نویسندگان این سیستم را برای آزمون در دسترس نمی گذارند. با کمال تعجب کافی، تنها سیستم های موجود از این کلاس برای آزمایش، Highlight و Ciirarchies هستند[۳۵].
- اسنکت متعلق به این کلاس آخر است، بسیار مهندسی شدهاست و به صورت آنلاین در دسترس است و به طور گسترده ای مورد آزمایش قرار گرفتهاست و هدف آن فائق آمدن بر محدودیتهای سیستم های فوق با بهره گرفتن از جملات فاصله دار به عنوان برچسبها که این کار با اتخاذ برخی از پایه های دانش خاص برای رتبهبندی و انتخاب برچسبهای پوشه معنی دار و با ایجاد یک سلسله مراتب از پوشههای احتمالا متداخل صورت میگیرد[۲۱].
اسنکت در برابر نرم افزارهایی از کلاس چهارم موجود در لاین مقایسه شدهاست: Ciirarchies, Highlight. همچنین Carrot به دلایل تاریخی مورد آزمایش قرارگرفتهاست. این مورد تنها اجرای موجود از Grouper را ارائه میدهد. نتایج اخیر آزمون آزمایش نشدهاست زیرا آنها دسترسی به نرم افزار خود را فراهم نمیکنند، و نمی توان آزمایشات را تکرار کرد چرا که مجموعه دادههای اصلی از دست رفته و پرسوجو از همان موتورهای جستجو، کدهای آماده های مختلف را ارائه میدهد به عنوان موتورهای صنعتی، Mooter و Vivisimo مقایسه شدهاست چرا که آنها قوی ترین موتورهای کدهای آماده-وب در رده های خود میباشندطبقهبندی راه حل های موجود در جدول ۳-۱ آورده شدهاست [۳۵].
فرم در حال بارگذاری ...
[شنبه 1401-04-04] [ 11:13:00 ب.ظ ]
|