(الف)

(ب)

شکل ۴-۷٫ نمودار الزامات لازمِ یک معیار شباهت مناسب برای این مسئله. طبق (الف) معیار باید حساس به شیفت و طبق (ب) معیار نباید تطابق جزئی انجام دهد تا بتواند پترهای ۱و۲و۳و۴ را در context های مجزا قرار دهد.

از طرف دیگر (۲) معیار اعمالی نباید تطابق جزئی[۱۷۰] انجام دهد. دلیل اصلی آن، این است که محدوده‌ی تغییرات نرخ ترافیک هر خیابان، رنجِ مشخصی دارد که حتی در زمان اوج ترافیک با ضریب معینی افزایش می‌یابد. برای وضوح بیشتر نمودار (ب) در شکل (۴-۷)، دو پترن را نشان می­دهد که نباید توسط معیار اعمالی در یک contex یکسان قرار گیرد.
از آنجا که زمان مربوط به داده ­های آزمایشی مشخص نیست ، به منظور مقایسه‌ی معیارهای سنجش فاصله مختلف ، آزمایشاتی روی داده ­های آموزشی که زمان رخداد آن­ها در طول سایکل مشخص است، انجام شد و تعیین شد که هر کدام از معیارها تا چه حد می­توانند زمان مربوط به رخداد مشاهدات را درست تعیین کنند و مشاهدات را در context درست دسته­بندی کنند. از میان آن­ها، دو معیار اقلیدسی[۱۷۱] و همچنین Kullback–Leibler divergence، بهتر از دیگر معیارها عمل کردند که نتایج مربوطه را دفصل بعد خواهیم دید.
همانطور که می‌دانیم، معیار اقلیدسی، فاصله‌ی دو مشاهده‌ی Y و X با طول n را بصورت فرمول (۴-۷) محاسبه می­ کنند:

(۴-۷)

که در این فرمول i نشان دهنده iاَمین مقدار از بردارهای مشاهدات ترافیکی است.
در دیگر تحقیقات [۴۵] و [۴۶] نیز همین نتیجه گیری تأیید شد که برای تعیین شباهت مشاهدات، معیارهای دیگر بهبود قابل ملاحظه­ای در مقایسه با معیار اقلیدسی ایجاد نمی‌کنند. در واقع، همانطور که توضیح دادیم، دلیل اصلی این است که معیار اقلیدسی از جمله معیارهایی است که نسبت به هرگونه تغییرات در مقیاس[۱۷۲] و شیفتِ مسئله، حساس هست. اما این خصوصیت از جمله ویژگی­های مطلوب یک معیار کاربردی در زمینه‌ی جداسازی مشاهدات ترافیکی بحساب می‌آید. در کنار معیار اقلیدسی، معیار مناسب دیگر Kullback–Leibler divergence هست که تفاوت بین دو توزیع اجتماعی Q,P را بصورت فرمول (۴-۸) محاسبه می‌کند:

(۴-۸)

که i نشان دهنده iاُمین مقدار از بردار مشاهدات است. در راستای اعمال این معیار به مسئله‌ی مورد نظر، مشاهدات ترافیکی باید به برداری از احتمال نرخ ترافیک در خیابان­ها، تبدیل می‌شدند. در نهایت و با توجه به نتایج فصل بعد، می‌توان گفت که از این دو معیار می‌توان در کنار هم، در جهت گروه بندی و تشخیص context مربوط به مشاهدات ترافیکی استفاده کرد. با اعمال معیار فاصله اقلیدسی، دوcontext حاصل بصورت نمودارهای شکل (۴-۸) بدست می‌آیند.

(الف)

(ب)

شکل ۴-۸٫ جریان­های ترافیکی مشاهده شده‌ی۲۰ مسیر، تقسیم شده به دو context (الف) جریان­های مربوط به پریودهای اوج و (ب)پریودهای غیر اوج. غالب مشاهدات مربوط به contextِ پیک، رفتار بسیار مشابهی دارند. رنگ‌های مختلف در شکل بیانگر مشاهدات مختلف است.

نمودار الف در شکل (۴-۸) مربوط به گروهی است که مشاهدات مربوط به پریود اوج ترافیکی(peack context) را در بر می گیرد و نمودار ب در شکل (۴-۸)، مشاهدات مربوط به پریودهای غیرپیک non-pank context را شامل می­ شود. در این نمودارها، هرکدام از توزیع‌های رنگی، نمایانگر یک مشاهده -شامل نرخ ترافیکی ۲۰ مسیر- است. همان طور که در نمودار الف از شکل (۴-۸) می­بینید، مشاهداتِ مربوط به گروه پیک، رفتار بسیار مشابهی دارند، بطوریکه تقریباً منحنی ۱۰۰ مشاهده‌ی موجود در این گروه، روی هم قرار گرفته اند. این موضوع بیانگر این است که در پریود زمانی اوج ترافیک، نرخ ترافیکی مربوط به هرکدام از خیابان­ها رنج محدود و مشخصی دارد. هرچند رفتارهای متفاوتی در میان مشاهدات مربوط به گروه غیرپیک در نمودار ب شکل (۴-۸) دیده می­ شود. بطور مثال، خیابان ۳ در هر دو گروه را در نظر بگیرید، در گروه پیک، رنجِ نرخ ترافیک مربوط به مشاهدات مختلف ، بسیار محدود (۲۴-۱۹) است. هرچند، در دسته‌ی غیرپیک، همین خیابان نرخِ ترافیکی مختلفی را تجربه می­ کند که در رنج محدودی ومعینی قرار نمی­گیرد. این رفتار در مورد دیگر خیابان‌ها نیز صدق می‌کند. برهمین اساس و با توجه به تفاوت­های قابل ملاحظه‌ی این دو گروه، پیشنهاد می‌شود که مشاهدات مربوط به پریودهای زمان اوج پیک از دیگر مشاهدات متمایز و تفکیک شده و بصورت جداگانه آموزش داده شوند. با این کار مشاهدات شبیه هم در یک گروه قرار گرفته و سپس با هم آموزش داده می­شوند. علاوه بر این، از تأثیر مشاهدات غیر مرتبط با آن پریود زمانی، بر روی پروسه‌ی یادگیری کاسته می­ شود.
بدین ترتیب، با مشخص شدن گروه‌ها، مدل آموزشی هنگام یادگیری، از context مجموعه‌ی آموزشی خود باخبر بوده و در نتیجه مدل­سازی با دقت بالاتری صورت خواهد گرفت.

مرحله یادگیری با Context-Aware Random Forest

در این مرحله، ابتدا گروه ­های متمایز شده از داده ­های آموزشی، بطور جداگانه با بهره گرفتن از الگوریتم RF آموزش داده می­شوند و دو مدل RF2 , RF1 که متعلق به پریودهای زمانی پیک و غیرپیک هست، ساخته می­شوند.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...