1. مقدمه
در زمینه یک شبکه جاده ای در مقیاس بزرگ [ 1 ، 2 ] با تعداد زیادی کاربر که همزمان پرس و جوهای راه دور را ارسال می کنند، تعیین نحوه ارائه پاسخ به موقع به چنین تعداد زیادی از پرس و جوها یک تحقیق بسیار مهم است. سوال برای بسیاری از برنامه های ناوبری. مسئله پیشبینی دقیق و کارآمد کوتاهترین فاصله مسیر بین گرهها در یک شبکه جادهای [ 3 ، 4 ] توجه محققان و تعدادی روش دقیق را به خود جلب کرده است [ 5 ، 6 ، 7 ، 8 ، 9 ].] قادر به انجام پیشبینی مسافت بدون خطا و همچنین روشهای تقریبی [ 10 ، 11 ، 12 ، 13 ، 14 ] ارائه شدهاند که برخی از دقت پیشبینی را قربانی کاهش هزینههای محاسباتی و حافظه میکنند.
الگوریتم سنتی Dijkstra [ 5 ] دارای پیچیدگی زمانی است Onلogn+مترو پیچیدگی فضایی از On، با استفاده از نماد O بزرگ [ 15 ]، که در آن مترو nبه ترتیب تعداد یال ها و تعداد گره ها در نمودار هستند. علاوه بر این، الگوریتم فلوید-وارشال [ 6 ] دارای پیچیدگی زمانی است On3و پیچیدگی فضایی از On2. چنین پیچیدگی زمانی برای نمودارهای کوچک قابل قبول است، اما برای نمودارهای میلیون گره بزرگ، محاسبه فاصله یک گره به منابع محاسباتی عظیم و زمان نیاز دارد [ 16 ]. به منظور سرعت بخشیدن به زمان های پرس و جو در مقایسه با روش های سنتی، تعدادی از روش های برچسب گذاری پیشنهاد شده است [ 7 ، 8 ، 17 ] که همگی از برچسب های فاصله استفاده می کنند. ایده اصلی این است که فاصله هر گره تا گره های دیگر (در موارد شدید، ممکن است تمام گره های باقی مانده باشد) از قبل در مرحله پیش پردازش داده ها محاسبه شود تا یک تاپل به عنوان برچسب فاصله گره تشکیل شود. سپس با بررسی برچسب فاصله، فاصله بین هر دو گره قابل محاسبه است O1زمان. با این حال، دشواری این روشهای برچسبگذاری، یافتن حداقل مجموعه گرهای است که نیاز به محاسبه و ذخیره فاصله دارد تا بتواند تمام کوتاهترین مسیرها را با دقت محاسبه کند. ثابت شده است که یافتن مجموعه گره بهینه یک گراف یک مسئله NP-hard است. در عین حال، هزینه حافظه مصرف شده توسط این روش ها همچنان ادامه دارد On2[ 18 ].
به منظور کاهش هزینه حافظه، محققان روشهای تقریبی کوتاهترین فاصله مسیر را پیشنهاد کردند [ 12 ، 13 ] که با از بین بردن دقت پیشبینی، هزینههای حافظه و محاسبات را بیشتر کاهش میدهد. این فداکاری ارزشمند است، زیرا در بسیاری از کاربردهای عملی یا برخی نمودارهای خاص (نمودارهای شبکه بزرگ جاده)، اگر فاصله دقیق لازم نباشد، کافی است فاصله تقریبی بین گره ها را پیدا کنیم. یک نماینده معمولی روش تقریبی کوتاهترین فاصله مسیر، روش مبتنی بر نقطه عطف است [ 16 ، 19 ، 20 ، 21 ]. این روش معمولا انتخاب می کند لگره ها به عنوان نشانه ها، و سپس، مشابه روش علامت گذاری، یک برچسب فاصله به هر گره اختصاص می دهد، که حاوی فاصله از گره تا این گره های شاخص است. هنگام جستجوی فاصله بین هر دو گره، تقریب حاصل جمع حداقل فاصله بین این دو گره و همان گره نقطه عطف است. اگرچه روش های مبتنی بر نشانه می توانند هزینه حافظه را کاهش دهند Oلn، این روش ها نمی توانند کیفیت تقریب را در تئوری تضمین کنند [ 22 ]، و دقت فاصله پیش بینی تا حد زیادی به انتخاب نشانه ها بستگی دارد. بنابراین، انتخاب نقطه عطف برای بهبود روش مبتنی بر نشانه حیاتی است، اما انتخاب بهترین نشانهها نیز NP-hard است [ 16 ].
روش تعبیه [ 13 ، 23 ، 24 ، 25 ] یکی دیگر از روش های تقریبی کوتاه ترین فاصله مسیر است. در مرحله پیش پردازش داده ها، این روش تعبیه برداری هر گره را از طریق فناوری جاسازی [ 26 ، 27 ، 28 ، 29 ] یاد می گیرد تا کوتاه ترین فاصله مسیر را حفظ کند. یعنی هر گره در درون گره تعبیه شده است کفضای نگاشت بعدی، مانند فضای اقلیدسی [ 30 ] و فضای هذلولی [ 31 ]، برای محاسبه کوتاه ترین فاصله مسیر بین گره ها. بنابراین، هر گره مربوط به آن است ک-بردار تعبیه بعدی. هنگام جستجوی فاصله، روش تعبیه از یک تابع تقریب فاصله موثرتر استفاده می کند، مانند محاسبه مستقیم پ– هنجار بین بردارهای تعبیه شده یا آموزش شبکه عصبی برای پیش بینی فاصله با توجه به بردارهای جاسازی و فاصله واقعی کوتاه ترین مسیر از پیش محاسبه شده. دقیقاً به همین دلیل است که روش تعبیه می تواند سرعت پرس و جو را نسبت به سایر روش های تقریب سریعتر کند. علاوه بر این، فناوری های مختلف تعبیه، ابعاد تعبیه و فضاهای تعبیه تاثیر زیادی در دقت پیش بینی فاصله دارند. بنابراین، انتخاب فناوری تعبیه مناسب، ابعاد و فضای مناسب برای داده های گراف مختلف نیز یک مشکل چالش برانگیز است.
با الهام از روشهای تقریبی کوتاهترین فاصله مسیر، مانند روش مبتنی بر نشانه و روش تعبیه، ما یک مدل تقریبی کوتاهترین فاصله مسیر جدید را بر اساس شبکههای عصبی پیشنهاد کردیم. این مدل روش مبتنی بر نقطه عطف، روش تعبیه و یک مدل شبکه عصبی را ادغام می کند که هزینه زمان را با آموزش بسیار کاهش می دهد.
ساختار باقی مانده مقاله به شرح زیر است: دانش اولیه و کار مرتبط در بخش 2 بررسی می شود . بخش 3 مدل ndist2vec ما را با جزئیات معرفی می کند. ما آزمایش را در بخش 4 ترتیب میدهیم و مجموعه دادههای آزمایشی، شاخص ارزیابی، پارامترهای آزمایشی و نتایج تجربی را شرح میدهیم. در نهایت، نتیجه گیری در بخش 5 آورده شده است.
2. دانش مقدماتی و کارهای مرتبط
2.1. دانش مقدماتی
اجازه دهید جی=V،E،دبلیویک نمودار شبکه جاده بدون جهت باشد با n=Vگره ها و متر=Eلبه ها. برای هر گره (تقاطع جاده)، vمن∈Vدارای یک جفت مختصات جغرافیایی و لبه (جاده ها) همنj∈Eگره ها را به هم متصل می کند vمنو vj، نشان می دهد که آنها مجاور و دارای وزن هستند همنj.w∈دبلیو، که نشان دهنده فاصله در سراسر لبه، یعنی فاصله بین دو تقاطع جاده است. شکل 1 نمونه ای را نشان می دهد که شامل 5گره ها و 6لبه ها؛ v1و v2دو گره از نمودار و وجود لبه هستند ه12نشان می دهد که آنها مجاور هستند و وزن دارند ه12.w، نشان می دهد که فاصله بین آنها است 2.
گره داده شده vمنو گره vj، حداقل یک مسیر وجود دارد پمنj; این توسط یک سری از گره های مجاور متصل است که می توانند ایجاد کنند vمنرسیدن vj. طول مسیر پمنjمجموع وزن بین این سری از گره ها است. به عنوان مثال، سه مسیر از گره وجود دارد v1به گره v4، که هستند v1-v2-v3-v4، v1-v2-v5-v4و v1-v5-v4، و طول مسیر مربوطه هستند 8، 9و 10، به ترتیب. ما مشخص می کنیم که کوتاه ترین مسیر بین گره باشد vمنو گره vjاست پمنj*و آن دمنj=پمنj*نشان دهنده کوتاه ترین طول مسیر واقعی است، بنابراین برای گره v1و گره v4، کوتاه ترین طول مسیر است 8.
2.2. کار مرتبط
محققان دانشگاه پاسائو روش جدیدی [ 13 ] را برای تقریب کوتاهترین فاصله مسیر بین دو گره در یک نمودار اجتماعی بر اساس رویکرد نقطهنظر پیشنهاد کردند و از شبکههای عصبی ساده با تعبیههای node2vec [ 27 ] یا Poincare [ 28 ] استفاده کردند. نتایج بهتری نسبت به Orion و Rigel در مجموعه داده های نمودار اجتماعی به دست آورد. برای راحتی، نام این روش را node2vec-Sg می گذاریم. به طور مفصل، در مرحله اول، آنها از فناوری جاسازی گره برای یادگیری تعبیه برداری استفاده کردند. ϕv∈آرداز هر گره v∈Vدر نمودار در مرحله دوم زوج های نمونه آموزشی را در کل نمودار استخراج کردند جی. به صورت تصادفی انتخاب کردند ل(ل≪n) گره ها از Vبه عنوان نقاط عطف، و آنها از الگوریتم جستجوی عرضی (BFS) برای محاسبه فاصله واقعی استفاده کردند. دتوvاز هر گره شاخص توبه گره های باقی مانده vبه طوری که به دست آوردن لn-لجفت نمونه مشابه به تو،v،دتوv. برای محاسبه تقریبی فاصله بین دو گره، توو v، آنها تعبیه های خود را ترکیب کردند، ϕتوو ϕv، از طریق برخی عملیات باینری ،·(عملیات شامل تفریق، میانگین گیری، ضرب یا الحاق بین بردارها) به طوری که یک جفت نمونه آموزشی تشکیل شود، مانند ϕتو،ϕv،دتوv. در نهایت، شبکه عصبی پیشخور متشکل از یک لایه پنهان از طریق این نمونههای آموزشی آموزش داده شد و شبکه عصبی، مقدار واقعی کوتاهترین فاصله مسیر را پیشبینی کرد. د^توv. فرآیند خاص در شکل 2 نشان داده شده است .
علاوه بر این، از آنجایی که شبکه عصبی یک کار رگرسیونی را انجام می دهد، میانگین مربعات خطا (MSE) به عنوان تابع از دست دادن استفاده می شود، و نزول گرادیان تصادفی (SGD) [ 32 ] به عنوان بهینه ساز استفاده می شود. آنها در تمام آزمایشات خود تأیید کردند که تعبیه node2vec نتایج بهتری نسبت به تعبیه Poincare می دهد و اضافه کردند که تعبیه node2vec قادر به یادگیری ویژگی های ساختاری گره های دور نیست، بنابراین برای ساختارهای گرافیکی با گره های دور بسیار مناسب نیست. به عنوان شبکه های جاده ای
محققان یک مدل مبتنی بر یادگیری به نام vdist2vec [ 25 ] پیشنهاد کرده اند. مدل می تواند به طور موثر و دقیق کوتاه ترین فاصله مسیر بین دو گره را در یک شبکه جاده پیش بینی کند و زمان پیش بینی فاصله و فضای ذخیره سازی مدل Oکو Onک، به ترتیب، که در آن کبعد تعبیه گره است. همانطور که در شکل 3 نشان داده شده است ، در 2Vلایه یک بعدی یک بعدی، vdist2vec می گیرد n-بردارهای یک بعدی داغ ساعتمنو ساعتjاز گره ها vمنو vjبه عنوان ورودی، و لایه بعدی یک لایه تعبیه شده است که از کگره ها در این لایه، تعبیه هر گره برای تولید ماتریس وزن آموخته می شود V. از طریق فرمول vمن=ساعتمنV، تعبیه هر گره را می توان به دست آورد. در این مورد، vمنو vjبدست می آیند و سپس vمن. و vjبه عنوان ورودی برای آموزش یک پرسپترون چندلایه (MLP) به منظور پیشبینی کوتاهترین فاصله مسیر برای تعبیه معین دو گره متصل میشوند. علاوه بر این، محققان مدل های بهبود یافته vdist2vec-L و vdist2vec-S از مدل پایه vdist2vec را پیشنهاد کرده اند، که در آن vdist2vec-L از تلفات Huber به عنوان تابع ضرر استفاده می کند و می تواند خطاهای بیشتری را نسبت به مدل پایه vdist2vec که از میانگین مربع خطا استفاده می کند کاهش دهد. (MSE). مدل vdist2vec-S توسط یادگیری گروهی هدایت می شود. چهار MLP مستقل با آخرین لایه پنهان vdist2vec جایگزین میشوند تا بر فواصل در محدودههای مختلف تمرکز کنند و خروجیهای آنها برای به دست آوردن پیشبینی نهایی فاصله اضافه میشوند.
مدل های فوق بدون افزایش هزینه مکانی به پیش بینی مسافت سریع می رسند. مزایای سه مدل در آزمایشها بر روی چندین شبکه مختلف جادهای واقعی تأیید شده است و vdist2vec-S بهترین یکی از این سه مدل است. با این حال، برای یادگیری بهتر جاسازی گره ها و به دست آوردن دقت پیش بینی بالاتر، مدل ها از همه nn-1جفت گره ها به عنوان نمونه های آموزشی برای آموزش شبکه عصبی، در نتیجه زمان آموزش به طور قابل توجهی افزایش می یابد. با الهام از استفاده فوق الذکر از روش های جاسازی و روش های مبتنی بر نقطه عطف در مسئله تقریبی فاصله کوتاه ترین مسیر، ما یک مدل تقریبی پیش بینی فاصله کوتاه ترین مسیر جدید، ndist2vec را پیشنهاد می کنیم. هدف حفظ دقت پیشبینی نسبتاً بالا و زمان جستجوی سریع است و در عین حال زمان آموزش را تا حد زیادی کاهش میدهد. در بخش بعدی، جزئیات ndist2vec را توضیح خواهیم داد.
3. Ndist2vec
در این بخش مدل ndist2vec را پیشنهاد کردیم. همانطور که در شکل 4 نشان داده شده است ، ما از روش انتخاب تصادفی نشانه ها برای تقسیم مجموعه گره ها استفاده کردیم. Vبه مجموعه ای از گره های شاخص VLو مجموعه ای از گره های باقی مانده Vآر. سپس، مدل ndist2vec ما دو گره را انتخاب می کند، vمنL∈VL،من=1،…،لو vjآر∈Vآر،j=1،…،n-لو بردارهای تعبیه شده مربوط به آنها را بدست می آورد، vمنLو vjآربه ترتیب با استفاده از ماتریس تعبیه برداری اچ∈آرn∗ک(هر گره دارای یک بردار تعبیه شده مربوطه است)، و در نهایت بردارها را به هم متصل می کند vمنLو vjآربه عنوان ورودی برای آموزش یک شبکه عصبی چند لایه برای خروجی فاصله د^منjبین دو گره داده شده، vمنLو vjآر.
به طور خاص، هدف ما استخراج جفت های آموزشی از کل نمودار بود جیبرای آموزش یک شبکه عصبی چند لایه و سپس پیشبینی کوتاهترین فاصله مسیر د^منjبین هر دو گره vمنو vjدر یک نمودار جی. در مرحله اول انتخاب کردیم ل(جایی که ل<n) گره ها در مجموعه گره ها Vبه عنوان نقاط عطف و مجموعه ای از گره های نقطه عطف را تولید کرد VL، و گره های باقی مانده در Vمجموعه ای از گره های باقی مانده را تولید کرد Vآر; یعنی مجموعه Vبه مجموعه ها تقسیم می شود VLو Vآر(جایی که VL=لو Vآر=n-ل). در مرحله دوم، ما به صورت تصادفی یک ماتریس تعبیه بردار را مقداردهی اولیه کردیم اچ∈آرn×کتا بتوانیم یک بردار جاسازی به دست آوریم vمن∈آرکبرای هر گره vمن∈V. از آنجایی که جاسازیهای ما میتوانند مستقیماً با پیشبینی فاصله هدایت شوند، میتوانیم بهروزرسانی کنیم اچبر اساس انتشار پیشبینیهای آموزشی برای هر دوره، که به معنای بهروزرسانی هر بردار تعبیهشده است. vمن. در مرحله سوم با استفاده از ماتریس تعبیه برداری اچ، می توانیم بردار تعبیه را بدست آوریم vمنLمربوط به گره vمنLمجموعه گره نقطه عطف VLو بردار تعبیه vjآرمربوط به گره vjآراز مجموعه گره های باقی مانده Vآر، و ما آنها را به عنوان نمونه های آموزشی به هم وصل کردیم در حالی که کوتاه ترین فاصله مسیر واقعی را محاسبه کردیم دمنjاز این دو گره به عنوان اطلاعات نظارتی (برچسب) این نمونه. سپس، از روش فوق برای عبور از هر گره نقطه عطف و گره های باقی مانده برای به دست آوردن استفاده کردیم لn-لنمونه های آموزشی به همراه اطلاعات نظارت مربوطه آنها. در نهایت، نمونه های آموزشی به عنوان ورودی به یک شبکه عصبی چندلایه استفاده شد. شبکه عصبی نمونه های آموزشی ورودی را به فواصل با ارزش واقعی نگاشت می کند.
همانطور که در شکل 5 نشان داده شده است ، ما یک شبکه عصبی چهار لایه متشکل از یک لایه ورودی، دو لایه پنهان و یک لایه خروجی طراحی کردیم. اندازه لایه ورودی به ابعاد آن بستگی دارد کاز تعبیه برداری، و از آنجایی که دو بردار به صورت سری به هم متصل هستند، 2کنورون ها مورد نیاز است. از آنجایی که تابع ReLU [ 33 ] در آموزش شبکه های عصبی موثر است، تابع فعال سازی سه لایه اول را روی تابع ReLU قرار می دهیم. در لایه خروجی فواصل را در بازه های مختلف به صورت گروهی یاد گرفتیم و خروجی های آنها را اضافه کردیم تا پیش بینی فاصله نهایی را به دست آوریم.
ما از میانگین مربع خطا (MSE) برای اندازهگیری کیفیت پیشبینیکننده استفاده کردیم، زیرا شبکه یک کار رگرسیونی را انجام میدهد، بنابراین میانگین مربع خطای فاصله واقعی گره دمنjو فاصله پیش بینی شده د^منjبه عنوان تابع از دست دادن تمرین ما در نظر گرفته شد Lد:
در نهایت، ما از تخمین لحظه تطبیقی (ADAM) [ 34 ] به عنوان یک بهینه ساز استفاده کردیم که نرخ یادگیری را پس از تصحیح سوگیری با محدوده تعریف شده ای از نرخ های یادگیری در هر تکرار کنترل می کند. ما پارامترها را نسبتاً صاف کردیم و اثربخشی آنها در تعداد زیادی آزمایش شبکه عصبی عمیق تأیید شده است. در طول آموزش، تمام پارامترهای شبکه عصبی به طور تصادفی مقداردهی اولیه می شوند. نمونه های آموزشی به صورت دسته ای برای آموزش وارد شبکه می شوند. از دست دادن تمرین Lدبرای بهینه سازی تمام پارامترهای شبکه بازگردانده می شود.
4. آزمایش کنید
در این بخش، ndist2vec پیشنهادی خود را روی چهار مجموعه داده شبکه جادهای آزمایش کردیم و آن را با node2vec-sg و vdis2vec مقایسه کردیم. همه این روش ها توسط Python 3.7 بر روی رایانه شخصی با پردازنده Intel Core Duo (دو 4.2 گیگاهرتز) با 16 گیگابایت رم پیاده سازی شد. در مرحله بعد، ابتدا مجموعه داده ها، برخی تنظیمات پارامتر و معیارهای ارزیابی را شرح دادیم. سپس آزمایشاتی را که انجام دادیم شرح دادیم و نتایج را ارائه کردیم. و در نهایت، نتایج به دست آمده از نتایج تجربی و دلایلی که چرا آنها به روشی که انجام شده بودند را ارائه کردیم. کد منبع برنامه و داده های تجربی در figshare [ 35 ] بایگانی شدند.
4.1. مجموعه داده ها و فراپارامترها
ما از چهار نمودار شبکه جاده ای مختلف [ 2 ] برای آزمایش ها استفاده کردیم. ما حداکثر مولفه متصل را از این نمودارهای جاده استخراج کردیم، نام گره را تغییر دادیم و مختصات را مشخص کردیم. بنابراین، تمام مجموعه داده ها حاوی لبه های وزن دار و مختصات نقشه منحصر به فرد برای هر گره هستند. علاوه بر این، همه آنها بدون جهت و تعداد گره ها هستند n=V، تعداد لبه ها متر=E، حداکثر فاصله دمترالفایکس، حداقل فاصله دمترمنnو میانگین فاصله دمترهالفnبین گره ها در جدول 1 خلاصه شده است و شکل 6 شبکه اصلی راه را نشان می دهد.
برای همه روش های مقایسه، از تنظیمات هایپرپارامتر توصیه شده آنها استفاده کردیم. در مدل ndist2vec ما، شبکه عصبی از چهار لایه تشکیل شده است: یک لایه ورودی حاوی 2کنورون ها یک لایه خروجی حاوی 1نورون و دو لایه پنهان حاوی 100و 20نورون ها، به ترتیب، جایی که کبعد تعبیه است و ما تنظیم می کنیم ک=50. چهار پارامتر یادگیری گروهی، دمترالفایکس>λ4>λ3>λ2>λ1>0،به طور تصادفی مقداردهی اولیه و با هر دوره آموزشی به روز شدند. این مدل در مجموع آموزش داده شد 30دوره ها همه nn-1جفت های نمونه در دوره اول و در دوره باقیمانده آموزش دیدند 29دوره ها، ل=10%n-15%nنقاط عطف به طور تصادفی برای هر دوره دوباره تولید شد. یعنی لn-لجفت های نمونه برای هر دوره آموزش دیدند و همه دوره ها با نرخ یادگیری آموزش دیدند 0.01.
ما از دو نوع معیار برای اندازه گیری دقت و سرعت روش خود استفاده کردیم. در ابتدا، ما از میانگین خطای مطلق (MAE) و میانگین خطای نسبی (MRE) برای اندازه گیری تفاوت بین مقدار پیش بینی شده خود استفاده کردیم. د^منjو ارزش واقعی دمنj. تعاریف آنها هستند
و
به ترتیب، و هر چه مقدار کوچکتر باشد، دقت بالاتری دارد. در مرحله دوم، ما از زمان آموزش (PT) و میانگین زمان پیشبینی فاصله (AT) برای اندازهگیری سرعت مدل استفاده کردیم. در آزمایش ما، مجموعه پیش بینی ما شامل: nn-1جفت تمام گره ها
4.2. نتایج کلی
جدول 2نتایج تجربی خطای پیشبینی و هزینه زمانی ndist2vec، vdist2vec-S و node2vec-Sg را در چهار مجموعه داده شبکه جادهای نشان میدهد. از نظر خطای پیشبینی، میتوان دید که vdist2vec-S کوچکترین MAE و MRE را برای هر مجموعه داده دارد، زیرا تمام اطلاعات جفت گره را یاد میگیرد و اطلاعات فاصله جفتهای گره را از طریق جاسازی گره حفظ میکند (اعداد پررنگ بهترین عملکرد را نشان میدهند). . روش ما ndist2vec دارای MAE و MRE بزرگتر از روش vdist2vec-S است، اما اندازه آن محدود است. ما از روش مبتنی بر نقطه عطف برای یادگیری استفاده کردیم و تمام اطلاعات جفت گره را یاد نگرفتیم، اما اطلاعات جاسازی گره را در ماتریس تعبیه برداری بردار حفظ کردیم. Node2vec-Sg روشی تقریبی برای پیشبینی کوتاهترین فاصله مسیر شبکههای اجتماعی است. وزن آن را به مسافت واقعی تغییر دادیم و آزمایش هایی را روی شبکه های جاده ای انجام دادیم، اما نتایج خوبی به دست نیاوردیم. دلیل آن این است که node2vec-Sg گاهی اوقات در فرآیند تولید نمونه های آموزشی بیش از حد و کمتر از نمونه ها استفاده می کند. یعنی نمونه ها به طور مساوی تقسیم نمی شوند و همه اطلاعات جفت گره ها یاد نمی گیرند. در عین حال، فناوری جاسازی node2vec برای گره های شبکه جاده ای مناسب نیست. این در آزمایش های بعدی ما توضیح داده شده است.
از نظر هزینه زمان آموزش PT، روش ما ndist2vec بهترین عملکرد را دارد. مزیت مدل ما این است که مقداری دقت را قربانی می کند تا زمان آموزش را تا حد زیادی کاهش دهد و این فداکاری در دقت ارزشمند است. به طور خاص، برای مجموعه داده های SU، AH و DH، MAE های ndist2vec هستند 1.14، 1.44و 1.20به ترتیب برابر با vdist2vec-s، اما زمان آموزش PT حداقل یک چهارم زمان vdis2vec-S است. علاوه بر این، با افزایش تعداد گره ها ( n)، فاصله زمانی به طور فزاینده ای بزرگتر خواهد شد. اگرچه node2vec-Sg نیز یک روش مبتنی بر نقطه عطف است، اما به دلیل روش های مختلف انتخاب نمونه های آموزشی بسیار زمان بر است.
میانگین زمان پیشبینی AT با تقسیم کل زمان پیشبینی محاسبه میشود اساز تمام جفتهای گره نمونهها بر اساس تعداد جفتهای نمونه n(n-1) از تمام گره ها، و واحد میکروثانیه (μs) است. این سه مدل باید بردارهای تعبیهشده دو گره را در فاصله پیشبینی به هم پیوند داده و آنها را به شبکه عصبی مربوطه وارد کنند (ساختار شبکه عصبی سه روش مشابه است) برای انتشار رو به جلو برای به دست آوردن نتایج پیشبینی. مشاهده می شود که AT ndist2vec برای چهار مجموعه داده کوچکترین است. این به دلیل بعد تعبیه برداری است کاز ndist2vec همیشه است 50، در حالی که بعد تعبیه کاز vdist2vec-S است 0.02nو بعد node2vec است ک=128; ابعاد بیشتر زمان آموزش PT و میانگین زمان پیش بینی AT را افزایش می دهد.
Ndist2vec از نظر خطای پیشبینی در مجموعه داده Dongguan بدترین عملکرد را دارد. این به این دلیل است که اگرچه مجموعه داده Dongguan فقط دارد 7658گره ها، در مجموع حدود 59میلیون جفت نمونه، میانگین فاصله آن بین گره ها بالاترین است، دمترهالفn=35،096متر می توان تصور کرد که توزیع گره در مجموعه داده Dongguan تحت سلطه فاصله زیادی است. علاوه بر این، روش ما بر اساس نشانه ها است. ما تمام جفتهای نمونه را در طول آموزش یاد نگرفتیم، بنابراین از یادگیری جفتهای نمونه در فواصل بزرگ محروم هستیم. بنابراین، روش ما ممکن است برای مجموعه های داده با فواصل زیاد بین گره ها مناسب نباشد و این مسیر پیشرفت بعدی ما خواهد بود.
استراتژی آموزشی ما آموزش است 30دوره ها دوره اول همه را آموزش می دهد nn-1جفت نمونه، باقیمانده 29قطار دوران لn-لجفتهای نمونه شاخص و نشانهها بهطور تصادفی در هر دوره انتخاب میشوند. علاوه بر این، ماتریس تعبیه برداری ما اچبا توجه به نتایج پیش بینی به روز می شود. با استفاده از روش متغیر کنترل، ما چهار مدل را در جدول 3 خلاصه کرده و آنها را در جدول 4 مقایسه کردیم تا اثربخشی استراتژی آموزش مدل خود را تأیید کنیم.
جدول 3 تنظیمات آموزشی مدل های مختلف را نشان می دهد. Embedding شکل ماتریس جاسازی برداری را نشان می دهد، L نشان می دهد که ماتریس تعبیه برداری بردار اچرا می توان از طریق نتایج پیش بینی (یعنی روش ما) به روز کرد و N نشان می دهد که ماتریس تعبیه بردار اچبا توجه به فناوری تعبیه node2vec از قبل آموخته می شود و با نتایج پیش بینی تغییر نخواهد کرد. Epoch دو انتخاب دارد. Epoch1 نشان میدهد که دوره اول تمام جفتهای نمونه را آموزش میدهد، و 29 دوره باقیمانده جفتهای نمونه شاخص را آموزش میدهند. Epoch2 نشان می دهد که 30 دوره جفت نمونه شاخص را آموزش می دهند. S در Landmark نشان می دهد که هر دوره جفت های نمونه نقطه عطفی جدیدی را برای شرکت در آموزش ایجاد می کند، و F نشان می دهد که نقطه عطف یک بار تولید شده و برای شرکت در آموزش همه دوره ها ثابت شده است. یعنی هر دوره با جفت های نمونه نقطه عطف ثابت آموزش داده می شود.
جدول 4نتایج تجربی ndist2vec و مدل های دیگر را نشان می دهد. به طور خاص، با مقایسه ndist2vec و ndist2vec-1 می بینیم که برای چهار مجموعه داده، نتیجه ndist2vec بهتر از ndist2vec-1 است که نشان می دهد روش به روز رسانی ماتریس تعبیه برداری بر اساس نتایج پیش بینی بیشتر است. مناسب برای پیشبینی کوتاهترین فاصله مسیر یک جاده به جای استفاده مستقیم از فناوری جاسازی node2vec. فناوری تعبیه Node2vec توجه بیشتری به گرفتن شباهت بین گرهها دارد، اما پیشبینی کوتاهترین مسیر شبکه جادهای به رابطه فاصله بین گرهها توجه بیشتری دارد. بنابراین، روش بهروزرسانی ماتریس تعبیه برداری با توجه به نتایج پیشبینی، برای ثبت ویژگیهای شبکه راه مناسبتر است.
Ndist2vec همه را آموزش داد nn-1جفت های نمونه در دوره اول، در حالی که ndist2vec-2 از روش مبتنی بر نقطه عطف در دوره اول استفاده کرد و فقط آموزش دید لn-لجفت نمونه در نتیجه، زمان تمرین PT ndist2vec بیشتر از ndist2vec-2 بود (فقط در دوره اول تمرین بیشتر بود)، اما MAE و MRE کاهش یافتند. دلیل این امر این است که اگرچه روش مبتنی بر نقطه عطف می تواند زمان آموزش را کاهش دهد، اما از روش انتخاب نشانه تصادفی استفاده کردیم که ممکن است جفت نمونه بهتری برای آموزش در دوره اول ایجاد نکند و سپس ماتریس تعبیه برداری برداری را به روز کردیم. اچ. با این حال، آموزش تمام جفتهای نمونه در دوره اول میتواند ماتریس تعبیه برداری را بهتر آموزش داده و به روز کند. اچو زمینه خوبی برای آینده فراهم کند 29دوره های آموزشی
با مقایسه مدل ndist2vec و مدل ndist2vec-3، در دوره آموزشی مبتنی بر نقطه عطف (29 دوره باقی مانده)، BB یادگیری را 29 بار تکرار می کند. لn-لجفت نمونه، بنابراین فقط می تواند اطلاعات را یاد بگیرد لn-لجفت نمونه هنگامی که انتخاب نقطه عطف تصادفی خوب نباشد، عملکرد ndis2vec-3 بدتر می شود. با این حال، در آموزش مبتنی بر نقطه عطف دوره ای مدل ndist2vec، هر دوره به طور تصادفی نشانه های جدید را انتخاب می کند و جفت های نمونه جدیدی را برای آموزش تولید می کند. یعنی مدل ndist2vec می تواند اطلاعات بیشتری از آن بیاموزد |∪من=129تیمن|-|∩من=129تیمن|جفت های نمونه (که در آن تیمنمجموعه ای از جفت های نمونه است که از ترکیب آنها ایجاد می شود VLمنو Vآرمن). برای وظایف رگرسیون، اطلاعات بیشتر مورد استفاده برای یادگیری به معنای برازش بهتر است. بنابراین، در جدول 4 مشاهده می شود که ndist2vec بهتر از ndis2vec-3 عمل می کند.
4.3. بحث
در این مقاله، شبکههای جادهای هدایت نشده را مورد مطالعه قرار دادیم. در واقع، در یک شبکه جاده هدایتشده، اینکه آیا همه گرهها به صورت دوطرفه به هم متصل هستند، تعیین میکند که آیا مدل ما امکانپذیر است یا خیر. هنگامی که همه گره ها به صورت دو طرفه به هم متصل می شوند، یک راه حل عملی برای مدل ما در شبکه های جاده هدایت شده، تغییر ترتیب اتصال بردارهای تعبیه شده گره و آموزش دو مدل پیش بینی به منظور پیش بینی فواصل گره دو طرفه به طور جداگانه است. در حال حاضر، ما نمیتوانیم راهحلی برای اعمال این مدل در موردی پیدا کنیم که فقط برخی از گرهها به صورت دو طرفه متصل هستند. علاوه بر این، مدل ما از یک روش نقطه عطف به طور تصادفی انتخاب شده استفاده می کند. یعنی لگره های نقطه عطف به طور تصادفی از مجموعه گره انتخاب می شوند.
به نظر می رسد روش انتخاب تصادفی نشانه ها بهترین انتخاب نباشد و یک روش انتخاب نقطه عطف بهتر ممکن است باعث بهبود زیادی در نتایج شود. ما همچنین روشهای دیگری را برای انتخاب نشانهها امتحان کردیم، مانند استفاده از الگوریتم k-media برای انتخاب لگره های میانه و استفاده از الگوریتم بدنه مقعر برای انتخاب تمام گره های لبه، اما اثر به خوبی انتخاب مستقیم نبود. لگره ها به صورت تصادفی ما نتوانستیم دلایل خاصی را برای این موضوع مشخص کنیم.
5. نتیجه گیری و کار آینده
این مقاله مدلی به نام nidst2vec را بر اساس فناوری جاسازی و نقطه عطف ارائه میکند که از شبکههای عصبی چند لایه برای به دست آوردن یک راهحل تقریبی برای مشکل فاصله کوتاهترین مسیر استفاده میکند. Ndist2vec اطلاعات فاصله بین گره ها را از طریق فناوری جاسازی می آموزد. به عنوان مثال، ماتریس تعبیه برداری به روز شده را می آموزد اچبرای حفظ دقت پیش بینی، و فقط O50nفضای لازم برای ذخیره ماتریس تعبیه برداری برداری است اچ. متد Landmark به ndist2vec اضافه شده است که زمان آموزش را بسیار کاهش می دهد. به طور خاص، در هر دور آموزشی، مدل نقاط عطف جدیدی را انتخاب میکند تا بدون افزایش زمان آموزش، اطلاعات بیشتری در مورد جفتهای گره بیاموزد، که بهروزرسانی جاسازیهای گره را تسهیل میکند. نتایج تجربی نشان میدهد که در حالی که خطای پیشبینی افزایش یافته است (تا 20%، زمان آموزش به میزان قابل توجهی کاهش می یابد (حداقل). 75%) در مقایسه با روش معیار.
در کار آینده، ما قصد داریم روش خود را با یک نمودار شبکه جاده ای با فاصله زیاد بین گره ها تطبیق دهیم و آن را به انواع دیگر داده های گراف گسترش دهیم. علاوه بر این، ترکیب روش ما، مطالعه روشهای معقولتر انتخاب نشانه، و بررسی تأثیر تکنیکهای مختلف جاسازی و ابعاد جاسازی، همگی جهتهای پژوهشی ارزشمندی هستند. ما از یک چارچوب محاسباتی داده های بزرگ جغرافیایی [ 36 ، 37 ] برای بهبود عملکرد مدل یادگیری عمیق با در نظر گرفتن مجموعه داده های بزرگ در کار آینده استفاده خواهیم کرد.
بدون دیدگاه