CostNet: یک شبکه فضایی-زمانی فراگذر مختصر برای یادگیری پیشگو

خلاصه

پیش‌بینی آینده از داده‌های مکانی-زمانی قبلی همچنان یک موضوع چالش برانگیز است. کارهای قبلی بسیاری در مورد یادگیری پیشگویانه وجود داشته است. با این حال، مدل‌های اصلی از مصرف زیاد حافظه یا مشکل ناپدید شدن گرادیان رنج می‌برند. با روشن شدن ایده از resnet، ما CostNet را پیشنهاد می کنیم، یک شبکه مبتنی بر شبکه عصبی بازگشتی جدید (RNN) که دارای یک اتصال متقابل افقی و عمودی است. هسته این شبکه یک واحد مختصر به نام Horizon LSTM با یک کانال انتقال شیب سریع است که می تواند نمایش های مکانی و زمانی را به طور موثر استخراج کند تا مشکل انتشار گرادیان را کاهش دهد. در جهت عمودی خارج از واحد، ما اتصالات روگذر را از خروجی واحد به لایه پایین اضافه می کنیم، که می تواند دینامیک کوتاه مدت را برای ایجاد پیش بینی های دقیق ثبت کند.

کلید واژه ها:

شبکه مکانی – زمانی ; یادگیری پیش بینی کننده ; افق LSTM ; ساختار عمودی ؛ معماری رمزگذار-رمزگشا

1. معرفی

با تولید و حفظ داده های بزرگ، داده های مکانی-زمانی بیشتری در زندگی روزمره ما در دسترس است که دارای ویژگی های اطلاعات مکانی و زمانی است [ 1 ، 2 ، 3 ، 4 ، 5 ]. اخیراً، یادگیری پیش‌بینی فضایی-زمانی به موضوعی داغ در کاربردهای عملی [ 6 ] تبدیل شده است، از جمله پخش بارش در حال حاضر [ 7 ، 8 ، 9 ]، پیش‌بینی جریان‌های جمعیت [ 10 ، 11 ، 12 ] ، پیش‌بینی ویدیویی [ 13 ، 14 ، 15 ، 17] و شناخت عمل [ 18 ، 19 ]. برخلاف یادگیری عمیق سنتی [ 20 ]، یادگیری پیش‌بینی‌کننده قادر است داده‌های آینده را از داده‌های مکانی-زمانی بدون برچسب قبلی به شیوه‌ای بدون نظارت پیش‌بینی کند.

هنگام آموزش شبکه های عصبی مصنوعی در یادگیری پیش بینی، مسئله گرادیان ناپدید شدن یک سوال تحقیقاتی دشوار است. این باعث پیش‌بینی طولانی‌مدت ضعیف می‌شود، زیرا روش یادگیری مبتنی بر گرادیان بسیار طولانی‌تر خواهد بود، زیرا خطاها با انتشار مجدد از بین می‌روند. پرداختن به مشکل گرادیان ناپدید شدن یک مسئله در تمایل پیش بینی فضایی-زمانی است.

مطالعات قبلی زیادی در مورد یادگیری پیش‌بینی‌کننده، از جمله مدل‌های شبکه عصبی بازگشتی (RNN)، مدل‌های شبکه عصبی کانولوشنال (CNN) و روش‌های شبکه متخاصم مولد (GAN) انجام شده است. با این حال، مدل‌های جریان اصلی از استفاده زیاد حافظه یا مشکلات ناپدید شدن گرادیان رنج می‌برند [ 21 ، 22 ، 23]. از آنجایی که یادگیری پیش‌بینی برای داده‌های مکانی-زمانی، به‌ویژه در بارش کنونی، همیشه با اشیاء درهم‌تنیده، تغییر شکل و تغییر جهت سروکار دارد، این کار چالش‌برانگیزتر از رگرسیون توالی زمانی سنتی است، و یک جهت تحقیقاتی است که ارزش کاوش را دارد. چارچوب مبتنی بر یادگیری پیش بینی می تواند مسئله را به خوبی حل کند، اما ساختار واحد داخلی LSTM پیچیده است. انگیزه ما کشف ساختار واحد ساده‌تر و حل یا کاهش مشکل ناپدید شدن گرادیان است.

برای حل مشکل ناپدید شدن گرادیان و ساختار ساده‌تر در واحد سلولی، CostNet، یک شبکه جدید مبتنی بر RNN را ارائه می‌کنیم. به خوبی شناخته شده است که resnet [ 1 ، 24] در رقابت ایمیج نت، که عمق شبکه کانولوشن را با پرش از اتصالات بدون ایجاد مشکلات ناپدید شدن گرادیان یا انفجار گرادیان، تا حد زیادی افزایش می دهد. با ایده رد شدن از اتصالات، CostNet دارای یک اتصال متقاطع افقی و عمودی است. هسته این شبکه یک واحد مختصر به نام Horizon LSTM با یک کانال انتقال شیب سریع است که مسیری سریع از پیش‌بینی‌های آینده به ورودی‌های دور قبلی برای کاهش دشواری انتشار گرادیان فراهم می‌کند. در جهت عمودی خارج از واحد، ما اتصالات روگذر را از خروجی واحد به لایه پایین اضافه می کنیم، که می تواند پویایی کوتاه مدت را برای ایجاد پیش بینی های واضح ثبت کند. مدل ما به نتایج پیش‌بینی بهتری در مجموعه داده‌های متحرک و رادار نسبت به مدل‌های پیشرفته دست می‌یابد.

در این مطالعه، ما یک شبکه جدید مبتنی بر RNN به نام CostNet را پیشنهاد می‌کنیم. مقاله بصورت زیر مرتب شده است. کارهای مرتبط در بخش 2 نشان داده شده است . بخش 3 مقدمات را معرفی می کند. بخش 4 ساختار LSTM و عمودی Horizon را برای CostNet نشان می دهد. آزمایش ها و نتایج در بخش 5 آورده شده است و در ادامه نتیجه گیری در بخش 6 آمده است.

2. کارهای مرتبط

در سال‌های اخیر، تعداد فزاینده‌ای از مدل‌های یادگیری پیش‌بینی‌کننده پیشنهاد شده‌اند که عمدتاً مبتنی بر شبکه عصبی کانولوشن (CNN) [ 25 ]، شبکه عصبی بازگشتی (RNN) [ 26 ، 27 ] یا شبکه متخاصم مولد (GAN) [ 28 ] هستند. ، 29 ].

با توجه به توانایی قدرتمند استخراج همبستگی های فضایی، CNN به موفقیت های زیادی در زمینه بینایی کامپیوتری، مانند طبقه بندی تصویر و تشخیص اشیا دست یافته است [ 20 ]. برخی از محققان تلاش کردند تا داده های مکانی-زمانی را بر اساس CNN مدل کنند. اوه و همکاران یک مدل رمزگذار خودکار عملی مبتنی بر CNN برای پیش‌بینی بازی‌های ویدیویی Atari [ 30 ] معرفی کرد، اما عملکرد آن در ویدیوهای دنیای واقعی خوب نیست. دی براباندر و همکاران شبکه‌های فیلتر پویا را برای برخی از نمونه‌های ورودی ساخته است [ 31 ]. ژانگ و همکاران شبکه‌های عمیق مکانی-زمانی را برای پیش‌بینی جریان‌های جمعیتی در سطح شهر با استفاده از یادگیری باقی‌مانده و مکانیسم همجوشی طراحی کرد [ 12]. با این حال، این مدل فقط برای پیش بینی بسیار کوتاه مدت اعمال می شود. ویلگاس و همکاران یک چارچوب سه مرحله‌ای با داده‌های مشروح مفاصل انسان برای پیش‌بینی بلندمدت [ 32 ] ساخته شده است. با این حال، به شیوه ای نظارتی کار می کند که به یک نقطه عطف به عنوان حقیقت اصلی نیاز دارد.

با توجه به توانایی قدرتمند مدل‌سازی وابستگی‌های زمانی، RNN در زمینه پردازش زبان طبیعی، مانند ترجمه ماشینی و سیستم‌های مکالمه هوشمند، به موفقیت زیادی دست یافته است. برخی از محققان تلاش کردند تا داده های مکانی-زمانی را بر اساس RNN مدل کنند. رانزاتو و همکاران اولین چارچوب RNN را با الهام از مدل‌سازی زبان معرفی کرد و یک خط پایه برای پیش‌بینی ویدیویی ایجاد کرد [ 14 ]. با این حال، نشان داده شده است که این مدل تنها می تواند یک فریم جلوتر را پیش بینی کند. سریواستاوا و همکاران از توالی برای توالی شبکه LSTM از مدل سازی زبان برای پیش بینی ویدیوی چند مرحله ای استفاده کرد [ 33]. ویژگی های زمانی توسط لایه کاملاً متصل LSTM (FC-LSTM) در مدل گرفته می شود که نمی تواند همبستگی های فضایی را استخراج کند. برای یادگیری همزمان ویژگی های مکانی و زمانی، شی و همکارانش. عملگر کانولوشن را در انتقال های ورودی به حالت و حالت به حالت پذیرفت و LSTM کانولوشن (ConvLSTM) را ارائه کرد [ 7 ]. با این حال، معماری رمزگذار-رمزگشا انباشته تمایل به تولید نتایج فازی دارد. ConvLSTM به دلیل طراحی هنرمندانه‌اش به یک مرجع مهم در تحقیقات آینده داده‌های مکانی-زمانی تبدیل می‌شود. فین و همکاران مدل LSTM کانولوشن را در برنامه ریزی رباتیک گسترش داد و یک شبکه پیش بینی ویدئویی شرطی عمل ساخت [ 34 ]]. Patraucean و همکاران یک رمزگذار خودکار ویدئویی مکانی-زمانی با حافظه قابل تمایز برای تشخیص کنش [ 35 ] ساخته است، که می تواند دینامیک زمانی کوتاه مدت را مدل کند و فقط یک فریم آینده را که تا حدی به جریان نوری و LSTM کانولوشنال مرتبط است، پیش بینی کند. ویلگاس و همکاران همچنین مدل‌های تکراری مبتنی بر LSTM کانولوشن با استفاده از جریان نوری به‌عنوان ویژگی‌های هدایت‌شده برای کمک به گرفتن پویایی کوتاه‌مدت برای پیش‌بینی ویدیو ارائه کرد و یک شبکه رمزگذار-رمزگشا ایجاد کرد که حرکت و محتوا را به مسیرهای رمزگذار مختلف برای پیش‌بینی آینده در سطح پیکسل جدا می‌کند [ 36 ] . لاتتر و همکاران یک شبکه کدنویسی پیشگوی عمیق را بر روی ConvLSTM پیشنهاد کرد که به ویژه برای پیش بینی ویدیوی تک فریم طراحی شده است [ 15 ]]. شی و همکاران به کاوش یک مدل جدید برای حل مسئله تغییر ناپذیر مکان ادامه داد و معیاری را برای پخش اکنون بارش پیشنهاد کرد [ 8 ]. ترکیب CNN دروازه‌ای و ConvLSTM، Kalchbrenner و همکاران. یک مدل ویدیوی احتمالی پیچیده را طراحی کرد، به نام شبکه پیکسل ویدئو (VPN) [ 16]، که یک زنجیره وابستگی چهار بعدی را از ویدیوهای خام رمزگذاری می کند و توزیع مشترک گسسته مقادیر پیکسل را یک به یک تخمین می زند. این مدل فریم‌های پیش‌بینی واضحی را ارائه می‌دهد، اما پیچیدگی محاسباتی بالا و راندمان پیش‌بینی پایین را نیز به همراه دارد. بر خلاف ConvLSTM های انباشته، وانگ و همکاران. یک معماری رمزگذار رمزگذار جدید (PredRNN) برای یادگیری پیش‌بینی فضایی-زمانی با افزودن جریان‌های حافظه زیگزاگ از لایه بالا به لایه پایین پیشنهاد کرد که برای مدل‌سازی پویایی ویدیوی کوتاه‌مدت مفید است و یک واحد پیچیده [ 9 ] به نام ST-LSTM با دوتایی طراحی کرد. حافظه (حافظه زمانی و مکانی-زمانی) به صورت بلوک در شبکه جریان دارد. وانگ و همکاران به توسعه PredRNN++ با واحد GHU (واحد بزرگراه گرادیان) ادامه داد [ 37] برای کاهش معضل عمیق در زمان و پیشنهاد یک واحد معقول تر اما هنوز پیچیده تر، به نام LSTM علّی.

با توجه به توانایی قدرتمند تولید الگوهای مشابه، GAN به یک موضوع تحقیقاتی داغ در زمینه یادگیری ماشینی، مانند انتقال سبک تصویر و تولید ویدئو تبدیل شده است. برخی از محققان تلاش کردند تا داده های مکانی-زمانی را بر اساس GAN مدل کنند. متیو و همکاران شبکه‌های متخاصم مولد را به پیش‌بینی ویدیویی معرفی کرد [ 17 ]، که فریم‌های پیش‌بینی را توسط یک ژنراتور تولید می‌کنند و سپس فریم‌های واقعی/جعلی را توسط یک تمایز تشخیص می‌دهند. روش های بیشتری در مورد یادگیری خصمانه در پیش بینی ویدیویی وجود داشت [ 38 ، 39 ، 40 ، 41]. این روش ها می توانند فریم های واضح تری نسبت به روش های سنتی CNN یا RNN ایجاد کنند. با این حال، به دلیل شبکه های متخاصم ناپایدار، آنها به آموزش دقیق نیاز دارند.

به طور خلاصه، رویکردهای مختلف دارای معایب متفاوتی هستند. رویکردهای مبتنی بر GAN می‌توانند فریم‌های تیز ایجاد کنند اما دینامیک زمانی را در پیش‌بینی بلندمدت ثبت نمی‌کنند. به طور کلی، رویکردهای مبتنی بر CNN در پیش‌بینی بلندمدت نیز ضعیف هستند، زیرا ساختارهای کانولوشنال می‌توانند همبستگی‌های فضایی را استخراج کنند اما دینامیک زمانی را به طور موثر مدل نمی‌کنند. در مقابل، رویکردهای مبتنی بر RNN در مدل‌سازی وابستگی‌های زمانی در پیش‌بینی بلندمدت خوب هستند، اما به دلیل مشکل معروف گرادیان ناپدید شدن، تمایل به ایجاد پیش‌بینی‌های تاری دارند. در این مطالعه، ما یک شبکه فضایی-زمانی روگذر مختصر را پیشنهاد کردیم که می تواند ویژگی های مکانی و زمانی را به طور همزمان مدل کند.

3. مقدمات

هدف از یادگیری پیش‌بینی‌کننده برای داده‌های مکانی-زمانی، پیش‌بینی پیش‌بینی‌های آینده با استفاده از توالی‌های مشاهده قبلی است. از دیدگاه ریاضی، این کار را می توان به عنوان یک مسئله تخمین احتمال در نظر گرفت. ما یک کلیپ ویدیویی (فرمت رایج داده‌های مکانی-زمانی) را به عنوان یک هدف تحقیق می‌گیریم. این یک توالی زمانی است که به طور کلی از آن باز می شود $t - J + 1$ به $t + K$ . با دادن مهر زمانی $t$ ، $x_{t - J + 1}, \dots, x_{t}$ (طول- $J$ ) نشان دهنده مشاهدات قبلی و $x_{t + 1}, \dots, x_{t + K}$ (طول- $K$ ) مقادیر حقیقت پایه وضعیت آینده را نشان می دهد. در زمان معین t، هر مشاهده $x$ ، یک نمایش فضایی، می تواند با یک تانسور نمایش داده شود $R^{C \times M \times N}$ ، جایی که $R$ به معنی ویژگی، $C$ $M$ و $N$ به ترتیب کانال، ارتفاع و عرض یک قاب را نشان می دهد. ماهیت پیش‌بینی، پیش‌بینی طول آینده است $K$ دنباله بر اساس طول شناخته شده $J$ توالی و برای به حداکثر رساندن احتمال پیش بینی $p$ . پیش بینی ها ${\hat{x}}_{t + 1}, \dots, {\hat{x}}_{t + k}$ به عنوان مقادیر تخمینی از حقیقت زمین استفاده می شود $x_{t + 1}, \dots, x_{t + K}$ . این فرآیند را می توان توسط معماری رمزگذار-رمزگشا پیاده سازی کرد. بسیاری از مدل‌ها برای یادگیری پیش‌بین از معماری رمزگذار-رمزگشا استفاده می‌کنند، از جمله FC-LSTM، ConvLSTM، ST-LSTM، Cause LSTM و مدل ما. ابتدا از رمزگذار برای رمزگذاری مشاهدات قبلی در حالت های میانی استفاده می شود و سپس از رمزگشا برای تولید نتایج پیش بینی بر اساس این حالت های میانی استفاده می شود. فرمول ها در فرمول (1) به صورت زیر آورده شده است:

ایکس^t + 1, \dots, ایکس^t + k = ارگ حداکثر ایکس t + 1, \dots, ایکس t + K p (ایکس t + 1, \dots, ایکس t + K | ایکس t - J + 1, \dots, ایکس تی) = ارگ حداکثر ایکس t + 1, \dots, ایکس t + K p (ایکس t + 1, \dots, ایکس t + K | f e n c o d من n g (ایکس t - J + 1, \dots, ایکس تی)) = g رمزگشایی (f e n c o d من n g (ایکس t - J + 1, \dots, ایکس تی))

(1)

LSTM برای پردازش توالی های زمانی مناسب است، که یک واحد سلولی بازگشتی با چهار ساختار دروازه در داخل است. طبق مقاله [ 27 ]، فرمول های اصلی LSTM در فرمول (2) در زیر نشان داده شده است:

g تی = برنزه h (دبلیو x c ∙ ایکس تی + دبلیو h c ∙ ساعت t - 1 + ب ج) من تی = σ (دبلیو x i ∙ ایکس تی + دبلیو h من ∙ ساعت t - 1 + دبلیو ج من \circ ج t - 1 + ب من) f تی = σ (دبلیو x f ∙ ایکس تی + دبلیو h f ∙ ساعت t - 1 + دبلیو ج ج \circ ج t - 1 + ب f) ج تی = f تی \circ ج t - 1 + من تی \circ g تی o تی = σ (دبلیو x o ∙ ایکس تی + دبلیو ساعت_∙ ساعت t - 1 + دبلیو c o \circ ج تی + ب o) ساعت تی = o تی \circ tan h (ج تی)

(2)

جایی که $σ$ تابع فعال سازی سیگموئید است، $•$ و $\circ$ به ترتیب محصول ماتمول و محصول هادامارد را نشان می دهند. با این حال، برای داده‌های مکانی، محصول matmul تعداد زیادی اتصال اضافی (اتصالات کامل) ایجاد می‌کند تا همبستگی‌های فضایی کارآمد را با کارایی بالا استخراج کند.

شی و همکاران با ترکیب لایه کانولوشن و لایه بازگشتی. ConvLSTM پیشنهادی [ 7 ]، که به طور گسترده در زمینه داده های مکانی-زمانی استفاده می شود زیرا همبستگی های مکانی و دینامیک زمانی به طور همزمان استخراج می شوند. ConvLSTM محصول matmul را با کانولوشن در سلول LSTM با اتصال کامل جایگزین می کند. فرمول های اصلی ConvLSTM در فرمول (3) در زیر نشان داده شده است:

g تی = برنزه h (دبلیو x g * ایکس تی + دبلیو h g * ساعت t - 1 + ب g) من تی = σ (دبلیو x i * ایکس تی + دبلیو h من * ساعت t - 1 + دبلیو ج من \circ ج t - 1 + ب من) f تی = σ (دبلیو x f * ایکس تی + دبلیو h f * ساعت t - 1 + دبلیو ج ج \circ ج t - 1 + ب f) ج تی = f تی \circ ج t - 1 + من تی \circ g تی o تی = σ (دبلیو x o * ایکس تی + دبلیو ساعت_* ساعت t - 1 + دبلیو c o \circ ج تی + ب o) ساعت تی = o تی \circ tan h (ج تی)

(3)

جایی که $σ$ تابع فعال سازی سیگموئید است، $*$ عملگر پیچیدگی و $\circ$ محصول هادامارد را نشان می دهد. با این حال، شبکه تنها چهار لایه از واحدهای ConvLSTM را به صورت عمودی، مستقل از یکدیگر گام به گام پشته می‌کند، بنابراین لایه پایین ویژگی‌های استخراج‌شده توسط لایه بالایی در زمان قبلی را نادیده می‌گیرد. پیش‌بینی‌ها نمی‌توانند روندهای کوتاه‌مدت را دریافت کنند و تمایل به فازی دارند.

برای غلبه بر اشکال معماری مستقل از لایه در ConvLSTM، وانگ و همکاران. یک معماری رمزگذار-رمزگشای جدید (PredRNN) [ 9 ] با جریان های حافظه زیگزاگی از لایه بالایی به لایه پایینی پیشنهاد کرد و یک واحد حافظه دوگانه به نام ST-LSTM با استفاده از توابع انتقال غیرخطی پیچیده طراحی کرد. PredRNN توانایی قوی در مدل‌سازی پویایی ویدیوهای کوتاه‌مدت دارد و پیش‌بینی‌های واضح‌تری نسبت به ConvLSTM ایجاد می‌کند. معادلات کلیدی ST-LSTM در (4) به صورت زیر نشان داده شده است:

g t = tanh (W 1 * [X t, H k t - 1, C k t - 1]) i t = σ (W 1 * [X t, H k t - 1, C k t - 1]) f t = σ (W 1 * [X t, H k t - 1, C k t - 1]) C k t = f t \circ C k t - 1 + i t \circ g t g' t = tanh (W 2 * [X t, C k t, M k - 1 t]) i' t = σ (W 2 * [X t, C k t, M k - 1 t]) f' t = σ (W 2 * [X t, C k t, M k - 1 t]) M k t = f' t \circ tanh (W 3 * M k - 1 t) + i' t \circ g' t o t = tanh (W 4 * [X t, C k t, M k t]) H k t = o t \circ tanh (W 5 * [C k t, M k t])

(4)

جایی که $σ$ تابع فعال سازی سیگموئید است، $*$ عملگر پیچیدگی و $\circ$ محصول هادامارد را نشان می دهد. براکت های مربع نشان دهنده الحاق و براکت های گرد نشان دهنده یک بخش کامل است. متأسفانه، مقادیر گرادیان به طور تصاعدی در فرآیند انتشار پس از انتشار کاهش می یابد. ST-LSTM پیچیده هنوز از مشکل ناپدید شدن گرادیان رنج می برد [ 23 ].

4. روش شناسی

ما یک روش جدید مبتنی بر ST-LSTM برای کشف ساختار واحد ساده و کاهش مشکل ناپدید شدن گرادیان ارائه می‌کنیم. در این بخش، جزئیات CostNet، یک شبکه فضایی-زمانی روگذر مختصر را شرح خواهیم داد. ما یک معماری رمزگذار-رمزگشا با چهار لایه اتخاذ می کنیم و از Horizon LSTM به عنوان بلوک ستون فقرات خود استفاده می کنیم. رویکرد ما دو بینش کلیدی دارد: اول، هسته اصلی این شبکه Horizon LSTM است، یک واحد مختصر با یک کانال انتقال شیب سریع، که می‌تواند نمایش‌های مکانی و زمانی را به طور موثر استخراج کند تا مشکل انتشار گرادیان را کاهش دهد. دوم، در جهت عمودی خارج از واحد، اتصالات روگذر را از خروجی واحد به لایه زیرین اضافه می کنیم، که می تواند پویایی های کوتاه مدت را برای ایجاد پیش بینی های واضح ثبت کند.

4.1. Horizon LSTM

شبیه به ST-LSTM، Horizon LSTM ما نیز دارای یک ساختار حافظه دوگانه است: حافظه زمانی.

C

و حافظه مکانی – زمانی

M

. حافظه

C

که به صورت افقی از مرحله قبلی به مرحله بعدی جریان می یابد، وابستگی های زمانی را به تصویر می کشد. حافظه

M

که به صورت عمودی از لایه پایین به لایه بالا حرکت می کند، همبستگی های فضایی را استخراج می کند. واحد Horizon LSTM با ایده اتصال پرش از resnet به جای ساختارهای دروازه پیچیده ST-LSTM روشن شده است. ساختار Horizon LSTM در شکل 1 نشان داده شده است . چهار ورودی برای Horizon LSTM وجود دارد، از جمله

X_{t}

H_{t - 1}^{l}

C_{t - 1}^{l}

M_{t}^{l - 1}

X_{t}

قاب ورودی در اولین لایه در مهر زمان فعلی است.

H_{t - 1}^{l}

حالت های مخفی خروجی در لایه فعلی در مهر زمانی قبلی است.

C_{t - 1}^{l}

حالت های خروجی حافظه زمانی در لایه فعلی در مهر زمانی قبلی است.

M_{t}^{l - 1}

حالت های خروجی حافظه مکانی-زمانی در لایه پایین در مهر زمانی فعلی است. وقتی در لایه اول هستید، ورودی باید باشد

M_{t - 1}

، که حالت های خروجی حافظه مکانی-زمانی در لایه بالایی در مهر زمانی قبلی است. سه خروجی برای Horizon LSTM وجود دارد:

H_{t}^{l}

C_{t}^{l}

M_{t}^{l}

H_{t}^{l}

حالت های مخفی خروجی در لایه جاری در مهر زمان جاری است.

C_{t}^{l}

حالت های خروجی حافظه زمانی در لایه جاری در مهر زمان جاری است.

M_{t}^{l}

حالت های خروجی حافظه مکانی-زمانی در لایه جاری در مهر زمانی جاری است. درست مانند ConvLSTM، واحد Horizon LSTM از دروازه ورودی تشکیل شده است

i_{t}

، دروازه مدولاسیون ورودی

g_{t}

، دروازه را فراموش کن

f_{t}

و گیت خروجی

o_{t}

. دروازه فراموشی

f_{t}

جریان اطلاعات مکانی و زمانی را کنترل می کند

M

. جریان حافظه موقت

C

به گیت ورودی بستگی دارد

i_{t}

، دروازه مدولاسیون ورودی

g_{t}

و دروازه فراموشی

f_{t}

در بلوک Horizon LSTM ما. حالت های مخفی خروجی

H_{t}^{l}

در لایه فعلی

l

و در زمان فعلی t توسط حافظه موقت تعیین می شود

C_{t}^{l}

و همچنین دروازه خروجی

o_{t}

. همانطور که در شکل 1 نشان داده شده است ، حافظه مکانی – زمانی

M

در یک راه روگذر از طریق ساختارهای دروازه در Horizon LSTM درست مانند حافظه زمانی وجود دارد.

C

. از آنجایی که فقط تعداد کمی از بلوک ها در مسیر حافظه وجود دارد، Horizon LSTM می تواند یک کانال انتقال شیب سریع برای هر دو حافظه زمانی فراهم کند.

C

و حافظه مکانی – زمانی

M

از پیش‌بینی‌های نزدیک به ورودی‌های دور قبلی برای کاهش دشواری انتشار گرادیان.

معادلات کلیدی واحد Horizon LSTM در فرمول (5) به صورت زیر نشان داده شده است:

g t = tanh (W 1 * [X t, H l t - 1, C l t - 1]) i t = σ (W 1 * [X t, H l t - 1, C l t - 1]) f t = σ (W 1 * [X t, H l t - 1, C l t - 1]) C l t = f t \circ C l t - 1 + i t \circ g t M l t = f t \circ tanh (W 2 * M l - 1 t) o t = σ (W 3 * [X t, C l t - 1, M l t]) H l t = o t \circ tanh (W 4 * [C l t, M l t])

(5)

جایی که $*$ عملیات پیچیدگی است، $\circ$ محصول هادامارد از نظر عناصر است، $σ$ تابع سیگموئید است. براکت های مربع نشان دهنده الحاق ماتریس و براکت های گرد یک بخش کامل را نشان می دهند. $W$ 1~4 پارامترهای فیلتر پیچیدگی را نشان می دهد، جایی که $W$ 4 شکل 1 دارد $\times$ 1 فیلتر کانولوشن برای تنظیم خروجی نقشه ویژگی. همه متغیرهای حالت را می توان با یک تانسور چهار بعدی نشان داد که از حالت های دسته ای، عرض، ارتفاع و حالت های پنهان تشکیل شده است. همانطور که در فرمول 5 نشان داده شده است، تمام دروازه ورودی $i_{t}$ ، دروازه مدولاسیون ورودی $g_{t}$ ، دروازه فراموشی $f_{t}$ و دروازه خروجی $o_{t}$ توابع هستند $X_{t}$ ، $H_{t - 1}^{l}$ ، $C_{t - 1}^{l}$ . حافظه موقت $C_{t}^{l}$ تابع دروازه ورودی است $i_{t}$ ، دروازه مدولاسیون ورودی $g_{t}$ ، دروازه فراموشی $f_{t}$ و حالت های خروجی حافظه زمانی $C_{t - 1}^{l}$ در مهر زمان قبلی حافظه مکانی – زمانی $M_{t}^{l}$ عملکرد دروازه فراموشی است $f_{t}$ و حالت های خروجی حافظه مکانی-زمانی $M_{t}^{l - 1}$ در لایه زیرین حالت های مخفی خروجی $H_{t}^{l}$ عملکرد دروازه خروجی است $o_{t}$ ، حافظه مکانی – زمانی $M_{t}^{l}$ و حافظه موقت $C_{t}^{l}$ . در مقایسه با معادلات (4) در ST-LSTM، روش ما ساختارهای دروازه و عملیات پیچشی کمتری دارد که در معادلات (5) نشان داده شده است. ST-LSTM دارای دو دروازه ورودی است $i_{t}$ ، دروازه مدولاسیون ورودی $g_{t}$ ، دروازه را فراموش کن $f_{t}$ ، در حالی که Horizon LSTM ما فقط یک دروازه ورودی دارد $i_{t}$ ، دروازه مدولاسیون ورودی $g_{t}$ ، دروازه را فراموش کن $f_{t}$ . بنابراین، Horizon LSTM ما ساختار مختصرتری نسبت به ST-LSTM دارد.

4.2. ساختار عمودی

مشابه معماری رمزگذار-رمزگشا PredRNN، CostNet ما نیز ساختار چهار لایه ای دارد: لایه اول و دوم رمزگذار را تشکیل می دهند. لایه سوم و چهارم رمزگشا را تشکیل می دهند. در جهت عمودی، CostNet با ایده رد شدن از اتصال از resnet به جای اتصال مستقیم بین لایه بالایی و لایه پایینی PredRNN روشن شده است. توپولوژی شبکه CostNet ما در شکل 2 نشان داده شده است . در CostNet ما چهار ردیف و سه ستون وجود دارد، که در آن سطرها لایه‌های مختلف را از پایین به بالا نشان می‌دهند، ستون‌ها نشان‌دهنده تمبر زمانی متفاوت هستند. H1 مخفف بلوک Horizon LSTM در لایه اول (پایین) است در حالی که H4 مخفف بلوک Horizon LSTM در لایه چهارم (بالا) است.

t - 1

نشان دهنده زمان قبلی در حالی است

t + 1

نشان دهنده مهر زمانی آینده است. در واقع، جعبه های بلوک در زمان های مختلف پارامترهای یکسانی را به اشتراک می گذارند.

X_{t}

نشان دهنده قاب ورودی در مهر زمان است

t

در حالی که

{\hat{X}}_{t}

نشان دهنده نتیجه پیش بینی برای

X_{t}

. فلش های سیاه جهت قاب ورودی یا نتایج خروجی را نشان می دهد. فلش های نارنجی جهت جریان حافظه موقت را نشان می دهد

C

و حالات پنهان

H

در حالی که فلش های آبی جهت حرکت حافظه مکانی و زمانی را نشان می دهد

M

و حالات پنهان

H

. از شکل می توان دریافت که حافظه زمانی

C

فقط در جهت افقی جریان دارد، حافظه مکانی-زمانی

M

فقط در جهت عمودی حرکت می کند، در حالی که حالت های پنهان

H

هم در جهت افقی و هم در جهت عمودی جریان دارد. خطوط نقطه چین نشان دهنده همان پیاده سازی توصیف شده توسط خطوط ثابت است. علامت

\oplus

به معنای الحاق برای تانسورها است

M

. در جهت عمودی خارج از واحد، بر خلاف اتصال مستقیم بین لایه بالایی و لایه پایینی PredRNN، CostNet ما اتصالات روگذر را از خروجی هر واحد به لایه پایینی قرار می دهد. PredRNN تنها تأثیر معناشناسی سطح بالا را از لایه بالایی پیش بینی در پیش بینی مرحله بعدی در نظر می گیرد، در حالی که CostNet تأثیر ویژگی های معنایی مختلف از خروجی هر لایه را در نظر می گیرد، که می تواند پویایی کوتاه مدت را به طور مؤثر ثبت کند. بنابراین، CostNet پیش‌بینی‌های دقیق‌تر و واضح‌تری نسبت به PredRNN دارد. هر لایه از PredRNN ویژگی های مکانی-زمانی را استخراج می کند و جریان اطلاعات از لایه پایین به لایه بالایی جریان می یابد و خروجی آخرین لایه به لایه پایین بازگردانده می شود. CostNet می تواند هر بار اطلاعات ویژگی های مکانی-زمانی را استخراج کند،

معادلات کلیدی کل CostNet در فرمول (6) به شرح زیر ارائه شده است:

M t - 1 = [M l = 1 t - 1, M l = 2 t - 1, M l = 3 t - 1, M l = 4 t - 1] H l = 1 t, C l = 1 t, M l = 1 t = HorizonLSTM 1 (X t, M t - 1, H l = 1 t - 1, C l = 1 t - 1) H l = 2 t, C l = 2 t, M l = 2 t = HorizonLSTM 2 (H l = 1 t, M l = 1 t, H l = 2 t - 1, C l = 2 t - 1) H l = 3 t, C l = 3 t, M l = 3 t = HorizonLSTM 3 (H l = 2 t, M l = 2 t, H l = 3 t - 1, C l = 3 t - 1) X^t, C l = 4 t, M l = 4 t = HorizonLSTM 4 (H l = 3 t, M l = 3 t, H l = 4 t - 1, C l = 4 t - 1)

(6)

{HorizonLSTM}_{1}

به معنای واحد Horizon LSTM در لایه اول (پایین) است. بخش در سمت چپ علامت مساوی به معنای خروجی های Horizon LSTM و بخش هایی در براکت های گرد نشان دهنده ورودی های Horizon LSTM است. براکت‌های مربع نشان‌دهنده الحاق حافظه مکانی – زمانی هستند

M_{t - 1}

در مهر زمان قبلی

5. آزمایشات

در این بخش، مدل خود را با مقایسه آزمایش‌ها روی دو مجموعه داده ارزیابی می‌کنیم تا اثربخشی و پیشرفت الگوریتم خود را نشان دهیم. در ابتدا، پیکربندی کلی آزمایش‌های خود را اعلام می‌کنیم. برای هر مجموعه داده ارزیابی، مجموعه داده و روش پیاده سازی را معرفی می کنیم. سپس نتایج تجربی مدل خود و همچنین مدل‌های پایه را نشان می‌دهیم. در نهایت، عملکرد را به صورت کمی تجزیه و تحلیل می کنیم و نمونه های پیش بینی را به صورت کیفی تجسم می کنیم.

مدل ما در پایتون توسعه داده شد و در Keras [ 42 ] با TensorFlow [ 43 ] به عنوان back-end پیاده‌سازی شد. همه آزمایش‌ها روی سرور اوبونتو با یک GPU NVIDIA GTX1080Ti اجرا شد. پیکربندی های کلی به شرح زیر فهرست شده اند: (1) بهینه ساز ADAM [ 44 ] با نرخ یادگیری شروع 10-3 پذیرفته شده است. (2) اندازه دسته روی 8 تنظیم شده است. (3) اندازه فیلتر کانولوشن در داخل همه واحدهای تکراری روی 5 تنظیم شده است. (4) تابع هدف L1 + L2 از دست دادن برای تولید فریم های تیز و صاف است. (5) حداکثر تکرار روی 6000 تنظیم شده است. (6) ساختار رمزگذار و رمزگشا از 4 لایه LSTM با 128، 64، 64، 64 کانال حالت پنهان تشکیل شده است. (7) نرمال سازی لایه [ 45] برای جلوگیری از مشکلات تغییر متغیر داخلی اتخاذ شده است. علاوه بر این، ما از استراتژی نمونه گیری برنامه ریزی شده [ 46 ] برای کاهش تفاوت بین استنتاج و آموزش استفاده می کنیم. به منظور بهبود کارایی آموزش، ما از تابع callback در Keras استفاده کردیم، مانند EarlyStopping، ModelCheckpoint و ReduceLROnPlateau. کدهای منبع و داده ها با یک DOI در https://doi.org/10.6084/m9.figshare.11917914.v1 در دسترس هستند .

5.1. انتقال مجموعه داده MNIST

5.1.1. پیاده سازی

Moving MNIST یک مجموعه داده مصنوعی است که با جابجایی ارقام از مجموعه داده MNIST ساخته شده است. این شامل رکوردهای داده های زیادی است که هر کدام دنباله ای به طول 20 هستند (طول فریم های ورودی 10 و فریم های پیش بینی نیز 10 است. هر فریم یک تصویر 64 × 64 × 1 در مقیاس خاکستری است که شامل دو رقم دست نویس است که در داخل آن پرتاب می شود. انتخاب ارقام، موقعیت اولیه، جهت سرعت و بزرگی سرعت تصادفی هستند، پیش‌بینی فریم آینده دشوار است. ما دنباله‌ها را به روش معرفی شده توسط Srivastava و همکاران [ 33 ] تولید می‌کنیم. حجم مجموعه داده را به مجموعه آموزشی تقسیم می‌کنیم. 10000 دنباله، مجموعه اعتبارسنجی با 3000 دنباله و مجموعه تست با 5000 دنباله.

5.1.2. نتایج

روش شهودی برای اندازه گیری عدم قطعیت برای یادگیری پیش بینی، واریانس است. ما دو معیار کمی را برای ارزیابی عملکرد همه مدل‌ها اتخاذ کردیم. یکی از معیارها، میانگین مربعات خطا (MSE)، یک شاخص عینی است که نشان دهنده فاصله بین فریم های واقعی و پیش بینی ها است. یک مدل بهتر باید مقدار MSE کمتری داشته باشد. در حالت ایده آل، حداقل مقدار صفر است. معیار دیگر اندازه گیری شاخص تشابه ساختاری در هر فریم (SSIM) [ 47 ] است که یک شاخص ذهنی برای اندازه گیری شباهت بین دو تصویر است. مدل بهتر باید مقدار SSIM بالاتری داشته باشد. در حالت ایده آل، حداکثر مقدار 1 است. جدول 1عملکرد مدل های مختلف را برای پیش بینی 10 فریم با توجه به 10 فریم قبلی در مجموعه داده استاندارد Moving MNIST نشان می دهد. همانطور که در جدول نشان داده شده است، CostNet با روش های پیشرفته از جمله FC-LSTM، ConvLSTM، TrajGRU، CDNA، DFN، FRNN، VPN، ST-LSTM و Causal LSTM ارزیابی می شود. مدل ما از تمام روش های پیشرفته در MSE متریک و همچنین SSIM بهتر عمل می کند. مدل ما MSE هر فریم را از 118.3 به 44.9 کاهش می دهد و SSIM هر فریم را از 0.690 به 0.901 افزایش می دهد. در مقایسه با Causal LSTM، یک روش پیشرفته اخیر، مدل ما به پیش‌بینی‌های رقابتی دست می‌یابد، با اندکی کمتر از 1.6 در MSE متریک و کمی بالاتر 0.03 در SSIM متریک. نتایج نشان می‌دهد که CostNet می‌تواند داده‌های مکانی-زمانی را به طور موثر مدل‌سازی کند.

منحنی های فریمی مدل های مختلف را برای پیش بینی 10 فریم رسم می کنیم. همانطور که در شکل 3 نشان داده شده است، CostNet با روش های پیشرفته از جمله FC-LSTM، ConvLSTM و Causal LSTM ارزیابی می شود. به طور یکنواخت، عملکرد همه مدل ها در طول زمان کاهش می یابد. با این وجود، مدل ما با منحنی کمتر برای MSE متریک و منحنی بالاتر برای متریک SSIM، از روش‌های پیشرفته بهتر عمل می‌کند. در مقایسه با Causal LSTM، یک روش پیشرفته اخیر، مدل ما کمی بهتر عمل می کند، به خصوص برای چهار فریم آخر. نتایج نشان می‌دهد که مدل ما قدرت زیادی برای گرفتن وابستگی‌های ویدیویی طولانی‌مدت دارد.

در نهایت، چند نمونه را در مجموعه تست Moving MNIST تجسم می‌کنیم تا عملکرد مدل‌های مختلف را از نظر کیفی مشاهده کنیم. همه مدل ها 10 فریم را در آینده با توجه به 10 فریم قبلی پیش بینی می کنند. همانطور که در شکل 4 نشان داده شده است، ردیف اول فریم های ورودی قبلی، ردیف دوم داده های حقیقت زمین، ردیف های سوم تا یازدهم پیش بینی های FC-LSTM، ConvLSTM، TrajGRU، CDNA، DFN، FRNN، VPN، ST هستند. -LSTM، به ترتیب LSTM علّی و آخرین ردیف پیش‌بینی‌های مدل ما است. مشاهده می کنیم که پیش بینی های مدل ما به اندازه کافی دقیق هستند.

5.2. مجموعه داده اکو رادار

5.2.1. پیاده سازی

به منظور تأیید اثربخشی و پیشرفت حالت ما، یک مجموعه داده عملی، مجموعه داده رادار استاندارد 2018 (SRAD2018)، در آزمایش به کار گرفته شده است که از چالش هوش مصنوعی آب و هوای جهانی IEEE ICDM 2018 می آید. مجموعه داده رادار چهار ماه از ساعت 00:00 UTC در 15 مارس تا ساعت 23:54 UTC در 15 جولای هر سال از سال 2010 تا 2017 را شامل می شود. 320000 مجموعه در این مجموعه داده وجود دارد که شامل 300000 رکورد به عنوان مجموعه آموزشی و 20000 رکورد به عنوان مجموعه آزمایشی است. طول هر رکورد 61 با فاصله زمانی 6 دقیقه است. رادار یک سطح عمودی، ارتفاع 3 کیلومتر را پوشش می دهد. پس از کنترل کیفیت، داده‌های پژواک رادار در 0-80 (واحد: dBZ) محدود می‌شوند و مقدار گمشده 255 است. داده‌های رادار در هر زمان در فرمت PNG مقیاس خاکستری با وضوح 501 × 501 ذخیره می‌شوند. هدف ما در آزمایش این است که 10 فریم آینده را بر اساس 10 فریم متوالی قبلی پیش بینی کنیم. ما برخی از پیش پردازش داده ها را انجام دادیم، مانند تغییر شکل تصویر به 200 × 200. علاوه بر این، ما از مجموعه داده اصلی نمونه برداری کردیم که در هر سه بازه یک تصویر را می گرفتیم. پس از پیش پردازش، مجموعه آموزشی 80000 دنباله، مجموعه تایید 10000 دنباله و مجموعه داده آزمایشی 1000 دنباله است.

5.2.2. نتایج

ما سه معیار کمی را برای ارزیابی عملکرد همه مدل‌ها اتخاذ کردیم، از جمله میانگین مربعات خطا (MSE)، اندازه‌گیری شاخص تشابه ساختاری در هر فریم (SSIM) و نسبت سیگنال به نویز در هر فریم (PSNR) [ 47 ]. SSIM بر تفاوت وضوح تمرکز دارد در حالی که PSNR بر صحت سطح پیکسل تأکید دارد. مدل بهتر باید مقدار SSIM و PSNR بالاتری داشته باشد. در حالت ایده آل، حداکثر مقدار SSIM 1 و حداکثر مقدار PSNR 255 است. جدول 2عملکرد مدل های مختلف را برای پیش بینی 10 فریم با توجه به 10 فریم قبلی در مجموعه داده رادار نشان می دهد. همانطور که در جدول نشان داده شده است، مدل ما در برابر روش های پیشرفته از جمله ConvLSTM، TrajGRU، ST-LSTM و Causal LSTM ارزیابی می شود. مدل ما از تمام روش‌های پیشرفته در SSIM متریک و همچنین PSNR بهتر عمل می‌کند. مدل ما MSE هر فریم را از 3580.31 به 888.81 کاهش می دهد، SSIM هر فریم را از 0.62 به 0.79 افزایش می دهد و PSNR هر فریم را از 12.13 به 17.48 افزایش می دهد. در مقایسه با Causal LSTM، یک روش پیشرفته اخیر، مدل ما به پیش‌بینی‌های رقابتی با کمی بالاتر 0.14 در PSNR متریک و 0.01 در SSIM متریک دست می‌یابد. نتایج نشان می‌دهد که CostNet می‌تواند داده‌های رادار را به‌طور موثر مدل‌سازی کند.

منحنی های فریمی مدل های مختلف را برای پیش بینی 10 فریم رسم می کنیم. پیش‌بینی‌های بهتر باید منحنی‌های بالاتری از SSIM و PSNR از نظر فریم داشته باشند. همانطور که در شکل 5 نشان داده شده استمدل ما در برابر روش‌های پیشرفته از جمله ConvLSTM، TrajGRU، ST-LSTM و Causal LSTM ارزیابی می‌شود. به طور یکنواخت، عملکرد همه مدل ها در طول زمان کاهش می یابد. با این وجود، مدل ما با منحنی‌های بالاتر برای SSIM متریک و PSNR از روش‌های پیشرفته بهتر عمل می‌کند. در مقایسه با Causal LSTM، یک روش پیشرفته اخیر، مدل ما کمی بهتر عمل می کند، به خصوص برای چهار فریم آخر. نتایج نشان می‌دهد که مدل ما قدرت زیادی برای گرفتن وابستگی‌های ویدیویی طولانی‌مدت دارد. عملکرد CostNet برای SSIM 0.1 نسبت به Causal LSTM بهبود یافته است. بهبود قابل توجه عمدتاً در 5 فریم پایانی است. نتایج نشان داد که CostNet توانایی قوی تری در پیش بینی سناریوهای زمانی بلندمدت دارد.

ما نمونه‌هایی را در مجموعه تست رادار برای مشاهده کیفی عملکرد مدل‌های مختلف تجسم می‌کنیم. همه مدل ها 10 فریم را در آینده با توجه به 10 فریم قبلی پیش بینی می کنند. همانطور که در شکل 6 نشان داده شده است، ردیف اول فریم های ورودی قبلی، ردیف دوم حقیقت زمین، سطرهای سوم تا ششم به ترتیب پیش بینی های ConvLSTM، TrajGRU، ST-LSTM و Causal LSTM هستند، و ردیف آخر، پیش بینی های مدل ما مشاهده می کنیم که پیش بینی های مدل ما به اندازه کافی دقیق هستند.

منابع

وانگ، ام. ژانگ، ایکس. نیو، ایکس. وانگ، اف. Zhang، X. طبقه‌بندی صحنه تصویر سنجش از راه دور با وضوح بالا بر اساس resnet. J. Geov. مقعد فضایی. 2019 ، 3 ، 16. [ Google Scholar ] [ CrossRef ]
وانگ، اس. ژونگ، ی. Wang, E. یک معماری پلتفرم GIS یکپارچه برای داده های بزرگ فضایی و زمانی. ژنرال آینده. محاسبه کنید. سیستم 2019 ، 94 ، 160-172. [ Google Scholar ] [ CrossRef ]
لیو، ک. گائو، اس. کیو، پی. لیو، ایکس. یان، بی. Lu, F. Road2vec: اندازه گیری تعاملات ترافیکی در سیستم جاده های شهری از مسیرهای سفر عظیم. ISPRS Int. J. Geo Inf. 2017 ، 6 ، 321. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
لیو، ی. کائو، جی. ژائو، ن. یادگیری ماشین و زمین آمار را برای نقشه برداری با وضوح بالا از سطح زمین pm2 ادغام کنید. 5 غلظت. در تحلیل فضایی و زمانی آلودگی هوا و کاربرد آن در بهداشت عمومی ; الزویر: آمستردام، هلند، 2020؛ صص 135-151. [ Google Scholar ]
لی، اچ. لیو، جی. ژو، ایکس. نقشه خوان هوشمند: چارچوبی برای درک نقشه توپوگرافی با یادگیری عمیق و روزنامه نگار. دسترسی IEEE 2018 ، 6 ، 25363–25376. [ Google Scholar ] [ CrossRef ]
LeCun، Y. یادگیری پیش بینی. Proc. Speech NIPS 2016 . در دسترس آنلاین: https://drive.google.com/file/d/0BxKBnD5y2M8NREZod0tVdW5FLTQ/view (در 12 مارس 2020 قابل دسترسی است).
Xinggjian، S. چن، ز. وانگ، اچ. یونگ، دی.-ای. وانگ، دبلیو.-ک. وو، W.-C. شبکه lstm کانولوشن: یک رویکرد یادگیری ماشینی برای پخش بارش. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، مونترال، QC، کانادا، 12 تا 17 دسامبر 2015. ص 802-810. [ Google Scholar ]
شی، ایکس. گائو، ز. لاوزن، ال. وانگ، اچ. یونگ، دی.-ای. وونگ، دبلیو-ک. وو، W.-C. یادگیری عمیق برای بارش در حال حاضر: یک معیار و یک مدل جدید. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 4 تا 9 دسامبر 2017؛ صص 5617–5627. [ Google Scholar ]
وانگ، ی. لانگ، م. وانگ، جی. گائو، ز. فیلیپ، SY Predrnn: شبکه های عصبی مکرر برای یادگیری پیش بینی با استفاده از lstms فضایی و زمانی. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 4 تا 9 دسامبر 2017؛ صص 879-888. [ Google Scholar ]
ژانگ، جی. ژنگ، ی. چی، دی. لی، آر. یی، X. مدل پیش‌بینی مبتنی بر DNN برای داده‌های مکانی-زمانی. در مجموعه مقالات بیست و چهارمین کنفرانس بین المللی ACM SIGSPATIAL در مورد پیشرفت در سیستم های اطلاعات جغرافیایی، برلینگیم، کالیفرنیا، ایالات متحده آمریکا، 31 اکتبر تا 3 نوامبر 2016؛ ACM: Burlingame، CA، USA، 2016; صص 1-4. [ Google Scholar ]
خو، ز. وانگ، ی. لانگ، م. وانگ، جی. KLiss، M. PredCNN: یادگیری پیش‌بینی‌کننده با پیچش‌های آبشاری. در مجموعه مقالات بیست و هفتمین کنفرانس مشترک بین المللی هوش مصنوعی (IJCAI-18)، استکهلم، سوئد، 13 تا 19 ژوئیه 2018؛ صص 2940-2947. [ Google Scholar ]
ژانگ، جی. ژنگ، ی. Qi، D. شبکه‌های باقیمانده مکانی-زمانی عمیق برای پیش‌بینی جریان‌های جمعیتی در سطح شهر. در مجموعه مقالات سی و یکمین کنفرانس AAAI در مورد هوش مصنوعی، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 4 تا 10 فوریه 2017. [ Google Scholar ]
اولیو، م. سلوا، جی. Escalera, S. شبکه‌های عصبی مکرر تاشو برای پیش‌بینی ویدیویی آینده. در مجموعه مقالات کنفرانس اروپایی بینایی کامپیوتر (ECCV)، مونیخ، آلمان، 8 تا 14 سپتامبر 2018؛ صص 716-731. [ Google Scholar ]
رانزاتو، م. اسلم، آ. برونا، جی. متیو، ام. کولوبرت، آر. Chopra, S. مدل‌سازی ویدیویی (زبان): مبنایی برای مدل‌های تولیدی ویدیوهای طبیعی. arXiv 2014 ، arXiv:1412.6604. [ Google Scholar ]
لاتتر، دبلیو. کریمن، جی. Cox, D. شبکه های کدگذاری پیش بینی عمیق برای پیش بینی ویدیو و یادگیری بدون نظارت. arXiv 2016 , arXiv:1605.08104. [ Google Scholar ]
کالچبرنر، ن. ون دن اورد، آ. سیمونیان، ک. دانیهلکا، آی. وینیالز، او. گریوز، ا. Kavukcuoglu، K. شبکه های پیکسل ویدئو. در مجموعه مقالات سی و چهارمین کنفرانس بین المللی یادگیری ماشین – جلد 70 ; JMLR: سیدنی، استرالیا، 2017؛ صفحات 1771-1779. [ Google Scholar ]
متیو، ام. کوپری، سی. LeCun, Y. پیش‌بینی ویدیوی چند مقیاسی عمیق فراتر از میانگین مربعات خطا. arXiv 2015 ، arXiv:1511.05440. [ Google Scholar ]
جین، ا. ضمیر، ع. ساوارس، اس. Saxena، A. Structural-rnn: یادگیری عمیق در نمودارهای مکانی-زمانی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 26 ژوئن تا 1 ژوئیه 2016. صص 5308–5317. [ Google Scholar ]
تران، دی. بوردف، LD; فرگوس، آر. تورسانی، ال. Paluri، M. C3D: ویژگی های عمومی برای تجزیه و تحلیل ویدئو. CoRR abs/1412.0767 2014 ، 2 ، 8. [ Google Scholar ]
LeCun، Y.; بنژیو، ی. هینتون، جی. یادگیری عمیق. طبیعت 2015 ، 521 ، 436-444. [ Google Scholar ] [ CrossRef ] [ PubMed ]
بنژیو، ی. سیمرد، پ. فراسکونی، پی. یادگیری وابستگی های طولانی مدت با نزول گرادیان دشوار است. IEEE Trans. شبکه عصبی 1994 ، 5 ، 157-166. [ Google Scholar ] [ CrossRef ] [ PubMed ]
ویلیامز، RJ; Zipser، D. الگوریتم‌های یادگیری مبتنی بر گرادیان برای دوره‌ای. در پس انتشار: نظریه، معماری، و کاربردها . انتشارات روانشناسی: برایتون، انگلستان، 1995; جلد 433. [ Google Scholar ]
پاسکانو، آر. میکولوف، تی. Bengio، Y. در مورد دشواری آموزش شبکه های عصبی بازگشتی. در مجموعه مقالات کنفرانس بین المللی یادگیری ماشین، آتلانتا، GA، ایالات متحده آمریکا، 16-21 ژوئن 2013. ص 1310–1318. [ Google Scholar ]
او، ک. ژانگ، ایکس. رن، اس. Sun, J. یادگیری باقیمانده عمیق برای تشخیص تصویر. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لاس وگاس، NV، ایالات متحده، 26 ژوئن تا 1 ژوئیه 2016. صص 770-778. [ Google Scholar ]
LeCun، Y.; بوتو، ال. بنژیو، ی. هافنر، پی. یادگیری مبتنی بر گرادیان برای شناسایی اسناد به کار می رود. Proc. IEEE 1998 ، 86 ، 2278-2324. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
جردن، MI سفارش سریال: یک رویکرد پردازش موازی توزیع شده. در پیشرفت در روانشناسی ; Elsevier: آمستردام، هلند، 1997; جلد 121، ص 471–495. [ Google Scholar ]
هوکرایتر، اس. Schmidhuber, J. حافظه کوتاه مدت طولانی. محاسبات عصبی 1997 ، 9 ، 1735-1780. [ Google Scholar ] [ CrossRef ] [ PubMed ]
دوست خوب، من. پوگت آبادی، ج. میرزا، م. خو، بی. وارد-فارلی، دی. اوزایر، س. کورویل، آ. Bengio، Y. شبکه های متخاصم مولد. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، مونترال، QC، کانادا، 8 تا 13 دسامبر 2014. صص 2672–2680. [ Google Scholar ]
دنتون، EL; چینتالا، اس. مدل‌های تصویر تولیدی Fergus, R. Deep با استفاده از هرم لاپلاسی شبکه‌های متخاصم. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، مونترال، QC، کانادا، 7 تا 12 دسامبر 2015. ص 1486-1494. [ Google Scholar ]
اوه، جی. گوا، ایکس. لی، اچ. لوئیس، RL; سینگ، اس. پیش‌بینی ویدیویی شرطی عمل با استفاده از شبکه‌های عمیق در بازی‌های آتاری. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، مونترال، QC، کانادا، 7 تا 12 دسامبر 2015. ص 2863-2871. [ Google Scholar ]
جیا، ایکس. دی براباندر، بی. تویتلارس، تی. شبکه های فیلتر پویا Gool، LV. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، بارسلون اسپانیا، 5 تا 10 دسامبر 2016. صص 667-675. [ Google Scholar ]
ویلگاس، آر. یانگ، جی. زو، ی. سون، اس. لین، ایکس. لی، اچ. یادگیری ایجاد آینده بلند مدت از طریق پیش بینی سلسله مراتبی. در مجموعه مقالات سی و چهارمین کنفرانس بین المللی یادگیری ماشین – جلد 70 ; JMLR: سیدنی، استرالیا، 2017؛ صص 3560–3569. [ Google Scholar ]
سریواستاوا، ن. مانسیموف، ای. Salakhudinov, R. یادگیری بدون نظارت بازنمایی های ویدئویی با استفاده از LSTMs. در مجموعه مقالات کنفرانس بین المللی یادگیری ماشین، لیل، فرانسه، 6 تا 11 ژوئیه 2015. صص 843-852. [ Google Scholar ]
فین، سی. دوست خوب، من. Levine, S. یادگیری بدون نظارت برای تعامل فیزیکی از طریق پیش‌بینی ویدیویی. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، بارسلون، اسپانیا، 5 تا 10 دسامبر 2016. صص 64-72. [ Google Scholar ]
Patraucean، V. هاندا، ا. Cipolla, R. رمزگذار خودکار ویدئوی فضایی-زمانی با حافظه قابل تمایز. arXiv 2015 ، arXiv:1511.06309. [ Google Scholar ]
ویلگاس، آر. یانگ، جی. هونگ، اس. لین، ایکس. لی، اچ. تجزیه حرکت و محتوا برای پیش‌بینی توالی ویدیویی طبیعی. arXiv 2017 , arXiv:1706.08033. [ Google Scholar ]
وانگ، ی. گائو، ز. لانگ، م. وانگ، جی. Yu, PS PredRNN++: به سوی حل معضل عمیق در زمان در یادگیری پیش‌بینی فضایی-زمانی. arXiv 2018 , arXiv:1804.06300. [ Google Scholar ]
وندریک، سی. پیرسیاوش، ح. Torralba، A. تولید ویدئو با پویایی صحنه. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، بارسلون، اسپانیا، 5 تا 10 دسامبر 2016. صص 613-621. [ Google Scholar ]
لو، سی. هیرش، ام. Scholkopf, B. شبکه های مکانی-زمانی انعطاف پذیر برای پیش بینی ویدئو. در مجموعه مقالات کنفرانس IEEE در مورد دید رایانه و تشخیص الگو، هونولولو، HI، ایالات متحده آمریکا، 21 تا 26 ژوئیه 2017؛ صص 6523-6531. [ Google Scholar ]
Denton، EL یادگیری بدون نظارت بازنمایی های جدا شده از ویدئو. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 4 تا 9 دسامبر 2017؛ صص 4414-4423. [ Google Scholar ]
باتاچارجی، پی. Das, S. معیارهای مبتنی بر انسجام زمانی برای پیش‌بینی فریم‌های ویدئویی با استفاده از شبکه‌های متخاصم مولد چند مرحله‌ای عمیق. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 4 تا 9 دسامبر 2017؛ صص 4268-4277. [ Google Scholar ]
Chollet، F. Keras: کتابخانه یادگیری عمیق پایتون. در دسترس آنلاین: https://keras.io/#support (در 12 مارس 2020 قابل دسترسی است).
آبادی، م. آگاروال، ا. برهم، پ. برودو، ای. چن، ز. سیترو، سی. کورادو، جی اس. دیویس، ا. دین، جی. دوین، ام. تنسورفلو: یادگیری ماشینی در مقیاس بزرگ در سیستم‌های ناهمگن. arXiv 2016 , arXiv:1603.04467. [ Google Scholar ]
Kingma، DP; Ba, J. Adam: روشی برای بهینه سازی تصادفی. arXiv 2014 ، arXiv:1412.6980. [ Google Scholar ]
Ba، JL; کیروس، جی آر. نرمال سازی لایه هینتون، جنرال الکتریک. arXiv 2016 , arXiv:1607.06450. [ Google Scholar ]
بنژیو، اس. وینیالز، او. جیتلی، ن. Shazeer, N. نمونه برداری زمان بندی شده برای پیش بینی توالی با شبکه های عصبی مکرر. در مجموعه مقالات پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، مونترال، QC، کانادا، 12 تا 17 دسامبر 2015. صص 1171-1179. [ Google Scholar ]
وانگ، ز. بوویک، AC; شیخ، HR; Simoncelli، EP ارزیابی کیفیت تصویر: از دید خطا تا شباهت ساختاری. IEEE Trans. فرآیند تصویر 2004 ، 13 ، 600-612. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
وانگ، ی. ژانگ، جی. زو، اچ. لانگ، م. وانگ، جی. یو، PS Memory در حافظه: یک شبکه عصبی پیش بینی برای یادگیری غیر ایستایی مرتبه بالاتر از دینامیک مکانی-زمانی. در مجموعه مقالات کنفرانس IEEE در مورد بینایی کامپیوتری و تشخیص الگو، لانگ بیچ، کالیفرنیا، ایالات متحده آمریکا، 16 تا 20 ژوئن 2019؛ ص 9154–9162. [ Google Scholar ]

شکل 1. معماری Horizon LSTM، که در آن حافظه های زمانی و مکانی-زمانی به صورت روگذر از ساختارهای دروازه وجود دارند.

شکل 2. نمودار کلی معماری.

شکل 3. مقایسه فریم مدل های مختلف برای پیش بینی 10 فریم در MNIST متحرک.

شکل 4. نمونه های پیش بینی در آزمون متحرک MNIST.

شکل 5. مقایسه چارچوبی مدل های مختلف برای پیش بینی 10 فریم در مجموعه داده رادار.

شکل 6. نمونه های پیش بینی در مجموعه آزمایش رادار.

مقالات داخلی و بین المللی

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

مشاورین هوش پیروزی

خلاصه

کلید واژه ها:

1. معرفی

2. کارهای مرتبط

3. مقدمات