زیرساخت داده های پژوهشی مکانی-زمانی در زمینه رانندگی خودمختار

خلاصه

در این مقاله، ما پیاده‌سازی یک سیستم مدیریت داده‌های تحقیقاتی را ارائه می‌کنیم که دارای ذخیره‌سازی داده‌های ساختاریافته برای داده‌های تجربی مکانی-زمانی (ادراک محیطی و ناوبری در چارچوب رانندگی مستقل)، از جمله مدیریت ابرداده و رابط‌هایی برای تجسم و پردازش موازی است. خواسته های محیط تحقیق، طراحی سیستم، سازماندهی ذخیره سازی داده ها، و سخت افزار محاسباتی و همچنین ساختارها و فرآیندهای مربوط به جمع آوری داده ها، آماده سازی، حاشیه نویسی و ذخیره سازی به تفصیل شرح داده شده است. ما مثال‌هایی برای مدیریت مجموعه‌های داده ارائه می‌کنیم، مراحل آماده‌سازی داده‌های مورد نیاز برای ذخیره‌سازی داده‌ها و همچنین مزایای استفاده از داده‌ها در زمینه وظایف علمی را توضیح می‌دهیم.

کلید واژه ها:

زیرساخت داده های مکانی – زمانی ; مدیریت داده ها ؛ پایگاه داده فضایی ; اینترنت GIS ; ابرداده

1. معرفی

آگاهی روزافزونی در جامعه پژوهشی از اهمیت اصول FAIR در مدیریت داده ها وجود دارد [ 1]: داده ها باید رایگان، در دسترس، قابل استفاده و قابل استفاده مجدد باشند. الزامات پروژه های تحقیقاتی پیچیده می تواند از این هم فراتر رود: اغلب، چنین پروژه هایی شامل آزمایش های غنی و جمع آوری داده های گسترده با حسگرهای متنوع و وابسته به هم هستند. بنابراین، آنها به یک زیرساخت پیچیده برای نظارت بر جمع آوری داده ها، ذخیره سازی و ارائه دسترسی ساختاریافته و شهودی به داده ها نیاز دارند. به منظور فراتر رفتن از ذخیره سازی و دسترسی صرف به داده ها، پیوند داده ها در امتداد جزء مکانی و زمانی مفید است. برای این منظور، همه داده‌ها ارجاع داده می‌شوند، که از قبل امکان پردازش و تجزیه و تحلیل عمومی را به سمت یکپارچه‌سازی و ادغام داده‌ها فراهم می‌کند. تنها از این طریق، داده‌های به‌دست‌آمده با زمان و پول قابل‌توجهی می‌توانند به روش مورد نظر مورد بهره‌برداری قرار گیرند و امکان استفاده فراتر از هدف اصلی خود را فراهم کنند.
نمونه ای برای چنین پروژه تحقیقاتی پیچیده ای یک گروه آموزشی تحقیقاتی (RTG) است که توسط بنیاد علم آلمان تامین مالی شده است، با عنوان “یکپارچگی و همکاری در شبکه های حسگر پویا” (GRK2159). این RTG مفاهیمی را برای اطمینان از یکپارچگی سیستم های مشترک در شبکه های حسگر پویا در زمینه رانندگی مستقل و ادراک محیطی بررسی می کند [ 2]]. بهره‌برداری از حسگرهای مختلف – همکار – در ارتباط با مفاهیم جدید و پیشرفته توصیف یکپارچگی اندازه‌گیری‌ها، کلید مهمی در نظر گرفته می‌شود تا در نهایت امکان تعامل ایمن سیستم‌های مستقل و انسان‌ها را فراهم کند. این پروژه بر این فرض تکیه دارد که همکاری سنسورها و سیستم‌های حسگر مختلف منجر به بهبود ناوبری و سنجش محیط توسط یک سیستم مستقل می‌شود. این پروژه بر آزمایش‌های مشترک در مقیاس بزرگ متکی است، که در آن طیف وسیعی از داده‌های حسگر توسط چندین سیستم چندحسی برای توسعه الگوریتم‌ها و آزمایش کامل آنها در یک محیط واقعی به دست می‌آید. طیف سنسورهای مورد استفاده در این کمپین های اندازه گیری شامل سیستم های اسکن لیزری سه بعدی (LiDAR) است که ابرهای نقطه متراکم سه بعدی محیط را ضبط می کند. دوربین های استریو برای تصویربرداری و بازسازی سه بعدی فتوگرامتری، و همچنین سیستم های GNSS/IMU برای محلی سازی. به منظور ایجاد یک نمایش واقعی از وضعیت پویا در زمان جمع‌آوری داده‌ها، داده‌ها باید در یک سیستم مدیریت داده جامع ادغام شوند. سپس این سیستم امکان انجام آزمایش‌های بدون درز با ترکیب‌های حسگر دلخواه را بر اساس داده‌های ذخیره‌شده فراهم می‌کند.
با این حال، چنین تنوعی از داده ها و تقاضاها منجر به الزامات سازمانی در مورد ذخیره سازی و مستندسازی داده ها می شود (همچنین به [ 3 ] مراجعه کنید). سوال اصلی تحقیق این مقاله این است که چگونه داده‌های وابسته به هم به‌دست‌آمده در طول این آزمایش‌های بزرگ مقیاس را ساختار دهیم تا محققان با پیشینه‌های مختلف بتوانند داده‌ها را در رابطه با سؤالات پیچیده تحقیقاتی مختلف پیدا، بررسی و تجزیه و تحلیل کنند. در عین حال، طرحواره ذخیره سازی و مستندسازی یکنواخت ایجاد شده باید به راحتی قابل تبدیل به قالب های هدف پلت فرم های انتشار داده ها باشد تا از استفاده مجدد توسط سایر محققان پشتیبانی کند.
در این بخش، ما در مورد تحقق یک سیستم مدیریت داده برای مجموعه داده‌های مکانی-زمانی بزرگ و ناهمگن که با نیازهای ما مطابقت دارد، گزارش می‌دهیم: داده‌های حسگر به روشی ساختاریافته، مستند و قابل همکاری ذخیره می‌شوند. ابرداده های ساختاریافته با هر مجموعه داده مرتبط هستند و از اتوماسیون یافتن و فیلتر کردن وظایف پشتیبانی می کنند. سخت‌افزار ذخیره‌سازی داده‌ها به سخت‌افزار محاسباتی متصل است که از وظایف تحلیل داده‌های بزرگ با استفاده از رابط‌های دسترسی مناسب به داده پشتیبانی می‌کند. ساختار پیشنهادی به اندازه کافی کلی است که به عنوان نمونه برای پروژه های مشابه عمل کند.
ساختار باقیمانده مقاله به شرح زیر است: بخش 2 یک نمای کلی از پروژه تحقیقاتی ارائه می دهد و در بخش 3 مروری بر کارهای مرتبط و پیشرفته ترین فناوری های مدیریت داده ها (تحقیق) به طور کلی، به ویژه برای حوزه داده های جغرافیایی- مکانی بخش 4 شامل جزئیات پیاده سازی مفاهیم، ​​و همچنین اجزای Backend و Frontend سیستم ذخیره سازی داده است. در بخش 5 ، گردش کار کامل از دریافت داده تا استفاده از داده با چند مثال شرح داده شده است، قبل از اینکه با خلاصه و ایده هایی برای پیشرفت های آینده در بخش 6 به پایان برسد .

2. مروری بر پروژه تحقیقاتی و الزامات آن در مورد مدیریت داده ها

موضوعات تحقیقاتی شامل بومی سازی مشارکتی برای وسایل نقلیه و همچنین شناسایی و نقشه برداری از اشیاء ایستا و پویا در فضای جاده اطراف، با تمرکز عمده بر یکپارچگی سیستم حاصل، یعنی پتانسیل سیستم برای شناخت محدودیت های خود و هنگامی که از آستانه های کیفیت از پیش تعریف شده تجاوز کرد، به موقع به کاربر هشدار می دهد [ 4 ]. در 30 سال گذشته، الگوریتم‌های مختلفی برای نظارت بر یکپارچگی ناوبری مبتنی بر GPS توسعه یافته‌اند که از حمل و نقل هوایی شروع شده و مرحله به مرحله به ناوبری خودرو منتقل شده است [5 ] . با این حال، بسیاری از مسائل باز همچنان پابرجا هستند [ 6]، و مفاهیم جدید برای توصیف یکپارچگی باید مورد بهره برداری قرار گیرند، به عنوان مثال، در قالب معیارهای کیفی مانند مرزهای بالای خطاهای اندازه گیری توسط ریاضیات بازه ای [ 7 ، 8 ]، و می توان به عنوان مثال با همکاری بین چند سنسور [7] به دست آورد. 9 ].
بیشتر موضوعات تحقیقاتی حول مشاهدات بسیاری از حسگرهای متصل به چندین وسیله نقلیه که برای بهبود کیفیت کلی سیستم با یکدیگر ادغام شده‌اند، متمرکز شده‌اند. به عنوان مثال، از ابرهای نقطه ای برای ساختن نقشه های مرجع پویا استفاده می شود که می تواند متعاقباً برای بهبود خود محلی سازی اعمال شود [ 10 ]. اطلاعات سه بعدی از اسکن لیزری و دوربین ها را می توان برای تشخیص اشیاء قوی یکپارچه کرد [ 11 ]. سایر موضوعات تحقیقاتی به همکاری در چندین وسیله نقلیه برای ترکیب مشاهدات متعدد از دیدگاه های مختلف در یک درک مشترک از محیط می پردازند [ 12 ]. مشاهده یک عابر پیاده از چندین وسیله نقلیه به طور همزمان کیفیت طبقه بندی و همچنین محلی سازی و بازسازی سه بعدی آن را بهبود می بخشد.13 ].
RTG میزبان 9 کاندیدای دکترا در یک دوره 3 ساله در یک دوره بودجه حداکثر 9 ساله است که منجر به نزدیک به 30 محقق دکترا می شود که توسط این برنامه تامین مالی می شوند. یکی از ارکان RTG، جمع‌آوری مداوم داده‌های تجربی است که منجر به مجموعه‌ای از مجموعه داده‌های مکانی-زمانی می‌شود که می‌توانند به روش‌های دلخواه ادغام شوند، به این ترتیب از طیف گسترده‌ای از سؤالات مختلف تحقیقاتی پشتیبانی می‌کنند. در حالی که موضوعات تحقیقاتی فاز اول بر روی داده‌های هم‌تراز زمانی از یک آزمایش واحد تمرکز می‌کنند، مراحل بعدی تحقیق می‌توانند تجزیه و تحلیل‌هایی را در مجموعه داده‌های جمع‌آوری‌شده طی چندین سال انجام دهند. در نتیجه، ذخیره سازی صدا و مستندسازی داده ها برای تحقیقات موفق الزامی است. این به محققان این امکان را می‌دهد تا وابستگی‌های پیچیده اشیاء در داده‌های ثبت‌شده را به صورت ماسبق بررسی کنند – شبیه به یک آزمایش بلادرنگ. به این ترتیب، داده‌های جمع‌آوری‌شده با سیستم‌ها و پلتفرم‌های مختلف را می‌توان به صورت یکپارچه تجزیه و تحلیل کرد و امکان انجام آزمایش‌های مجازی پیچیده بر اساس داده‌های واقعی را فراهم می‌کند، بنابراین، محیط تحقیق را «محل آزمایش مرکزی» می‌نامند.

2.1. آزمایش ها و داده ها

به منظور جمع‌آوری داده‌هایی که از موضوعات پژوهشی ناهمگن پشتیبانی می‌کنند، آزمایش‌های مشترک در مقیاس بزرگ ( شکل 1 را ببینید) در فواصل زمانی منظم انجام می شود و با تجهیز خودروهای واقعی به پلتفرم های چند سنسوری که مقادیر زیادی داده در مورد محیط را جمع آوری می کند، قابلیت های سنسورهای خودرو نسل های آینده خودرو را شبیه سازی می کند. از آنجایی که قابلیت های ارتباطی و پردازش آنلاین در کانون توجه پروژه نیست، یکی از اهداف اصلی ارائه یک محیط واقعی است که در آن شبیه سازی ها با داده های واقعی انجام شود. طیف سنسورهای مورد استفاده در این کمپین‌های اندازه‌گیری شامل سیستم‌های LiDAR است که ابرهای نقطه‌ای 3 بعدی متراکم محیط را ضبط می‌کنند، دوربین‌های استریو برای تصویربرداری و بازسازی سه‌بعدی فتوگرامتری، و همچنین سیستم‌های GNSS/IMU برای محلی‌سازی. علاوه بر این، اطلاعات موجود از نقشه ها و مدل های ساختمانی سه بعدی نیز در سیستم گنجانده شده است.
مانند هر سیستم چند سنسوری، داده های حسگر در چارچوب مختصات هر سنسور به دست می آید. کالیبراسیون تمام موقعیت‌ها و جهت‌گیری‌های نسبی بین حسگرها برای هر آزمایش انجام می‌شود تا امکان تبدیل همه اندازه‌گیری‌ها به یک قاب مشترک را فراهم کند. این تبدیل تمام داده‌های حسگر را به یک قاب مختصات جهانی ممکن می‌سازد، با استفاده از اندازه‌گیری حسگرهای محلی‌سازی روی برد برای ایجاد رابطه بین اندازه‌گیری‌ها و اشیاء فضایی با مختصات جهانی شناخته شده یا بین چندین وسیله نقلیه. این ممکن است شامل اندازه گیری وسیله نقلیه به وسیله نقلیه، اندازه گیری وسیله نقلیه به زیرساخت، یا اندازه گیری مطلق مستقیم موقعیت جغرافیایی (مثلاً با GNSS) باشد.
علاوه بر حسگرهای محلی سازی، اطلاعات مربوط به اجسام استاتیک و پویا در محیط به طور پیوسته ثبت می شود: این شامل اشیاء ثابت مانند سطح جاده و ساختمان ها و همچنین اشیاء پویا مانند سایر وسایل نقلیه و عابران پیاده در جاده می شود.
با توجه به تعداد زیاد حسگرهای درگیر و وضوح مکانی و زمانی بالای اندازه‌گیری‌ها، این آزمایش‌ها حجم زیادی از داده‌های خام تولید می‌کنند. در طول اولین آزمایش در مقیاس بزرگ، سه وسیله نقلیه مجهز به پلتفرم‌های چند سنسوری اطلاعات را برای حدود دو ساعت ثبت کردند. در طول این مدت، داده‌های جمع‌آوری‌شده توسط سه جفت دوربین استریو، دو سیستم اسکنر لیزری و ده سیستم GNSS/IMU به نرخ اکتساب داده‌ها تا ۱ گیگابایت در ثانیه داده‌های خام حسگر رسید. این منجر به یک مجموعه داده حدود 5 ترابایت پس از فشرده سازی و پس پردازش اولیه، قبل از پردازش بیشتر در زمینه پروژه های تحقیقاتی فردی شد.

2.2. چالش ها و اهداف

تنوع و ارتباط متقابل حسگرها، داشتن وضوح‌های متفاوت در فضا و زمان با اندازه‌گیری‌های حوزه‌های مختلف (مشاهدات نقطه‌ای/مشاهدات منطقه‌ای)، مشاهدات عناصر استاتیک و دینامیکی محیط و کیفیت (سنسورهای با دقت بالا و پایین)، منجر به مجموعه داده های بسیار پیچیده آزمایش‌ها تعداد زیادی گزارش داده جداگانه با قالب‌های داده خاص حسگر را در چندین پلتفرم حسگر به دست می‌دهند. داده‌های تجربی پردازش‌نشده، اندازه‌گیری‌های حسگر خام را نشان می‌دهند، و هنوز هم تراز نیستند تا با مشاهدات دیگر سازگار باشند. این بدان معناست که ارجاع جغرافیایی ممکن است بهینه نباشد و حتی ممکن است به تنهایی یک هدف باشد، زیرا اکثر اندازه‌گیری‌های حسگر نمی‌توانند مستقیماً به زمین ارجاع داده شوند. بجای، یک تبدیل بین سیستم‌های مختصات چندگانه (به‌کارگیری پارامترهای تبدیل به‌دست‌آمده از کالیبراسیون حسگر به حسگر) اعمال می‌شود که با اندازه‌گیری‌ها در یک قاب جهانی به سنسورهای موقعیت‌یابی جهانی ختم می‌شود. علاوه بر این، اندازه‌گیری‌های حسگر مربوط به نقاط روی سطح اجسام (اشیاء ثابت یا اجسام پویا) است که شناسایی آنها (از طریق تقسیم‌بندی و طبقه‌بندی) بخشی از تحقیق است اما بخشی از اندازه‌گیری نیست.
بنابراین، داده‌های حسگر تحت یک فرآیند تبدیل تدریجی از اندازه‌گیری‌های حسگر خام (داده‌های اولیه) از طریق نمایش‌های مختلف (داده‌های پردازش‌شده) با درجه افزایشی از پالایش تا اطلاعات شی معنایی قرار می‌گیرند (شکل 2 را ببینید ) . برای اشیاء پویا، تخصیص یک مکان در فضا فقط برای لحظه زمانی اندازه گیری قابل استفاده است، بنابراین اطلاعات زمانی نیز باید ذخیره شود. به این ترتیب، داده‌ها هم داده‌های خام و هم داده‌های غنی‌شده را در بر می‌گیرند، جایی که «غنی‌شده» به جنبه‌های مختلف مربوط می‌شود، به عنوان مثال، تبدیل به یک سیستم مختصات جهانی یا حاشیه‌نویسی با معنایی (سبک).
حتی اگر مجموعه داده‌های ما بیشتر توسط محققان در RTG استفاده می‌شود، ما با چالش‌های مرتبط با مدیریت داده‌های تحقیقاتی در مقیاس بزرگ‌تر مواجه هستیم: در حالی که مؤسسات شرکت‌کننده در حوزه‌های مرتبط و در یک موضوع کلی مشترک کار می‌کنند، آنها راه‌های مختلفی را برای نمایش داده‌های خود ایجاد کرده‌اند. و نتایجی که فوراً با یکدیگر سازگار نیستند. این جوامع مختلف از متخصصان حوزه با هم در چارچوب RTG کار می کنند و باید مبنای مشترکی برای به اشتراک گذاشتن داده ها و نتایج خود بیابند تا از معرفی مراحل اضافی مربوط به درک و تبدیل بازنمایی داده های یکدیگر برای هر تجزیه و تحلیل داده ها اجتناب کنند. وظیفه. علاوه بر این، از آنجایی که RTG در سه گروه متوالی از محققانی که بر روی یک مجموعه داده مشترک کار می کنند، سازماندهی شده است. امکان برقراری ارتباط شخصی در مورد داده ها بین اعضای گروه های مختلف محدود است. در این موارد، مستندسازی خوب داده ها و ویژگی های آن بسیار مهم است.
با این حساب، از اصول داده های FAIR می توان برای تعریف الزامات مدیریت داده های تحقیقات داخلی استفاده کرد. اصول داده‌های FAIR ایجاب می‌کند که داده‌های پژوهشی باید قابل یافتن و در دسترس باشند و همچنین قابل استفاده و قابل استفاده مجدد باشند. این امر به ضرورت ذخیره سازی داده های ساختاریافته با مکانیسم های جستجوی خودکار روی ابرداده های غنی (الزامات فراداده F2، R1.2-3، و همچنین نیاز زیرساختی F4 در [ 1 ]) دلالت دارد. برای اینکه مجموعه داده‌های پیچیده (شامل همه نسخه‌ها و بازنمایی‌ها) قابل یافتن برای محققان باشد، مکانیسم‌های جستجو باید ارائه شود که امکان بازرسی داده‌ها را با استفاده از پرس‌وجوهای مکانی-زمانی در داده‌ها و متا داده‌های مرتبط، نزدیک به داده‌های مفهومی فراهم کند. مکعب [ 14 ]، یا به طور خاص مکعب فضا-زمان [15 ]. از آنجایی که دسترسی به داده ها به محققان RTG در سطح سیستم فایل داده می شود، اصول A1 و A2 در اینجا اعمال نمی شوند. چالش‌های باقی‌مانده‌ای که زیرساخت مدیریت داده‌های پژوهشی پیشنهادی سعی در حل آن‌ها دارد، مربوط به اصول داده‌های FAIR I1-3 (قابلیت همکاری بازنمایی داده‌ها) است. در نظر گرفتن این اصول FAIR در حال حاضر در سطح ذخیره سازی داخلی داده ها، انتشارات بعدی بخش هایی از داده ها را آسان تر می کند. از آنجایی که اصول F1، F3 و R1.1 مستقیماً در مورد داده‌های استفاده شده داخلی اعمال نمی‌شوند، باید در طول فرآیند انتشار داده‌ها در نظر گرفته شوند. این شامل تخصیص شناسه‌های منحصربه‌فرد جهانی (مثلاً در قالب DOI) و مجوزهای استفاده از داده‌های مناسب است.
هدف پروژه های تحقیقاتی تجزیه و تحلیل و تفسیر بیشتر داده ها است. این فرآیندهای تجزیه و تحلیل باید برای مجموعه داده های بزرگ قابل اجرا باشد. بنابراین، سیستم برای پردازش موازی به سخت افزار محاسباتی متصل می شود. تکنیک های تجزیه و تحلیل به کار گرفته شده در تحقیق ما ارتباط نزدیکی با انواع خاصی از حسگرها دارد. تصاویر با استفاده از الگوریتم‌های پردازش تصویر پردازش می‌شوند، به‌عنوان مثال، OpenCV [ 16 ] یا تشخیص شی با استفاده از یادگیری عمیق (به عنوان مثال، TensorFlow [ 17 ])، داده‌های LiDAR به الگوریتم‌های ابر نقطه‌ای نیاز دارند (به عنوان مثال، Point Cloud Library [ 18]]). داده های GNSS و IMU را می توان برای تعیین مسیر قوی جفت کرد. این تکنیک‌ها، در میان بسیاری دیگر، همراه با مدل‌سازی ژئودتیکی فرآیند اندازه‌گیری و همچنین فیلتر کردن اندازه‌گیری‌ها از چندین حسگر، مجموعه داده‌هایی با پیچیدگی بالا (داده‌های سری زمانی با ابعاد بالا در چندین حسگر) ایجاد می‌کنند. به عنوان مثال، با استفاده از شبکه‌های اشغال، نقشه‌هایی ساخته می‌شوند که هم شامل ویژگی‌های ثابت (مثلاً هندسه جاده‌ها و ساختمان‌ها) و هم اطلاعات مکانی-زمانی هستند، به عنوان مثال، در قالب نقشه‌های حرارتی حاوی اطلاعاتی در مورد احتمال کلاس‌های خاص اشیاء پویا که در مکان های خاصی در محیط ظاهر می شوند. برای این منظور، اشیاء منفرد از طریق تقسیم بندی و طبقه بندی تصاویر و همچنین ابرهای نقطه ای شناسایی می شوند. مجموعه داده های مشتق شده که توسط تجزیه و تحلیل این پروژه های تحقیقاتی جداگانه تولید می شوند، علاوه بر داده های حسگر خام ذخیره می شوند. این امکان تحلیل های پیچیده تری را در حوزه موقعیت یابی (زمان واقعی) فراهم می کند و از دانش سطح بالاتر استفاده می کند. نمونه‌هایی برای مجموعه داده‌های مشتق‌شده شامل نسخه‌های تصحیح شده مجموعه داده‌ها (مثلاً ابرهای نقطه‌ای تراز شده)، تقسیم‌بندی‌های شی یا مدل‌های خودروی سه‌بعدی است.
در بخش محاسباتی، کمیت و پیچیدگی داده های مورد نیاز برای مراحل تجزیه و تحلیل فردی در یک زمان زیاد است، که منجر به الزامات بالایی در مورد انتقال داده ها و محاسبات از نظر پهنای باند و توان محاسباتی می شود. بنابراین، ضروری است که مجموعه داده های (بزرگ) با سخت افزار و نرم افزار کافی پردازش شوند، بنابراین عناصر موازی سازی نیز در چارچوب گنجانده شده است.
در نهایت، هدف، امکان استفاده مجدد از نرم افزار با توسعه و ارائه عناصر نرم افزاری [ 19 ] است که برای استفاده به عنوان نوعی کیت ساخت و ساز برای یکپارچگی مشترک مناسب هستند. ماژول‌های نرم‌افزاری توسعه خواهند یافت که می‌توانند به فرآیندهای تجزیه و تحلیل مرسوم متصل شوند تا قابلیت‌های خود را با امکان تعیین کمیت یکپارچگی افزایش دهند. اما این جنبه از حوصله این مقاله خارج است.

3. کارهای مرتبط

افزایش دیجیتالی شدن و توسعه و استقرار حسگرهای جدید منجر به اطلاعات بیشتر در مورد محیط ما می شود و بنابراین به طور بالقوه به بینش های بیشتری در مورد روابط متقابل ناشناخته قبلی منجر می شود. با این حال، مشکلات در مواجهه با مقادیر روزافزون داده ها، ناشی از افزایش تعداد و عملکرد حسگرها، که راه خود را در تمام زمینه های زندگی روزمره پیدا می کنند، به موضوع مهمی در تحقیقات در سال های اخیر تبدیل شده است. حجم وسیعی از مجموعه داده‌های موجود برای تحقیق به طور فزاینده‌ای به زیرساخت‌های فنی برای ذخیره‌سازی کافی داده‌ها نیاز دارد تا بتوان آن‌ها را به راحتی پیدا کرد، به آنها دسترسی پیدا کرد، ادغام کرد و تجزیه و تحلیل کرد.
برای تسهیل عملکرد بهتر انتشار داده های علمی، اصول FAIR مستقل از دامنه و سطح بالا (قابلیت یافتن، دسترسی، قابلیت همکاری، و قابلیت استفاده مجدد) پیشنهاد شد [ 1 ]. این اصول مستلزم – از جمله – این است که ویژگی‌های مجموعه داده‌ها همراه با داده‌ها به روشی استاندارد شده که برای ماشین قابل درک است ذخیره شود، و خود داده‌ها در قالب‌های داده‌ای قابل همکاری ذخیره شوند. برای این منظور، استانداردهایی برای حاشیه نویسی مجموعه داده ها با فراداده (“داده در مورد داده ها”) توسعه داده شد. چارچوب توصیف منابع (RDF) که توسط W3C توسعه یافته است [ 20] یک زبان مبتنی بر XML برای رمزگذاری فراداده به روشی ساختاریافته و قابل خواندن توسط ماشین است. از نظر ویژگی‌های مفید، پیشنهادهایی مانند مجموعه اقلام فراداده هسته دوبلین برای افزودن جزئیات در مورد محتوا، مالکیت معنوی و نمونه‌سازی داده‌ها وجود دارد [ 21 ، 22 ]. علاوه بر این، استانداردهای دامنه خاص در جوامع مختلف تحقیقاتی ایجاد شد، به عنوان مثال [ 23 ، 24 ] برای مجموعه داده های جغرافیایی. مروری بر استانداردهای عمومی و دامنه خاص بیشتر در وب سایت اتحاد تحقیقات داده یا در وب سایت های فهرست فراداده [ 25 ، 26 ] موجود است.
کاربردهای عملی اصول FAIR در حوزه‌های تحقیقاتی جداگانه با تمرکز بر الزامات خاص دامنه توسعه یافته است. کاربردهای معمولی FAIR در حوزه داده های جغرافیایی ( برای یک نمای کلی به [ 27 ، 28 ] مراجعه کنید) به زیرساخت های داده های جغرافیایی (GDI، نگاه کنید به [ 29) مربوط می شود.]): رمزگذاری داده های جغرافیایی به فرمت های قابل همکاری و استفاده مجدد از ماژول های تبدیل داده های موجود (سرویس های وب) به روشی غیرمتمرکز، که به داده های جغرافیایی از منابع مختلف اجازه می دهد تا در یک چارچوب مرجع فضایی مشترک با استفاده از اطلاعات جغرافیایی معمولی یکپارچه شوند ( GIS) عملیاتی که به طور گسترده برای انواع مختلف داده های مکانی قابل استفاده است. این سرویس های وب می توانند تبدیل داده ها، یکپارچه سازی داده ها، یا وظایف تجزیه و تحلیل داده ها با پیچیدگی های مختلف و همچنین تجسم داده های جغرافیایی را پوشش دهند. سازمان‌های استانداردسازی مانند کنسرسیوم فضایی باز (OGC) [ 30 ] استانداردهایی را برای قابلیت همکاری بهتر، از جمله فرمت‌های داده و مشخصات رابط، ترویج می‌کنند. برای داده‌های حسگر خام که مستقیماً از طریق وب قابل دسترسی هستند، سرویس مشاهده سنسور OGC [ 31] یک استاندارد سرویس وب است که زبانها را هم برای توصیف خود حسگر (زبان مدل سنسور [ 32 ]) و هم برای رمزگذاری اندازه‌گیری‌های حسگر (مشاهده و اندازه‌گیری [ 33 ]) تعریف می‌کند.
با این حال، رایج‌ترین راه برای دسترسی به داده‌ها در حال حاضر، انتشار مجموعه‌های داده در مخازن داده‌های تحقیقاتی عمومی یا سازمانی است (یک مرور کلی از مخازن داده‌ها توسط فرامخزن‌هایی مانند [34] ارائه شده است)، که زیرمجموعه‌های مختلف داده‌ها و استانداردهای فراداده را پشتیبانی می‌کنند . . علاوه بر این، خدمات کاتالوگ داده، به عنوان مثال، [ 35 ] توسط OSGeo [ 36 ]، MIT Geodata Repository [ 37 ]، Pangea [ 38 ] و کتابخانه جغرافیایی هاروارد [ 39 ]، دسترسی مستقیم به مجموعه داده های فردی، معمولاً دامنه خاص را فراهم می کند. به اصطلاح برداشت ابرداده [ 40] برای تبدیل بین استانداردهای مختلف و ادغام تمام استانداردهای مختلف مورد استفاده توسط مخازن و محققان انتشارات استفاده می شود.

4. راه حل پیشنهادی ذخیره سازی داده – مروری بر سیستم

ذخیره سازی داده ها به روشی ساختاریافته و ایمن یکی از جنبه های اصلی مدیریت داده است. سیستم مدیریت داده پیشنهادی به گونه ای طراحی شده است که اندازه و ساختار سازمانی پروژه را منعکس کند. هدف، ذخیره و دسترسی آسان به داده‌های خام و همچنین داده‌های مشتق‌شده، علاوه بر مستندسازی داده‌ها در قالب ابرداده، برای طیف وسیعی از سنسورها و انواع داده‌ها (از جمله ابرهای نقطه LiDAR، تصاویر، و همچنین GNSS/) بود. داده های سری زمانی IMU). در مورد بازرسی داده ها، روش معمول برای پرس و جو از داده ها از طریق اطلاعات معنایی است (به عنوان مثال، “همه داده های به دست آمده با نوع خاصی از حسگر را به من بدهید”). علاوه بر این، یک راه طبیعی برای بازرسی و پرس و جو از داده های مکانی، دامنه مکانی است، به عنوان مثال، مختصات یا جعبه های مرزی (به عنوان مثال، “همه تصاویر گرفته شده در محل اتصال X را به من نشان دهید”). علاوه بر این،
در این بخش، اجزای کلیدی سیستم ذخیره سازی داده ها توضیح داده شده است. همانطور که در پروژه RTG آزمایش‌ها یک عنصر مرکزی را تشکیل می‌دهند، ذخیره داده‌ها در امتداد آزمایش‌های انجام‌شده سازمان‌دهی می‌شوند که ساختار منطقی آن را می‌دهد. یک عنصر اصلی یک رابط بصری است که امکان تجسم و بازرسی آسان داده های موجود را فراهم می کند.
مجموعه داده ها به طور مداوم در یک سرور فایل مرکزی ذخیره می شوند (به بخش 4.1 مراجعه کنید ). داده ها به روشی سلسله مراتبی ذخیره می شوند که ساختار آزمایشات در مقیاس بزرگ را منعکس می کند (به بخش 4.2 مراجعه کنید ). یک فایل فراداده منفرد به هر پوشه مجموعه داده اضافه می شود (به بخش 4.3 مراجعه کنید)، که در آن یک مجموعه داده مربوط به مجموعه واحد اندازه گیری مداوم یک حسگر منفرد است (یعنی از ابتدا تا انتهای ضبط). از آنجایی که این ساختار از جستجوی ساختاریافته با معیارهای سفارشی پشتیبانی نمی کند، یک خزنده داده کاملاً خودکار (به بخش 4.4 مراجعه کنید.) برای مرور ساختار فعلی پوشه های داده استفاده می شود و همه مجموعه داده ها را با ابرداده های زمانی، مکانی و دیگر آنها در یک پایگاه داده مکانی نشان می دهد. به این ترتیب، می توان به جدایی بین نمای منطقی داده ها (که به صورت آرایه داده نشان داده می شود) و ذخیره سازی فیزیکی (سلسله مراتبی) دست یافت.
علاوه بر دسترسی مستقیم به فایل های داده های تحقیق، سرور فایل به عنوان میزبان یک رابط وب گرافیکی عمل می کند (به بخش 4.5 مراجعه کنید) که به اعضای پروژه اجازه می دهد به صورت بصری همه مجموعه داده ها را در یک نقشه وب پویا و تعاملی بررسی و مقایسه کنند و از داده ها پشتیبانی کند. پرس و جو در پایگاه داده فراداده مکانی به منظور اجرای محاسبات پرهزینه محاسباتی، RTG یک خوشه Hadoop (چارچوب موازی سازی داده های بزرگ برای مجموعه داده های ساخت یافته بزرگ، نگاه کنید به [ 41 ]) متشکل از شش گره و همچنین یک سرور GPU با هشت GPU، که عمدتاً برای پشتیبانی از آموزش استفاده می شود، اجرا می کند. شبکه ها در زمینه یادگیری عمیق (به بخش 4.6 مراجعه کنید ). شکل 3یک نمای کلی از اجزای سیستم و فعالیت های مرتبط برای تمام مراحل مدیریت داده های تحقیقاتی در RTG ارائه می دهد.

4.1. زیرساخت فناوری اطلاعات

RTG یک سرور فایل مرکزی را با همکاری (مسکن سرور و خدمات مدیریت شبکه) با بخش خدمات فناوری اطلاعات دانشگاه لایبنیتز (LUIS) اجرا می کند. داده ها به صورت فیزیکی بر روی هارد دیسک ها در یک گروه RAID-6 ذخیره می شوند که در حال حاضر ظرفیت خالص کل آن حدود 60 ترابایت است.
سرور فایل به عنوان یک نقطه دسترسی برای چندین سرویس در سطح پروژه عمل می کند: اشتراک فایل برای فراهم کردن دسترسی به تمام مجموعه داده ها برای همه اعضای RTG در سیستم عامل های مختلف کلاینت (عمدتا مبتنی بر Win/Linux) تنظیم شده است. پوشه‌های خانگی فردی و پوشه‌های اشتراک‌گذاری شده برای واحدهای سازمانی به همین ترتیب تحقق می‌یابند که از نظر مالکیت و حقوق دسترسی برای کاربران و گروه‌های کاربری مختلف متفاوت است.
سرورهای محاسباتی (خوشه Hadoop و سرور GPU) به طور فیزیکی در کنار سرور فایل قرار دارند. همه سرورها در یک LAN داخلی 10 گیگابیتی (با استفاده از تجمع لینک برای دستیابی به پهنای باند تا 20 گیگابیت) برای پشتیبانی از انتقال سریع فایل بین سرور فایل و سایر گره‌های خوشه متصل هستند، در حالی که ارتباط با این خوشه از خارج به 1 محدود است. Gbit (به دلایل زیرساختی). سرور فایل به عنوان دروازه ای برای دسترسی به خوشه های محاسباتی (که در غیر این صورت مستقیماً قابل دسترسی نیستند) برای آپلود و اجرای کد برنامه و همچنین دسترسی به نتایج محاسبات در آن ماشین ها عمل می کند.
مجوز برای همه سرویس ها از طریق یک اکتیو دایرکتوری (AD) مدیریت می شود که در آن کاربران و نقش هایی با حقوق دسترسی متفاوت مدیریت می شوند. تلاش‌های ورود به هر یک از رابط‌های سرور (کنسول Hadoop Gateway، رابط وب، اشتراک‌گذاری فایل Samba) به سرور AD تفویض شده و پردازش می‌شوند. علاوه بر این، قوانین فایروال تنظیم شده اند تا فقط اتصالات از محدوده IP خاص مربوط به واحدهای سازمانی در پروژه را مجاز کنند، که محدود به مجموعه خاصی از پورت های مربوط به خدمات پشتیبانی شده است. ارتباطات در همه موارد به پروتکل های امن/رمزگذاری شده محدود می شود، یعنی SSL/TLS، SSH، HTTPS و LDAPS.

4.2. ذخیره سازی داده های فیزیکی

در سطح سیستم فایل، هر مجموعه داده شامل یک یا چند فایل است که در برخی موارد با ساختار پوشه داخلی، بسته به نوع حسگر و فرمت داده، تشکیل شده است. هر مجموعه داده در یک پوشه جداگانه همراه با فایل فراداده ذخیره می شود (به بخش 4.3 مراجعه کنید ). دانه بندی یک مجموعه داده بسته به ساختار آزمایش مربوطه انتخاب می شود به طوری که تجزیه بیشتر داده ها با توجه به اهداف آزمایش امکان پذیر نیست. برای مثال، یک درایو منفرد با نقاط شروع و پایان مشخص ممکن است یک آزمایش را تشکیل دهد. تمام مجموعه‌های داده جمع‌آوری‌شده در این راه نیز به‌عنوان بخش‌های جداگانه مربوط به آن درایو وجود خواهند داشت.
در اطراف آن پوشه‌های مجموعه داده در پایین سلسله‌مراتب پوشه، ساختار پوشه‌ای ایجاد شد که برای مرور دستی توسط محققان مناسب است، که عمدتاً توسط ساختار سازمانی آزمایش هدایت می‌شود. در حال حاضر، بالاترین سطح پوشه مربوط به کمپین‌های اندازه‌گیری مختلف است، سطح بعدی پلتفرم‌ها/وسایل نقلیه موبایل را جدا می‌کند، سطح سوم حسگرها را جدا می‌کند و غیره. در سطوح پایین، نمایش‌های مختلفی از داده‌ها ذخیره می‌شوند، از جمله داده‌های خام اصلی (که همیشه برای جلوگیری از از دست رفتن داده‌ها در طول مراحل تبدیل نگهداری می‌شوند) و فرمت‌های قابل همکاری تبدیل شده برای اهداف مختلف (به بخش 5.1 مراجعه کنید ) .
از طریق استفاده از خزنده ابرداده (به بخش 4.4 مراجعه کنید)، سازماندهی مجدد ساختار پوشه در هر زمان بدون تأثیر بر جستجوی خودکار امکان پذیر است، تا زمانی که پوشه های مجموعه داده در سطح پایین سلسله مراتب پوشه دست نخورده نگه داشته شوند.

4.3. فراداده

اصطلاح فراداده به اطلاعات مربوط به مجموعه داده ها اشاره دارد. این شامل اطلاعاتی می شود که به هیچ وجه نمی توان از داده ها استنباط کرد، به عنوان مثال، اطلاعاتی که باید به طور صریح با مجموعه داده در زمان ذخیره داده مرتبط شوند. علاوه بر این، ابرداده همچنین می تواند برای ذخیره اطلاعاتی که به طور ضمنی در داده ها موجود است و می تواند با مقداری تلاش بازیابی شود، به عنوان مثال برای ایجاد اطلاعات صریح که در غیر این صورت نیاز به محاسبات پرهزینه برای دسترسی دارد، استفاده شود [42 ] . برای مجموعه داده های ما، زیرمجموعه ای از ویژگی های Dublin Core [ 21] علاوه بر برخی فراداده‌های خاص دامنه سفارشی که روابط بین داده‌ها و تنظیمات آزمایشی را منعکس می‌کنند، به کار گرفته شد. این شامل ویژگی‌های اسمی و طبقه‌ای مانند مالکیت/تألیف مجموعه‌های داده (معادل سازنده/ناشر در Dublin Core) و همچنین جزئیات کدگذاری/فرمت فایل (قالب) می‌شود. یک فیلد متنی عمومی (توضیح) برای ذخیره توضیحات متنی برای کاربران آینده، حاوی جزئیاتی در مورد زمینه آزمایش یا فرآیند کالیبراسیون استفاده می‌شود.
علاوه بر این، فیلدهای فراداده مخصوص دامنه برای ذخیره ارتباط بین آزمایش‌ها و پلتفرم‌های حسگر یا اطلاعات مربوط به انواع حسگر و شناسه‌های دستگاه حسگر اضافه شدند. دو فیلد فراداده برای نشان دادن اطلاعات مکانی و زمانی مشتق شده به عنوان مبنایی برای نمایه سازی مکانی-زمانی مجموعه داده ها، با الهام از تاریخ و زمینه های فراداده پوشش هسته دوبلین استفاده می شود. بازه زمانی که مجموعه داده در آن به دست آمده است (با استفاده از مُهرهای زمانی GPS با دقت بالا و همگام‌سازی شده در سراسر آزمایش) به صراحت ذخیره می‌شود و اجازه فیلتر کردن موقت مجموعه‌های داده را می‌دهد. برای برخی از حسگرها، این مهرهای زمانی به صراحت در داده‌ها ذخیره می‌شوند، که یک بار از آن‌ها بازیابی می‌شوند و سپس به عنوان بخشی از ابرداده ذخیره می‌شوند. برای حسگرهایی که به صراحت مُهرهای زمانی را ذخیره نمی‌کنند، فاصله زمانی سنسورهای دیگر در همان پلتفرم که به طور همزمان (در حین ثبت داده ها) ضبط می کردند، استفاده شد. همین اصل برای مکان مشاهدات حسگر اعمال شد: اطلاعات محلی‌سازی از سیستم‌های GNSS/IMU موجود در تمام پلت‌فرم‌های حسگر منتقل شد و با مجموعه داده‌های ثبت‌شده در همان پلت فرم همراه شد، دوباره برای پشتیبانی از فیلتر/جستجوی مجموعه‌های داده با معیارهای مکانی. برای این منظور، حداقل مستطیل‌های مرزی مسیرهای GNNS با هر یک از مجموعه داده‌ها ذخیره می‌شوند، زیرا وضوح فضایی دقیق‌تر (از طریق ارتباط زمانی مشاهدات حسگر با موقعیت‌های فردی GNSS) به تجزیه بیشتر مجموعه داده‌ها به مشاهدات فردی نیاز دارد. هر دوی این فیلدها فقط حاوی مقادیر تقریبی برای پشتیبانی از فیلتر فضایی-زمانی هستند.
در فرآیند ایجاد ساختار پوشه پس از آزمایش، یک الگو برای فایل فراداده، حاوی تمام فیلدهای فراداده اجباری، به هر پوشه مجموعه داده اضافه می شود. این الگو شامل نظراتی است که معنایی و مقادیر مجاز (در صورت لزوم) را برای هر فیلد ابرداده تعریف می کند. سپس این فایل فراداده توسط محققان مسئول هر مجموعه داده پر می شود. بررسی خودکار اعتبار XML (به عنوان مثال، در برابر یک دستور زبان از پیش تعریف شده) هنوز انجام نشده است، اما مطمئناً یک ویژگی است که در آینده باید در نظر گرفته شود.

4.4. پایگاه داده های مکانی

به منظور امکان ذخیره سازی مقیاس پذیر و دسترسی چند کاربره، داده ها به طور خودکار به یک پایگاه داده فضایی وارد می شوند (به طور خاص [ 43]])، که در آن تمام ابرداده های مجموعه داده ها مستقیماً برای پرس و جوهای پیچیده قابل دسترسی هستند. از یک اسکریپت استفاده می کند که به صورت بازگشتی ساختار پوشه کامل را طی می کند و به طور خاص به دنبال وجود یک فایل فراداده است که مجموعه داده ها را نشان می دهد. بر اساس محتویات فایل فراداده، اسکریپت ورودی های پایگاه داده را برای هر مجموعه داده، از جمله مکان ذخیره سازی فعلی هر مجموعه داده در سرور فایل ایجاد می کند. در این فرآیند، خطاهای نحوی در فایل های ابرداده قابل شناسایی است. در طول وارد کردن پایگاه داده، مجموعه داده‌ها بیشتر تجزیه نمی‌شوند (مثلاً به اندازه‌گیری‌های فردی)، زیرا این امر باعث ایجاد تعدادی چالش اضافی می‌شود: مشاهدات به فرآیندهای اندازه‌گیری خاص مرتبط می‌شوند، خطاهای اندازه‌گیری و وابستگی‌های متقابل بین حسگرهای متعدد در طول یک آزمایش را معرفی می‌کنند.
پایگاه داده به پرس و جوهای SQL در مورد خصوصیات داده دلخواه و روابط آنها (به عنوان مثال، پرس و جوهای فضایی) و پرس و جوهای زمانی ساده و همچنین پرس و جوهای مربوط به همه فراداده های اسمی و طبقه ای که در فایل های XML فراداده گنجانده شده اند اجازه می دهد. این رابط جستجو از موارد استفاده مانند بازیابی همه مجموعه داده‌های جمع‌آوری‌شده در یک زمان خاص (مثلاً در همان آزمایش)، داده‌های مشاهده شده در یک مکان (در چندین آزمایش)، یا مجموعه داده‌های تولید شده توسط حسگر یکسان (مستقل از زمان و مکان) پشتیبانی می‌کند. )، شبیه به عملیات تعریف شده در یک مکعب داده [ 14 ].

4.5. رابط وب و WebGIS

سرور فایل میزبان وب سایتی است که امکان بازرسی بصری داده ها را فراهم می کند و قابلیت های فیلتر و تجسم را به کاربران ارائه می دهد. عنصر مرکزی این رابط وب یک نقشه وب است که تجسم های از پیش پردازش شده را برای همه مجموعه داده های فضایی در بالای یک نقشه کلی (مثلاً از OSM یا آژانس های نقشه برداری) نمایش می دهد، که امکان بازرسی، انتخاب و مقایسه داده های احتمالاً مرتبط را فراهم می کند. علاوه بر افزودن صریح لایه‌های مربوط به مجموعه داده‌های خاص به نقشه، مجموعه داده‌ها را می‌توان با افزودن عبارات فیلتر SQL به یک فیلد متنی، از نظر مکانی-زمانی یا معنایی، فیلتر کرد.
بسته به نوع داده های موجود، پیش نمایش مجموعه داده ها به صورت کاشی های شطرنجی و/یا به صورت داده های برداری در دسترس هستند. آنها را می توان به سرعت پردازش و تجسم کرد و حاوی تمام اطلاعات لازم برای انتخاب و تجسم داده ها است ( شکل 4 را ببینید). برای داده های متراکم و توزیع شده به صورت فضایی مانند ابرهای نقطه ای، نمایش های شطرنجی دوبعدی (پیش بینی ها به صفحه xy) با چندین LOD/رزولوشن پیش پردازش می شوند تا از سطوح مختلف زوم نقشه وب پشتیبانی کنند (یعنی سطوح بالاتری از جزئیات در هنگام بزرگنمایی بیشتر آشکار می شوند. بدون اینکه در سطوح زوم کم با کاشی‌های بزرگ تا با وضوح بالا دچار مشکل شوید). اسکریپت‌هایی برای تولید یک هرم تصویر کامل از کاشی‌ها برای سطوح زوم چندگانه در دسترس هستند، که می‌توانند ویژگی‌های رندر را سفارشی کنند، به عنوان مثال، نگاشت داده‌ها به رنگ‌های پیکسل بسته به ویژگی‌های داده دلخواه، بسته به تحلیل مورد نیاز (نگاه کنید به شکل 5 ) . به این ترتیب، هر مجموعه داده ممکن است با تجسم های متعدد و متفاوت مرتبط باشد.
برای جلوگیری از اختلاط داده ها و داده های پیش نمایش، فایل های پیش نمایش (به عنوان مثال، مجموعه های کاشی یا فایل های داده برداری) در یک پوشه جداگانه به عنوان بخشی از فایل های رابط وب قرار می گیرند. این پوشه ساختار پوشه داده های اصلی را برای حفظ رابطه با مجموعه داده های مربوطه منعکس می کند. همچنین می‌توان پیش‌نمایش‌ها را به‌صورت توزیع‌شده به‌طور مستقیم در خوشه Hadoop با استفاده از نسخه موازی‌شده اسکریپت تجسم تولید کرد. فایل های پیش نمایش حاصل را می توان مستقیماً از سیستم فایل توزیع شده Hadoop (HDFS) از خوشه Hadoop با استفاده از WebHDFS REST-API به نقشه وب وارد کرد.
علاوه بر تجسم داده‌ها، رابط وب همچنین امکان بازرسی مجموعه داده‌های کامل را از طریق مرورگر فراهم می‌کند: پوشه‌های ذخیره‌سازی داده‌ها را می‌توان به صورت دستی جستجو کرد و مجموعه‌های داده را می‌توان بازرسی کرد (اگر انواع داده‌ها مستقیماً توسط مرورگر پشتیبانی می‌شوند، به عنوان مثال، داده‌های تصویر) و با استفاده از پروتکل https دانلود شد. برای راحتی، یک رابط برای مرور محتویات سیستم فایل کلاستر Hadoop (HDFS) نیز وجود دارد. برای ابرهای نقطه، یک نمایشگر ابر نقطه مبتنی بر WebGL یکپارچه شد. علاوه بر این، رابط‌هایی را برای پایگاه داده ابرداده فراهم می‌کند تا محتویات پایگاه داده ابرداده را بررسی کرده و پرس‌وجوهای SQL را روی آن اجرا کند.

4.6. خوشه Hadoop/GPU Cluster

به منظور ارائه ظرفیت محاسباتی برای وظایف محاسباتی کلان داده، یک سرور GPU منفرد شامل هشت پردازنده گرافیکی و یک خوشه Hadoop متشکل از شش سرور (گره)، به صورت فیزیکی درست در کنار سرور فایل میزبانی می شود تا امکان اتصال داده با پهنای باند بالا را فراهم کند. انتقال سریع داده ها سرور فایل به عنوان دروازه ای برای آپلود و اجرای کارها عمل می کند.
خوشه Hadoop آخرین نسخه توزیع Cloudera از جمله Apache Hadoop (CDH [ 41) را اجرا می کند])، با نصب خدمات توزیع شده مرتبط با اکوسیستم هادوپ، از جمله HDFS/YARN، Spark/Spark2، HBase/Hive/Zookeeper. سرور فایل طوری پیکربندی شده است که یک گره لبه از خوشه باشد که به عنوان دروازه برای همه سرویس های پشتیبانی شده (HDFS/YARN/Spark و غیره) پیکربندی شده است، به طوری که داده ها را می توان مستقیماً از سرور فایل به سیستم فایل توزیع شده Hadoop (HDFS) آپلود کرد. ) از خوشه، به عنوان مثال، برای توزیع و اجرای برنامه های کاربردی. به این ترتیب، این رابط های مبتنی بر کنسول از کنسول فایل سرور در دسترس هستند. علاوه بر این، کاربران برای نظارت بر وضعیت خوشه، تخصیص منابع و پیشرفت برنامه، دسترسی فقط خواندنی به رابط مدیریت گرافیکی Cloudera Manager در گره اصلی Hadoop خوشه دارند.
در مورد خوشه GPU، سرور فایل یک ماشین مجازی جداگانه میزبان DC/OS [ 44 ] را اجرا می کند، یک سیستم عملیاتی توزیع شده بر اساس هسته سیستم های توزیع شده Apache Mesos. منابع خوشه GPU را در یک رابط گرافیکی واحد مدیریت می کند و امکان استقرار برنامه های کاربردی توزیع شده، از جمله تخصیص/مدیریت منابع برای چندین کاربر همزمان را فراهم می کند. این رابط گرافیکی برای کاربران کلاستر تحت یک IP و URL جداگانه در یک مرورگر در دسترس است. نتایج محاسبات از هر دو خوشه بلافاصله قابل دسترسی است: خوشه GPU نتایج را مستقیماً به سرور فایل باز می نویسد، در حالی که خوشه Hadoop نتایج را در HDFS ذخیره می کند، که می تواند مانند یک سیستم فایل معمولی از کنسول فایل سرور قابل دسترسی باشد.

5. مدیریت داده ها

این بخش فرآیندهای توسعه‌یافته برای آماده‌سازی داده‌های آزمایشی برای ذخیره‌سازی داده‌ها در بخش 5.1 ، به دنبال نمونه‌هایی برای این مراحل پیش‌پردازش در بخش 5.2 و مثال‌هایی برای مزایایی که سیستم در هنگام کار با داده‌های ذخیره‌شده در بخش 5.3 ارائه می‌دهد، توضیح می‌دهد .

5.1. آماده سازی و پس پردازش داده ها

در زمینه ذخیره‌سازی داده‌های فیزیکی، فرآیندهایی برای حفظ سازگاری و یکپارچگی در داخل و در بین تمام مجموعه‌های داده ایجاد شد. به عنوان حفاظتی در برابر خطاها در هر فرآیند پس از پردازش یا تبدیل، همه مجموعه داده‌ها به صورت اضافی در قالب اصلی خود ذخیره می‌شوند. با این حال، بسته به حسگر و فرمت‌های داده‌های موجود، این ممکن است منجر به فرمت‌های داده اختصاصی شود که فقط با استفاده از نرم‌افزار یا سخت‌افزار خاص حسگر قابل دسترسی هستند و در یک پروژه مقیاس بزرگ در واحدهای تحقیقاتی سازمانی غیرعملی می‌شوند. علاوه بر این، سیستم های مرجع فضایی داخلی و/یا نمایش اندازه گیری های زمانی ممکن است در حسگرها متفاوت باشد.
بنابراین، تمام مجموعه داده‌ها به قالب‌های باز قابل تعامل با سیستم‌های مرجع فضایی یکپارچه (به ویژه ETRS89/UTM منطقه 32N، زیرا این فرمت خروجی سیستم‌های حسگر چندگانه مورد استفاده در آزمایش‌های ما است) و نمایش زمان (زمان Unix، از زمان ثبت داده‌ها و زمان) تبدیل می‌شوند. همگام سازی در آزمایش های ما از سیستم عامل روبات استفاده می کند (ROS [ 45]) در ماشین‌های لینوکس) که هم قابلیت همکاری و هم سازگاری اندازه‌گیری‌های مکانی/زمانی بین همه مجموعه‌های داده را ممکن می‌سازد. به طور خاص، توالی های تصویر استریو به عنوان دنباله های جداگانه ای از تصاویر PNG برای هر دوربین، با یک جدول ASCII جداگانه شامل نقشه برداری بین شناسه های تصویر و مُهرهای زمانی ذخیره می شوند. فرمت ASCII PLY برای داده های ابر نقطه ای، فرمت RINEX برای داده های GNSS استفاده می شود، اکثر انواع دیگر خروجی حسگر در قالب CSV ذخیره می شوند. تبدیل به آن فرمت ها توسط اسکریپت های توسعه یافته برای هر نوع فرمت خروجی حسگر خام انجام می شود.
پس از تبدیل موفقیت آمیز داده ها، ابرداده ها جمع آوری و/یا محاسبه می شوند و به صورت دستی به سند ابرداده اضافه می شوند (یکی برای هر نسخه از هر مجموعه داده). سپس سند فراداده در پوشه مجموعه داده قرار می گیرد (به بخش 4.3 مراجعه کنید ). ساختار پوشه برای آزمایش به صورت دستی و به دنبال یک ترتیب ثابت از تقسیم بندی ساخته شده است (به بخش 4.2 مراجعه کنید.) سپس تمام پوشه های مجموعه داده در سطح پایین این سلسله مراتب پوشه قرار می گیرند. سطح بالای سلسله‌مراتب پوشه برای آزمایش حاوی اسناد مربوط به آزمایش، اسناد برنامه‌ریزی و جزئیات مربوط به سکوهای حسگر (شامل اطلاعات کالیبراسیون: حسگر به حسگر و حسگر به وسیله نقلیه) است. داده‌های کالیبراسیون برای حسگرهای جداگانه در پوشه‌های حسگر مربوطه قرار می‌گیرند (برخی سطوح بالاتر از سطح مجموعه داده‌های فردی).
هنگامی که ساختار پوشه ایجاد شد و تمام فایل های فراداده کامل شد، یک اسکریپت خزنده اجرا می شود که وضعیت فعلی سلسله مراتب پوشه سرور فایل را به پایگاه داده ابرداده منتقل می کند (به بخش 4.4 مراجعه کنید ). پایگاه داده مکان های ذخیره سازی فعلی مجموعه داده های فردی را با ابرداده مربوطه مرتبط می کند، و امکان جستجوی سرور برای مجموعه داده های ثبت شده توسط کلمات کلیدی و مقادیر فیلدهای فراداده را فراهم می کند.
به عنوان آخرین مرحله از آماده‌سازی داده‌ها، نسخه‌های پیش‌نمایش برای هر مجموعه داده (به عنوان مثال، کاشی‌های شطرنجی برای استفاده به‌عنوان پوشش روی نقشه وب یا یک نمایش برداری نمونه‌برداری شده پایین) با استفاده از اسکریپت‌های سنسور نوع خاص که قبلاً توضیح داده شد، تولید می‌شوند. فایل‌های پیش‌نمایش در پوشه‌ای قرار می‌گیرند که توسط رابط وب قابل دسترسی است و از آنجا به طور خودکار در نقشه وب ادغام می‌شوند (به بخش 4.5 مراجعه کنید ).

5.2. نمونه بلع داده ها

در بخش بعدی، مفاهیم عملی مراحل بخش 5.1 با نگاهی دقیق‌تر به داده‌های تولید شده توسط پیکربندی چند سنسوری یک خودروی مورد استفاده در یکی از آزمایش‌های ما نشان داده می‌شوند و برخی از چالش‌های پیش‌رو در این فرآیند را برجسته می‌کنند. جزئیات فنی بی ربط در زمینه فرآیند حذف شده است.
این خودرو مجهز به سیستم نقشه برداری موبایل RIEGL VMX-250 (MMS)، شامل دو اسکنر لیزری دوبعدی RIEGL VQ-250، چهار دوربین (مورد استفاده برای رنگ آمیزی ابرهای نقطه ای)، یک GNSS/IMU و یک کامپیوتر با نرم افزار اختصاصی است. اندازه گیری از این سنسورها خروجی سنسور یک پوشه پروژه پیچیده با استفاده از فرمت‌های فایل اختصاصی است که به نرم‌افزار اختصاصی برای استخراج خروجی‌های حسگر مختلف، از جمله راه‌حل‌هایی برای مسیر GNSS و ابرهای نقطه (رنگی)، چه در مختصات حسگر یا در مختصات جهانی، نیاز دارد. علاوه بر این، یک جفت دوربین استریو به جلوی سقف خودرو و یک سیستم GNSS/IMU جداگانه متصل شده است، زیرا متأسفانه MMS به داده‌های خام GNSS دسترسی نمی‌دهد. داده های دوربین استریو و سیستم GNSS/IMU با استفاده از گره های ROS در یک سیستم لینوکس ثبت می شوند. در این فرآیند، مهرهای زمانی GPS از حسگر GNSS با تصاویر استریو مرتبط است. MMS با استفاده از مهرهای زمانی GPS نیز به رایانه دیگری وارد می شود. با این حال، هر دو سیستم GNSS از سیستم های مرجع فضایی متفاوتی استفاده می کنند.
سنسورهای مختلف روی خودرو فرمت‌های داده خام زیر را تولید می‌کنند: یک پوشه بزرگ با ساختار داخلی پیچیده برای داده‌های MMS و به اصطلاح کیسه‌های ROS ثبت‌شده توسط ROS، که حاوی پیام‌های مهر زمانی (سازمان‌دهی شده در موضوعات به اصطلاح ROS) از ضبط کردن این گزارش های خام (یا اولین) داده ها در سرور فایل ذخیره می شوند. از آنجایی که این فرمت‌ها مستقیماً توسط همه محققین قابل استفاده نیستند، به فرمت‌های قابل همکاری تبدیل می‌شوند (فرمت‌های استاندارد باینری بدون ضرر برای داده‌های تصویر و قالب‌های متنی ASCII به خوبی تعریف شده برای داده‌های GNSS و LiDAR). برای پروژه های MMS، از نرم افزار MMS اختصاصی برای استخراج داده های مورد نیاز استفاده می شود (به عنوان مثال، یک نمایش ASCII از مسیر GNSS و ابر نقطه رنگی و با وضوح کامل در مختصات جهانی). برای کیسه های ROS،
علاوه بر این، یک مرحله پس پردازش برای همه نسخه‌های صادر شده داده‌ها انجام می‌شود، که طی آن مُهرهای زمانی و مختصات مکانی همه داده‌های حسگر به نمایش‌های رایج تبدیل می‌شوند، با استفاده از اسکریپت‌های فرمت خاص برای خودکارسازی تبدیل. این بعداً به محققان ما اجازه می‌دهد تا با مجموعه داده‌های آماده‌شده بدون نیاز به پرداختن به تغییرات مختصات و مهر زمان کار کنند. وجود مُهرهای زمانی یکپارچه و سیستم‌های مرجع مختصات مکانی، صادرات خودکار داده‌ها را به فرمت‌های دیگر به راحتی ممکن می‌سازد.
برای هر مجموعه داده، از جمله نسخه‌ها یا قالب‌های مختلف همان مجموعه داده، یک فایل XML فراداده به عنوان کپی یک الگوی از پیش تعریف‌شده XML ایجاد می‌شود. این شامل زمینه‌های فراداده‌ای است که در زمینه تحقیق ما مفید هستند، از جمله سنسور نوع، سنسور نام، فرمت داده، شناسه سنسور، شناسه تجربی، شناسه سنسور، محدوده زمانی، مرزهای فضایی، مالک و همچنین یک قسمت توصیف متن آزاد برای جزئیات/نظرات بدون ساختار بیشتر. برخی از این فیلدها برای عملکردهای خاصی مورد نیاز هستند. به عنوان مثال، این فیلدها در پایگاه داده ابرداده قرار دارند و بنابراین در پرس و جوهای SQL روی ابرداده موجود هستند. هنگام پر کردن ابرداده می توان فیلدهای اضافی دلخواه را تعریف کرد. با این حال، اینها توسط هیچ فرآیند خودکاری استفاده نمی شوند. فایل های فراداده توسط “صاحبان” حسگرهای مربوطه ویرایش می شوند، به عنوان مثال، در بیشتر موارد، محققانی که سخت افزار و نرم افزار حسگر را به پلت فرم حسگر کمک کردند. برای کاهش خطر خطاهای ورودی، لیست های از پیش تعریف شده مقادیر مورد انتظار در قالب XML فراداده برای برخی از فیلدهای فراداده تعریف شده است، به عنوان مثال، قسمت فوق داده sensorType ممکن است فقط دارای مقادیری مانند STEREO_CAMERA، LASER_SCANNER، GNSS و غیره باشد. اسکریپت ها به محاسبه فاصله زمانی و مرزهای مکانی برای همه مجموعه داده ها کمک می کنند، زیرا این مقادیر بخشی جدایی ناپذیر از فراداده هستند، زیرا از پرس و جوهای زمانی- مکانی (تقریبی) در پایگاه داده فراداده پشتیبانی می کنند. برای سنسورهای بدون قابلیت محلی سازی خود (به عنوان مثال، دوربین های استریو)، از مرزهای مکانی داده های یکی از حسگرهای GNSS در همان پلت فرم حسگر استفاده می شود. البته در میان فایل های ابرداده مقداری افزونگی وجود دارد،
هنگامی که تمام مجموعه داده ها به فرمت های نهایی خود تبدیل شدند، یک ساختار پوشه در سرور ایجاد می شود که از جستجوی دستی پشتیبانی می کند. برای این منظور، روابط بین مجموعه‌های داده حاصل از طراحی آزمایش در سلسله مراتب پوشه منعکس می‌شود که ساختاری به شرح زیر دارد:
EXPERIMENT_ID > SENSOR_PLATFORM_ID > SENSOR_TYPE > SENSOR_ID > DATA_FORMAT > مجموعه داده ها
برای پلت فرم حسگر خاص از مثال، این منجر به ساختار پوشه نشان داده شده در جدول 1 می شود .
نام پوشه های پررنگ، ساختار پوشه ها را بر اساس دسته ها مشخص می کند. نام پوشه‌های کج، پوشه‌های سطح پایینی هستند که شامل مجموعه داده‌های واقعی و همچنین فایل‌های فراداده فردی هستند. نام پوشه های خط دار دارای داده های کالیبراسیون مورد نیاز برای یکپارچه سازی و تفسیر مجموعه داده های مربوطه هستند. برخی از نام‌های پررنگ پوشه‌ها ویژگی‌های فراداده را منعکس می‌کنند و ویژگی‌های داده صریح را در سطح سیستم فایل برای پشتیبانی از فرآیندهای جستجوی دستی ایجاد می‌کنند. نام پوشه ها به صورت دستی اختصاص داده می شوند و نه به شدت اجرا می شوند و نه توسط فرآیندهای جستجوی خودکار استفاده می شوند. در واقع، از آنجایی که فایل‌های فراداده بخشی از پوشه مجموعه داده مربوطه هستند، پوشه‌های بالا در سلسله مراتب را می‌توان بدون ایجاد مانع در قابلیت‌های جستجوی خودکار، خودسرانه ساختار مجدد داد.
در این مرحله، یک اسکریپت خزنده به صورت دستی اجرا می شود که سلسله مراتب پوشه سرور فایل را طی می کند. هر زمان که با یک فایل XML فراداده مواجه می شوید، محتویات آن (مقادیر فیلدهای از پیش تعریف شده) و همچنین مکان آن (که همیشه یک پوشه مجموعه داده است) در پایگاه داده فضایی ذخیره می شود. برای داده های مثال، پایگاه داده اکنون شامل هفت ورودی است: یکی برای کیسه های ROS خام، یکی برای داده های خام MMS، دو صادرات MMS، مجموعه داده های دوربین استریو و دو مجموعه داده GNSS.
به عنوان آخرین مرحله پس از ذخیره داده ها، نسخه های پیش نمایش برای هر مجموعه داده آماده می شود که می تواند در نقشه وب رابط وب نمایش داده شود. اگر یک مجموعه داده در قالب های متعدد موجود باشد، تنها یک پیش نمایش تولید می شود. برای ابرهای نقطه، تصاویر شطرنجی (کاشی‌ها) با رندر کد با وضوح و تجسم قابل تنظیم ایجاد می‌شوند. این کاشی‌ها بعداً مستقیماً در بالای نقشه اصلی نقشه وب نمایش داده می‌شوند ( شکل 4 را ببینید ). برای مسیرهای MMS و GNSS، نمایش های برداری مناسب تر هستند. برای این منظور، نسخه‌های زیر نمونه‌ای از مسیرهای اصلی تولید می‌شوند که بعداً به صورت چند خط در بالای نقشه وب نمایش داده می‌شوند ( شکل 5 را ببینید.، درست). در حال حاضر هیچ عملکرد پیش نمایشی برای تصاویر دوربین استریو وجود ندارد. فایل‌های پیش‌نمایش در یک ساختار پوشه جداگانه نگهداری می‌شوند و ساختار پوشه داده را منعکس می‌کنند تا از مخلوط کردن داده‌ها و نمایش آنها جلوگیری شود، در حالی که رابطه بین داده‌های اصلی و داده‌های پیش‌نمایش را واضح می‌سازد.

5.3. نمونه های استفاده از داده

این بخش به طور خلاصه وظایف یکپارچه سازی داده های واقعی را که از مجموعه داده های متعدد از یک آزمایش واحد با استفاده از تنظیم حسگر شرح داده شده در بخش 4.2 استفاده می کند، توضیح می دهد، و نشان می دهد که چگونه سیستم مدیریت داده از آماده سازی و اجرای مراحل لازم پشتیبانی می کند.
مثال 1:
فرض کنید یک محقق می خواهد علائم راهنمایی و رانندگی را در یک ابر نقطه ای در اطراف یک تقاطع تشخیص دهد. این را می توان به سادگی با بررسی رنگ نقاط سه بعدی و اعمال یک تقسیم بندی معنایی حل کرد. از آنجایی که ابرهای نقطه حاوی مقادیر رنگی نیستند، رنگ نقاط سه بعدی باید ابتدا از داده های تصویر بدست آید که در سیستم نیز موجود است. نمایش نقاط LiDAR سه بعدی به تصاویر دوبعدی برای بازیابی مقادیر رنگی صحیح، مستلزم یک سری تغییرات بین چندین سیستم مختصات سراسری یا حسگر محور بر اساس ابر نقطه LiDAR در مختصات مطلق، پارامترهای ذاتی دوربین (از کالیبراسیون دوربین)، وضعیت مطلق پلت فرم حسگر از سیستم GNSS-IMU و همچنین تبدیل (استاتیک) بین سیستم مختصات GNSS و سیستم مختصات دوربین (از کالیبراسیون حسگر به سنسور). نتیجه این دگرگونی مجموعه ای از مختصات تصویر دو بعدی مربوط به نقاط سه بعدی اندازه گیری شده توسط حسگر LiDAR است که می توان مقادیر رنگ را از آن بازیابی و به نقاط سه بعدی اختصاص داد.
سیستم مدیریت داده ها کار را به طرق مختلف پشتیبانی می کند. رابط کاوش داده ها با استفاده از پایگاه داده ابرداده و/یا نقشه وب به محقق ابزاری می دهد تا داده ها را از قبل بررسی کند. با استفاده از رابط بصری، محقق می تواند بررسی کند که کدام داده های LiDAR و کدام داده های تصویری در آن اتصال وجود دارد. علاوه بر این، مجموعه داده‌های موجود در سرور فایل را می‌توان برای داده‌های مربوط به ماشین، آزمایش و حسگرهای خاص با استفاده از پرس‌وجوهای SQL فیلتر کرد. علاوه بر این، محدودیت های مکانی و زمانی را می توان برای محدود کردن جستجو اضافه کرد. این همچنین دسترسی مستقیم به ابرداده و مستندات آزمایش را می دهد.
بسته به گردش کار در دست، مجموعه داده های یافت شده را می توان سپس برای پردازش بیشتر در ایستگاه کاری محقق (با استفاده از اشتراک فایل Samba) یا در HDFS خوشه Hadoop (با استفاده از رابط کنسول Hadoop) دانلود کرد. در مورد دوم، کد تبدیل (ویژه Hadoop) باید در HDFS نیز آپلود شود. نتایج تبدیل را می توان با استفاده از رابط های مشابه به سرور فایل کپی کرد.
مثال 2:
مثال دیگر محققی است که می خواهد در سیستم مبتنی بر دید خود برای سایر شرکت کنندگان در ترافیک (خودروها، عابران پیاده) به عنوان “نقاط کنترل زمینی متحرک” استفاده کند. این امر مستلزم آن است که سیستم مدیریت داده داده‌هایی از جمله تصاویر و ژست‌های دیگر خودروها و عابران پیاده را که از تجزیه و تحلیل‌ها در زمینه موضوعات تحقیقاتی ما به‌دست می‌آید، ارائه دهد. برای این منظور، نتایج تجزیه و تحلیل از کار تحقیقاتی فردی به عنوان مجموعه داده های مشتق شده در سرور فایل آپلود می شود. از آنجایی که همه مجموعه‌های داده در یک سیستم مختصات ثبت می‌شوند و تمام اطلاعات لازم (موقعیت، جهت‌گیری، کالیبراسیون دوربین) در دسترس است، این کار به ترتیب به انتخاب اشیایی که در هر تصویر قابل مشاهده هستند کاهش می‌یابد.

6. خلاصه و کار آینده

در این مقاله، ما پیاده‌سازی یک سیستم مدیریت داده‌های تحقیقاتی را ارائه کردیم که دارای ذخیره‌سازی ساختار یافته داده‌ها برای داده‌های تجربی مکانی-زمانی، از جمله مدیریت ابرداده و رابط‌هایی برای تجسم و پردازش موازی است. ما سازماندهی ذخیره سازی و سخت افزار محاسباتی خود و همچنین ساختارها و فرآیندهای مربوط به جمع آوری، آماده سازی و ذخیره سازی داده ها را به تفصیل شرح دادیم و ارتباط داده ها را با ابرداده ها نشان دادیم که منجر به یک پایگاه داده کاملاً قابل جستجو شد. در نهایت، مثال‌های عملی برای مدیریت مجموعه داده‌های واقعی، یعنی مراحل آماده‌سازی داده‌های مورد نیاز برای ذخیره‌سازی داده‌ها و همچنین مزایای استفاده از داده‌ها در زمینه وظایف علمی واقعی ارائه کردیم.
حوزه تحقیقاتی ما چالش برانگیز است، زیرا مشاهده محیط‌های بسیار پویا با استفاده از پلت‌فرم‌های حسگر پویا منجر به وابستگی متقابل بالایی بین کالیبراسیون سنسور، خود محلی‌سازی، اندازه‌گیری حسگر و هماهنگ‌سازی زمانی بین سنسورها می‌شود. رسیدگی به این پیچیدگی با راه حل های ذخیره سازی داده خارج از جعبه دشوار است. با رویکرد ارائه شده می توان بر برخی از مشکلات بازنمایی مرتبط با این چالش ها غلبه کرد. با رعایت اصل FAIR، تمام مجموعه داده ها به صورت فرمت های باز و قابل تعامل ذخیره می شوند. در این زمینه، فرمت‌های زمانی و مکانی یکنواخت استفاده می‌شود که امکان ادغام مستقیم همه مجموعه‌های داده را فراهم می‌کند. داده های کالیبراسیون (از کالیبراسیون پلت فرم حسگر و کالیبراسیون حسگر) به طور صریح به شیوه ای منطقی نسبت به مجموعه داده ها ذخیره می شوند.
در حین کار با سیستم مدیریت داده های تحقیق توصیف شده، برخی از بهبودهای احتمالی شناسایی شد که ما قصد داریم در آینده از آنها استفاده کنیم. این شامل بهبودهایی در برخی از گردش‌های کاری استاندارد است، مانند ویرایش ابرداده‌ها، که می‌تواند از یک اپراتور ویرایش انبوه استفاده کند (افزودن همان فیلد/مقادیر فراداده به تعدادی از مجموعه‌های داده به طور همزمان، کاهش نیاز به کپی دستی و چسباندن). ما همچنین می‌خواهیم از صادرات خودکار فایل‌های ابرداده خود به استانداردهای ابرداده متفاوتی که معمولاً توسط مخازن داده‌های تحقیقاتی استفاده می‌شود (نگاه کنید به [ 25 ، 26 ]) برای پشتیبانی و تسهیل فرآیند انتشار داده‌ها، پشتیبانی کنیم.
از نظر عملکردهای اضافی، وابستگی متقابل بین مجموعه داده ها می تواند بهتر مدل شود. این شامل ارجاعات متقابل (با استفاده از شناسه‌های داده منحصربفرد) بین مجموعه‌های داده از طریق ابرداده است که نسخه‌سازی مجموعه‌های داده را درک می‌کند. سپس هر مجموعه داده به مجموعه داده(هایی) که از آنها ایجاد شده است اشاره می کند، در حالت ایده آل نیز با ارجاع به کدی که با آن ایجاد شده است، یعنی کدگذاری رابطه “مجموعه داده B از مجموعه داده A با استفاده از نرم افزار تبدیل T ایجاد شده است” در ابرداده را رمزگذاری می کند. فایل ها. به همین ترتیب، رابطه بین سنسورها یا پلتفرم های حسگر و داده های کالیبراسیون آنها را می توان به عنوان ابرداده ذخیره کرد.
گام بعدی دیگر تجزیه مجموعه داده های موجود و از نظر دانه بندی داده ها، رفتن از سطح آزمایشات کامل به سطح مشاهدات فردی است. به عنوان مثال، به جای ذخیره مجموعه داده های ابر نقطه ای کامل، مشاهدات نقطه ای منفرد را می توان ذخیره کرد. این به پایگاه داده فضایی اجازه می دهد تا مجموعه داده های پیچیده جدیدی را از پرس و جوهای فضایی ایجاد کند، به عنوان مثال، بازگرداندن تمام نقاط سه بعدی اندازه گیری شده در یک منطقه فضایی تعریف شده در میان ابرهای چند نقطه ای. در سطح پایگاه داده، این نوع تجزیه به هیچ چالش جدیدی منجر نمی شود. با این حال، پیچیدگی چنین راه حلی به شدت افزایش می یابد، زیرا تمام اطلاعات در مورد منشاء (به عنوان مثال، ویژگی ها و وابستگی های متقابل در آزمایش مربوطه / ابر نقطه اصلی،

منابع

  1. ویلکینسون، MD؛ دومانتیه، ام. آلبرسبرگ، آی جی; اپلتون، جی. آکستون، ام. باک، ا. بلومبرگ، ن. Boiten، J.-W. د سیلوا سانتوس، LB; بورن، PE; و همکاران اصول راهنمای FAIR برای مدیریت داده های علمی و مباشرت. علمی داده 2016 ، 3 ، 1-9. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  2. شون، اس. برنر، سی. الخطیب، ح. کوئنن، ام. دبوک، اچ. گارسیا-فرناندز، ن. کونتزش، سی. هیپکه، سی. لومان، ک. نویمان، آی. و همکاران یکپارچگی و همکاری در شبکه های حسگر پویا. Sensors 2018 , 18 , 2400. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  3. اصول مدیریت داده های تحقیق. در دسترس آنلاین: https://www.mpg.de/230783/Principles_Research_Data_2010.pdf (در 18 اوت 2020 قابل دسترسی است).
  4. کاپلان، ED; Hegarty، CJ Understanding GPS/GNSS: Principles and Applications , 3rd ed.; آرتک هاوس: لندن، بریتانیا، 2017. [ Google Scholar ]
  5. رید، TG; Houts، SE; کاماراتا، آر. میلز، جی. آگاروال، اس. وورا، ا. Pandey، G. الزامات محلی سازی برای وسایل نقلیه خودران. SAE Int. J. اتصال. خودکار وه 2019 ، 2 ، 173-190. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  6. شون، اس. یکپارچگی – موضوعی برای فتوگرامتری؟ در آرشیو بین المللی فتوگرامتری، سنجش از دور و علوم اطلاعات فضایی XLIII-B1-2020، مجموعه مقالات کنگره XXIV ISPRS، رویداد مجازی، 31 اوت تا 2 سپتامبر 2020 ؛ Copernicus GmbH: گوتینگن، آلمان، 2020؛ صص 565-571. [ Google Scholar ]
  7. ووگس، آر. Wieghardt، CS; Wagner, B. یافتن انحرافات مهر زمانی برای یک سیستم چند سنسوری با استفاده از مشاهدات حسگر. فتوگرام مهندس Remote Sens. 2018 , 84 , 357–366. [ Google Scholar ] [ CrossRef ]
  8. دبوک، اچ. شون، اس. قابلیت اطمینان و اندازه گیری یکپارچگی موقعیت یابی GPS از طریق محدودیت های هندسی. در مجموعه مقالات نشست فنی بین المللی 2019 موسسه ناوبری، رستون، ویرجینیا، 28 تا 31 ژانویه 2019؛ صص 730-743. [ Google Scholar ]
  9. گارسیا فرناندز، ن. Schön, S. بهینه سازی ترکیبات حسگر و پارامترهای پردازش در شبکه های حسگر پویا. در مجموعه مقالات سی و دومین نشست فنی بین المللی بخش ماهواره موسسه ناوبری (ION GNSS+ 2019)، میامی، فلوریدا، ایالات متحده آمریکا، 16 تا 20 سپتامبر 2019؛ صفحات 2048–2062. [ Google Scholar ]
  10. Schachtschneider، J. Schlichting، A. برنر، سی. ارزیابی رفتار زمانی در ابرهای نقطه‌ای LiDAR از محیط‌های شهری. بین المللی قوس. فتوگرام Remote Sens. Spatial Inf. علمی 2017 ، XLII-1/W1 ، 543–550. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  11. پیترز، تی. برنر، سی. شبکه‌های متخاصم شرطی برای رندر ابری نقطه‌ای چندوجهی. PFG 2020 ، 88 ، 257-269. [ Google Scholar ] [ CrossRef ]
  12. کوئنن، ام. روتنشتاینر، اف. Heipke, C. بازسازی دقیق وسیله نقلیه برای کاربردهای رانندگی خودمختار. ISPRS Ann. فتوگرام Remote Sens. Spatial Inf. علمی 2019 ، IV-2/W5 ، 21-28. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  13. نگوین، یو. روتنشتاینر، اف. Heipke, C. ردیابی عابر پیاده آگاه با استفاده از دوربین استریو. ISPRS Ann. فتوگرام Remote Sens. Spatial Inf. علمی 2019 ، IV-2/W5 ، 53–60. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  14. گری، جی. چاودهری، س. بوسورث، آ. لایمن، ا. ریچارت، دی. ونکاترائو، ام. پلو، اف. پیرهش، اچ. در مجموعه مقالات دوازدهمین کنفرانس بین المللی مهندسی داده، نیواورلئان، لس آنجلس، ایالات متحده آمریکا، 26 فوریه تا 1 مارس 1996. صص 152-159. [ Google Scholar ]
  15. کراک، ام.-جی. مکعب فضا-زمان از دیدگاه ژئوتصویرسازی بازبینی شد. در مجموعه مقالات بیست و یکمین کنفرانس بین المللی کارتوگرافی، دوربان، آفریقای جنوبی، 10-16 اوت 2003. صفحات 1988-1995. [ Google Scholar ]
  16. OpenCV. در دسترس آنلاین: https://opencv.org/ (در 18 اوت 2020 قابل دسترسی است).
  17. TensorFlow. در دسترس آنلاین: https://www.tensorflow.org/ (در 18 آگوست 2020 قابل دسترسی است).
  18. Point Cloud Library. در دسترس آنلاین: http://pointclouds.org/ (در 18 اوت 2020 قابل دسترسی است).
  19. کنکول، م. کرای، سی. بررسی عمیق شکل‌های فضایی-زمانی در تحقیقات بازتولیدپذیر. کارتوگر. Geogr. Inf. علمی 2018 ، 46 ، 412-427. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  20. میلر، ای. مقدمه ای بر چارچوب توصیف منابع. گاو نر صبح. Soc. Inf. علمی 1998 ، 25 ، 15-19. [ Google Scholar ]
  21. Weibel, S. The Dublin Core: یک مدل توصیف ساده محتوا برای منابع الکترونیکی. گاو نر صبح. Soc. Inf. علمی تکنولوژی 1997 ، 24 ، 9-11. [ Google Scholar ] [ CrossRef ]
  22. فراداده هسته دوبلین برای کشف منابع. در دسترس آنلاین: https://tools.ietf.org/html/rfc2413 (در 18 اوت 2020 قابل دسترسی است).
  23. ISO 19115-1:2014: اطلاعات جغرافیایی – فراداده – قسمت 1: اصول. در دسترس آنلاین: https://www.iso.org/standard/53798.html (در 18 اوت 2020 قابل دسترسی است).
  24. استانداردها و دستورالعمل های فراداده جغرافیایی. در دسترس آنلاین: https://www.fgdc.gov/metadata/geospatial-metadata-standards/ (در 18 اوت 2020 قابل دسترسی است).
  25. فهرست فراداده. در دسترس آنلاین: https://rd-alliance.github.io/metadata-directory/standards/ (در 18 اوت 2020 قابل دسترسی است).
  26. فهرست استانداردهای فراداده در دسترس آنلاین: http://www.dcc.ac.uk/resources/metadata-standards/list/ (در 18 اوت 2020 قابل دسترسی است).
  27. کوتزی، اس. ایوانووا، آی. میتاسووا، اچ. بروولی، کارشناسی ارشد نرم‌افزار و داده‌های مکانی باز: مروری بر وضعیت فعلی و چشم‌اندازی به آینده. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 90. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  28. برونیگ، ام. بردلی، PE; جان، م. کوپر، پی. مزروب، ن. روش، ن. الدوری، م. استفناکیس، ای. جدیدی، م. تحقیقات مدیریت داده های جغرافیایی: پیشرفت و جهت گیری های آینده. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 95. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  29. برنارد، ال. براونر، جی. جرم.؛ Wiemann، S. Geodateninfrastrukturen. در ژئوانفورماتیک ; سستر، ام.، اد. Springer Spektrum: برلین، آلمان، 2019؛ صص 91-122. [ Google Scholar ]
  30. OGC. در دسترس آنلاین: https://www.ogc.org/ (در 18 اوت 2020 قابل دسترسی است).
  31. سرویس مشاهده سنسور. در دسترس آنلاین: https://www.opengeospatial.org/standards/sos/ (در 18 اوت 2020 قابل دسترسی است).
  32. زبان مدل سنسور (SensorML). در دسترس آنلاین: https://www.ogc.org/standards/sensorml/ (در 18 اوت 2020 قابل دسترسی است).
  33. ISO 19156:2011. در دسترس آنلاین: https://www.iso.org/standard/32574.html (در 18 اوت 2020 قابل دسترسی است).
  34. ثبت مخازن داده های پژوهشی. در دسترس آنلاین: http://re3data.org/ (در 18 اوت 2020 قابل دسترسی است).
  35. ژئوشبکه. در دسترس آنلاین: https://www.osgeo.org/projects/geonetwork/ (در 18 اوت 2020 قابل دسترسی است).
  36. OSGeo. در دسترس آنلاین: https://www.osgeo.org/ (در 18 اوت 2020 قابل دسترسی است).
  37. مخزن جغرافیایی MIT. در دسترس آنلاین: https://libguides.mit.edu/gis/Geodata/ (در 18 اوت 2020 قابل دسترسی است).
  38. PANGAEA. در دسترس آنلاین: https://www.pangaea.de/ (در 18 اوت 2020 قابل دسترسی است).
  39. کتابخانه جغرافیایی هاروارد. در دسترس آنلاین: http://hgl.harvard.edu:8080/opengeoportal/ (در 18 اوت 2020 قابل دسترسی است).
  40. پروتکل ابتکار بایگانی باز برای برداشت فراداده. در دسترس آنلاین: http://www.openarchives.org/OAI/openarchivesprotocol.html (در 18 اوت 2020 قابل دسترسی است).
  41. آپاچی هادوپ در دسترس آنلاین: https://hadoop.apache.org/ (در 18 اوت 2020 قابل دسترسی است).
  42. هاینزله، اف. Anders, KH; Sester, M. شناسایی الگو در شبکه های جاده ای به عنوان مثال تشخیص جاده دایره ای. در مجموعه مقالات چهارمین کنفرانس بین المللی علم اطلاعات جغرافیایی، مونستر، آلمان، 20 تا 23 سپتامبر 2006. Springer: برلین/هایدلبرگ، آلمان، 2006; صص 153-167. [ Google Scholar ]
  43. PostGIS. در دسترس آنلاین: https://postgis.net/ (در 18 اوت 2020 قابل دسترسی است).
  44. DC/OS. در دسترس آنلاین: https://dcos.io/ (در 18 آگوست 2020 قابل دسترسی است).
  45. ROS. در دسترس آنلاین: https://www.ros.org/ (در 18 اوت 2020 قابل دسترسی است).
شکل 1. ( سمت چپ ) عکس یک موقعیت معمولی در طول آزمایشات ما: در اولین سناریوی Meet و Greet، هر سه خودرو در یک تقاطع به هم می رسند. ( سمت راست ) حسگرها به سکوهای حسگر متحرک (وسایل نقلیه) متصل می شوند، به عنوان مثال، مجموعه ای از حسگرها به صورت مکانی به یک قاب مشترک متصل می شوند، که خود در یک قاب جهانی حرکت می کند.
شکل 2. فرآیند تبدیل داده‌های حسگر خام به فرمت‌های یکنواخت از یکپارچه‌سازی مداوم داده‌ها در پروژه تحقیقاتی پشتیبانی می‌کند و به رابط‌های ساده برای بازرسی، تحلیل و تجسم داده‌ها اجازه می‌دهد.
شکل 3. مروری بر اجزای سیستم مدیریت داده های تحقیق، از جمله رابط ها و فرآیندهای مرتبط با نقش های مختلف در گروه آموزشی پژوهشی (RTG). داده‌های حسگر خام و بدون ساختار و ابرداده‌های آن توسط محققین منفرد در سرور آپلود می‌شوند. تبدیل به فرمت‌های داده یکپارچه و وارد کردن داده‌ها و ابرداده‌ها به ذخیره‌سازی داده‌های ساخت‌یافته توسط مدیر داده سازمان‌دهی می‌شود.
شکل 4. تصاویری از رابط وب: پیش نمایش دو مسیر از وسایل نقلیه مختلف (با رنگ های متفاوت) و یک ابر نقطه در بالای نقشه وب. رندر برای تجسم ابر نقطه برای برجسته کردن ساختارهای عمودی بهینه شده است.
شکل 5. عملکردهای اضافی رابط وب: ( سمت چپ: ) کادرهای محدودکننده (از فراداده مبتنی بر حسگرهای سیستم ماهواره ناوبری جهانی (GNSS) در همان پلت فرم حسگر) که علاوه بر مسیرها / ابرهای نقطه نشان داده شده است. در این مثال، رندر ابر نقطه، تمام نقاط و چگالی نقطه محلی را نشان می دهد. ( سمت راست 🙂 مسیر وسیله نقلیه، رنگ آمیزی شده توسط یک ویژگی واحد (سرعت).

بدون دیدگاه

دیدگاهتان را بنویسید