پورتالهای داده دولت باز (OGD)، به لطف وجود هزاران مجموعه داده جغرافیایی ارجاعشده، حاوی اطلاعات مکانی، برای هر تحلیل یا فرآیند مربوط به قلمرو بسیار مورد توجه هستند. برای اینکه این اتفاق بیفتد، کاربران باید بتوانند به این مجموعه دادهها دسترسی داشته باشند و دوباره از آنها استفاده کنند. عنصری که اغلب به عنوان مانع از انتشار کامل داده های OGD در نظر گرفته می شود، کیفیت ابرداده آنها است. با شروع یک بررسی تجربی انجام شده بر روی بیش از 160000 مجموعه داده جغرافیایی متعلق به شش پورتال ملی و بین المللی OGD، این کار به عنوان اولین هدف خود ارائه یک نمای کلی از استفاده از این پورتال ها است که از نظر مشاهده و بارگیری مجموعه داده ها اندازه گیری شده است. علاوه بر این، برای ارزیابی تأثیر احتمالی کیفیت فراداده بر استفاده از مجموعه دادههای مکانی، ارزیابی فراداده برای هر مجموعه داده انجام شد و همبستگی بین این دو متغیر اندازهگیری شد. نتایج بهدستآمده نشاندهنده استفاده ناکافی قابلتوجه از مجموعه دادههای مکانی و به طور کلی کیفیت پایین ابردادههای آنها بود. علاوه بر این، یک همبستگی ضعیف بین استفاده و کیفیت فراداده یافت شد، نه به گونه ای که با اطمینان ادعا کنیم که دومی عامل تعیین کننده اولی است.
کلید واژه ها:
داده های باز جغرافیایی ; استفاده از مجموعه داده ها ; کیفیت فراداده
1. مقدمه
جنبش دادههای باز (OD) نقش مهمی در بخش جغرافیایی بازی میکند، با معرفی یک تغییر پارادایم در عرضه و استفاده از دادههای جغرافیایی که به صورت رایگان، در قالبی قابل خواندن توسط ماشین و با حداقل محدودیت در استفاده مجدد ارائه میشود [ 1 , 2 ]. به عنوان مثال، این مورد در مورد حجم عظیمی از داده های ماهواره ای است که به طور آشکار توسط برنامه اتحادیه اروپا کوپرنیک ( https://www.copernicus.eu/it ) در دسترس قرار گرفته است. طی سالهای اخیر، هزاران مجموعه داده OD توسط دولتها و مؤسسات عمومی از طریق پورتالهای داده دولت باز (OGD) در سطوح ملی و بینالمللی (به عنوان مثال data.gov.uk، data.gov، و europeandataportal.eu) در وب منتشر شده است .). هدف این پورتال ها ارائه منابع دقیق، سازگار و معتبر برای ایجاد “ارزش افزوده” اقتصادی و اجتماعی است [ 3 ، 4 ]. گزارش اروپایی “ایجاد ارزش از طریق داده های باز” [ 5 ] مزایای قابل توجهی را از استفاده مجدد از OD، از جمله افزایش تعداد کاربران، تعداد و تنوع برنامه های تجاری، با تاثیر مثبت بر رشد اقتصادی و افزایش بیشتر پیش بینی کرد. توانایی رویارویی با چالش های اجتماعی یا محیطی
بخش geospatial یکی از بخش های اولیه بود که پیشرفت قابل توجهی در باز کردن داده ها داشت. در اوایل سال 2011، ابتکار داده های باز برای تاب آوری ( https://opendri.org/) شروع به استفاده از شیوه های OD برای رویارویی با آسیب پذیری در برابر خطرات طبیعی و اثرات تغییرات آب و هوا کرد. در حال حاضر، نمونههایی از OGD جغرافیایی (GOGD) توسط ابتکارات بینالمللی ارائه میشود، مانند برنامه کوپرنیک اتحادیه اروپا برای رصد زمین با پشتیبانی آژانس فضایی اروپا که حجم فزایندهای از دادههای ماهوارهای را در زمان واقعی برای نظارت بر اکوسیستم زمین، یا توسط ابتکارات ملی (به عنوان مثال، پورتال های ملی OD) که داده های مربوط به فعالیت های شهروندان را ارائه می دهد (به عنوان مثال، داده های ترافیک، حمل و نقل، آمارهای اجتماعی-اقتصادی). OD جغرافیایی را می توان بر اساس ارائه دهندگان آنها به سه نوع طبقه بندی کرد: OD مشارکتی (به عنوان مثال، داده های داوطلبانه [ 6 ]، OpenStreetMap)، OD معتبر، و OD علمی [ 1 ]]. اکثر OGD به شدت به اطلاعات مکانی (به عنوان مثال، مسیرهای ترانزیت، مجوزهای ساختمانی، آدرس حوزه قضایی) مرتبط است.
اگرچه ادبیات مزیت های بدون شک OD را به رسمیت می شناسد، اما هنوز موانع مختلفی در انتشار و استفاده از OD در مورد ارائه دهندگان داده (مایل به انتشار داده های خود) یا کاربران داده (ناتوان از استفاده آسان از داده ها در عمل) وجود دارد [ 7 ، 8 ]. همانطور که توسط یانسن و همکاران مشاهده شد. [ 9 ]، اگر OGD استفاده نشود ارزش محدودی دارد. با هدف درک استفاده از پورتال های OGD، در کار قبلی ما [ 10 ]، بر اساس یک ارزیابی تجربی از استفاده از مجموعه ای از پنج مجموعه داده پورتال OGD، به این نتیجه رسیدیم که آنها تا حد زیادی کمتر مورد استفاده قرار می گیرند و اشاره می کند که این موضوع به کاوش بیشتر نیاز دارد. تجزیه و تحلیل عوامل مؤثر احتمالی
فراداده (دادههای مربوط به دادهها) نقش مهمی در پورتالهای OGD برای تسهیل دسترسی کاربر و استفاده مجدد از طریق قابلیتهای جستجو و فیلتر بازی میکند [ 11 ، 12 ]. چندین استاندارد ابرداده برای تسهیل گردش داده ها در میان جوامع مختلف و سیستم های نرم افزاری پیشنهاد شده است. به عنوان مثال، W3C واژگان استانداردی مانند RDF ( https://www.w3.org/RDF/ )، DCAT ( https://www.w3.org/ns/dcat ) را برای تسهیل همکاری بین کاتالوگ های داده در وب توصیه می کند. [ 13 ، 14 ]، پسوند آن DCAT-AP ( https://joinup.ec.europa.eu/solution/dcat-application-profile-data-portals-europe) برای توصیف مجموعه داده های بخش عمومی در اروپا و GeoDCAT-AP ( https://joinup.ec.europa.eu/solution/geodcat-application-profile-data-portals-europe/about ) برای نمایش ابرداده های جغرافیایی در اروپا INSPIRE (مانند ISO، به عنوان مثال، ISO/TC211) ( https://www.iso.org/committee/54904/x/catalogue/ ) [ 15 ]، و OGC [ 16 ]. با این حال، در دسترس بودن این استانداردها به تنهایی تضمین نمی کند که ابرداده مناسب تولید و با مجموعه داده های مربوطه مرتبط شود. عوامل متعددی، مانند عدم مهارت توسط ارائه دهندگان ابرداده، یا فقدان ویرایشگرهای ابرداده با طراحی خوب، می توانند تولید ابرداده خوب را مختل کنند، بنابراین مانع استفاده مجدد از OGD می شوند [ 11 ، 17 ].]. این واقعیت توسط چندین مطالعه با هدف ارزیابی و نظارت بر عملکرد پورتال های OGD و همچنین کیفیت ابرداده آنها به خوبی تأیید شده است [ 13 ، 14 ، 18 ، 19 ، 20 ، 21 ]. به ویژه، نویمایر و همکاران. [ 14 ] یک چارچوب کیفیت فراداده برای ارزیابی پورتال های OGD بر اساس پلتفرم های مختلف ایجاد کرد. بر اساس نقشه برداری از طرح های مختلف ابرداده پلت فرم های پورتال به ابرداده W3C DCAT، آنها هفده معیار را برای ارزیابی کیفیت ابرداده پورتال OGD در سطح مجموعه داده پیاده سازی می کنند. ما از آن چارچوب برای ارزیابی کیفیت فراداده نمونه ای از مجموعه داده های GOGD استفاده می کنیم.
با توجه به ارتباط GOGD، هدف پژوهش حاضر بررسی استفاده از آنها، کیفیت فراداده آنها و وجود رابطه احتمالی بین آنهاست. تجزیه و تحلیل ما بر اساس نمونهای از شش پورتال ملی و بینالمللی OGD است که شامل بیش از 160000 مجموعه دادههای مکانی است که ابردادهها به صورت برنامهنویسی جمعآوری و تجزیه و تحلیل شدهاند تا اطلاعات استفاده و کیفیت را جمعآوری کنند. به عنوان اولین مشارکت، این کار روندهای استفاده از GOGD را مستند می کند. یافته های ما با مطالعه قبلی ما مطابقت دارد [ 10 ]، و نشان می دهد که بیشتر مجموعه داده ها به ندرت مشاهده و دانلود می شوند. سهم دوم، ارزیابی کیفیت فراداده GOGD است، بر اساس چارچوب ارائه شده در [ 14]. به استثنای یک استثنا، ارزیابی، مقادیر متوسط کیفیت کلی پایین و متوسط را برای پورتال های در نظر گرفته به دست آورد. به عنوان سهم نهایی، تجزیه و تحلیل رابطه بین استفاده از مجموعه دادههای GOGD و کیفیت ابردادههای آنها همبستگی ملایمی را بین دو متغیر نشان داد (و نه در همه موارد). به نظر ما، این واقعیت را تأیید نمی کند که کیفیت فراداده مطمئناً می تواند بر استفاده از مجموعه داده های مکانی تأثیر بگذارد.
2. پس زمینه
2.1. داده های باز جغرافیایی، فرصت ها و نیازهای کاربر
در حوزه جغرافیایی، پارادایم OD فرصتی را برای ترویج دموکراتیک کردن اطلاعات جغرافیایی، دولت ها و نهادهای شفاف [ 22 ]، و همچنین فرصت های اجتماعی، اقتصادی و محیطی ارائه می دهد. پورتال داده اروپا بینش هایی از نمونه های متعددی از برنامه هایی ارائه می دهد که از OD مکانی برای ارائه خدمات به شهروندان استفاده می کنند ( https://www.europeandataportal.eu/en/using-data/use-cases ، آخرین دسترسی: 20 ژوئیه 2020). به طور سنتی، دسترسی به دادههای جغرافیایی دولتی به دلیل نرمافزار و دادههای اختصاصی، فرآیندی پیچیده و پرهزینه بود. ارائه دادههای دولتی بهصورت باز نشاندهنده تغییر قابلتوجهی برای کاربر است که میتواند به دادههایی که معمولاً به صورت رایگان ارائه میشوند با حداقل محدودیت در استفاده مجدد دسترسی داشته باشد [ 8 ]، 23 ]. کوتز و همکاران [ 1 ] دیدگاهی را در مورد اینکه چگونه در چند دهه اخیر، حوزه جغرافیایی به طور فزاینده ای OD را پذیرفته است، پیشرفت های قابل توجهی در این زمینه، و نحوه باز بودن نحوه جمع آوری، پردازش، تجزیه و تحلیل و تجسم داده های مکانی را تغییر داده است.
موفقیت اکوسیستمهای OD تا حد زیادی به شناسایی موانع و ویژگیهای کلیدی، چالشهای پیادهسازی، روند استفاده از مجموعه دادهها و موارد تأثیرپذیری از آنها بستگی دارد [ 24 ، 25 ، 26 ، 27 ]. گونزالس و همکاران [ 28] یک مرور ادبیات سیستماتیک در مورد OGD ارائه می کند که بسیاری از روابط ضمنی بین چهار عامل استفاده از OGD را شناسایی می کند: انواع مختلف استفاده، اثرات استفاده، شرایط کلیدی، و کاربران مختلف. چنین رابطه ای ممکن است به درک اینکه آیا و چگونه وعده مزایای OGD می تواند محقق شود کمک کند. سهولت استفاده، سودمندی، و همچنین شفافیت، مشارکت و انتظارات همکاری به طور قابل توجهی قصد شهروندان را برای استفاده از OGD تعیین می کند [ 29 ]. در مورد استفاده مجدد از داده های جغرافیایی باز، Degbelo و همکاران. [ 30] ادبیات موجود در مورد شهرهای هوشمند و باز را مرور کنید و چالش ها و فرصت های کلیدی را با دیدگاه شهروند محور شناسایی کنید. توانمندسازی شهروندان برای استفاده کامل از OD موجود، روشی امیدوارکننده برای تقویت نوآوری و راه حل های شهروند محور برای شهرها است. جانسون و همکاران [ 2 ] موانع اقتصادی و مدنی را تحلیل کرده و استفاده از هکاتون های مدنی را به عنوان روشی جدید برای تعامل دولت محلی و شهروند پیشنهاد می کند. بنیتز و همکاران [ 31 ] تاکید میکند که مرتبطترین مسائلی که مانع استفاده مجدد از دادهها میشود، مربوط به دادههای قدیمی، مشکل در دسترسی، تفسیر نادرست و سوء استفاده از دادهها و شرایط استفاده از آنها است. آنها یک طبقه بندی از این موانع را برای کلمبیا و اسپانیا پیشنهاد می کنند. منیتز-پائز و همکاران. [ 32] یک چارچوب مفهومی برای کمک به مقامات محلی برای تعریف مجدد استراتژیهای OD فعلی و بهبود سطوح قابلیت استفاده مجدد در پرتو الزامات کاربر پیشنهاد میکند. رویجر و همکاران [ 33 ] یک مطالعه مشخص در مورد استفاده از OGD بر اساس ابتکارات مشترک بین کارمندان دولت و شهروندان ارائه میکند: آنها نیاز به یک چارچوب شناختی مشترک برای درک OD و همچنین نیاز به مجموعههای داده با کیفیت بالا را برجسته میکنند.
علاوه بر راهحلهای فوق که اساساً مبتنی بر مشارکت مستقیم کاربر است، Degbelo [ 34 ] یک طبقهبندی اولیه برای نیازهای کاربر OD را معرفی میکند، که میتواند به ارائهدهندگان داده برای طراحی پورتالهای «تقاضا محور» و پیادهسازی ابزارهای ارزیابی برای تسهیل استفاده مجدد از دادهها کمک کند. نیازهای کاربر برای تولید مستندات دقیق که قادر به پشتیبانی از فعالیت جستجوی اطلاعات هستند، اساسی در نظر گرفته می شوند [ 35 ]. زو و همکاران [ 36] 34 پورتال داده باز شهرداری ایالات متحده را با یک “چارچوب تعامل کاربر” ارزیابی کنید که یک امتیاز عملکرد کلی را تعریف می کند. نتایج آنها نشان داد که پورتال ها از نظر ارائه دسترسی عملکرد خوبی دارند، اما در کمک به کاربران برای درک و تعامل با داده ها چندان خوب نیستند. نویسندگان مشاهده میکنند که پلتفرمهای پورتالها برای دستیابی به تعامل و مشارکت بیشتر کاربر نیاز به بهبود دارند، و نشان میدهد که «تحقیقات بیشتری برای درک اینکه چه کسی از پورتالها و دادهها و برای چه اهدافی استفاده میکند، مورد نیاز است». کار حاضر به دنبال پاسخ به یک سوال کمی متفاوت، اگرچه مرتبط است: “روند استفاده از پورتال های GOGD، که به عنوان تعداد مجموعه داده های جغرافیایی مشاهده شده (و دانلود شده) توسط کاربران اندازه گیری می شود، کدام است؟”
2.2. ارزیابی کیفیت پورتال های OGD
از طریق پلتفرمهای نرمافزاری خاص، مدیران پورتالهای OGD دادههای عمومی را مطابق با خطمشیهای انتشار در ادارات خود در دسترس قرار میدهند. در میان پلتفرمهای پذیرفتهشده در پورتالهای OGD، CKAN منبع باز و Socrata تجاری از نظر تعداد [ 20 ، 37 ] برجسته هستند. این پلتفرمها اکوسیستمهای ابرداده، سیستمهای مدیریت داده، امکانات جستجو و مرور و همچنین APIهایی را فراهم میکنند که با آنها میتوان بهصورت برنامهنویسی از پورتالها برای دانلود هم ابرداده و هم مجموعه دادهها پرس و جو کرد [ 37 ]. با این حال، چارچوبهای نرمافزاری مختلف، طرحوارههای ابرداده و روشهای مختلف تجسم محتوا را ارائه میکنند [ 7 ، 8 ، 38 ، 39 ]]. به عنوان مثال، تمام پورتال های مبتنی بر Socrata محتویات مجموعه داده ها را به صورت جدولی ارائه می دهند، در حالی که در CKAN، کاربر تنها با دانلود یک یا چند فایل در قالب های مورد نظر به محتوای مجموعه دسترسی پیدا می کند. Socrata همیشه داده های استفاده را در حالی که در CKAN است فقط با انتخاب مدیران پورتال نمایش می دهد.
ویژگی های اصلی پورتال OGD مانند جستجوی کلیدواژه و فیلتر کردن بر اساس اصطلاحات فراداده (به عنوان مثال، دسته موضوع، انواع داده، قالب و مجوز) با هدف بهبود دسترسی به داده ها. بنابراین، ابردادههای با کیفیت خوب برای حمایت از کشف و دسترسی به مجموعههای داده GOGD و استفاده مجدد از آنها از اهمیت بالایی برخوردار هستند. چندین مطالعه عملکرد پورتال OGD و کیفیت ابرداده های آنها را بررسی کرده اند [ 8 ، 12 ، 13 ، 14 ، 18 ، 19 ، 20 ، 22 ، 40 ، 41 ]. برخی از راه حل های آنها بر اساس مدل پنج ستاره برای داده های باز پیوندی (https://www.w3.org/DesignIssues/LinkedData.html ) همانطور که توسط تیم برنرز لی پیشنهاد شده است [ 21 ، 42 ]، و همچنین در مورد هشت اصل داده دولت باز ( https://public.resource.org/ ) 8_principles.html ). به عنوان مثال، ابزار تضمین کیفیت فراداده (MQA) موجود در پورتال داده اروپا، اعتبار سنجی ابرداده را در برابر مشخصات داده های پیوندی DCAT-AP برای افزایش قابلیت همکاری و دسترسی OD فراهم می کند و به طور دوره ای بررسی های کیفیت فراداده را در برابر شاخص های مختلف به دست آمده از FAIR اجرا می کند. ( https://www.go-fair.org/fair-principles/ ) اصول [ 21]. با این وجود، این ابزار منحصراً به بررسی فراداده های جمع آوری شده در پورتال داده اروپا محدود است. ویلکینسون و همکاران، بر اساس اصول FAIR [ 43 ]، چارچوبی را طراحی کرده اند [ 44 ]] و “ابزار خدمات ارزیابی عادلانه” را با اجرای 22 معیار برای ارزیابی انطباق یک منبع وب با این اصول توسعه داد. از طریق این ابزار، کاربران می توانند برای ارزیابی عادلانه بودن یک منبع (وب) معین، تمام 22 معیار FAIR یا یکی از چهار زیر گروه را انتخاب کنند. با هدف استفاده از این ابزار برای تجزیه و تحلیل تجربی خود، آن را بر روی چندین مجموعه داده از پورتال های OGD مختلف آزمایش کردیم. با این حال، از آنجایی که زمانهای پاسخ حداقل 5 دقیقه را با پیکهای 30 دقیقه یا بیشتر اندازهگیری کردیم، برای ارزیابی یک مجموعه داده، فرضیه اولیه استفاده از ابزار FAIR را به دلیل تعداد زیادی مجموعه داده در نمونه خود رد کردیم. “دیده بان پورتال داده باز” [ 14]، یک چارچوب ارزیابی و نظارت بر کیفیت فراداده، صدها پورتال OGD را پردازش میکند که فرادادههای خود را به DCAT نگاشت میکنند و مجموعه بزرگی از ابعاد/متریکها را مستقل از پلتفرمهای انتشار (CKAN، Socrata و OpenDataSoft) ارزیابی میکنند. برای ارزیابی کیفیت فراداده مجموعه دادههای نمونه پورتال OGD خود، بر این پیادهسازی چارچوبی تکیه کردیم که برای بازیابی اطلاعات استفاده از مجموعه دادهها و تولید تجزیه و تحلیل طراحی کردیم.
علاوه بر این، برخی از ابتکارات بین المللی بر ارزیابی و رتبه بندی پورتال های OGD تحت دیدگاه های مختلف متمرکز شده اند. شاخص جهانی داده های باز (GODI) ( https://index.okfn.org )، توسعه یافته توسط Open Knowledge International، وضعیت OGD را ردیابی می کند و کشورهایی را که داده ها را به درستی و به موقع منتشر می کنند، شناسایی می کند. شاخص OURdata ( https://www.oecd.org/gov/digital-government/ourdata-index-policy-paper-2020.pdf )، که توسط سازمان همکاری اقتصادی و توسعه ایجاد شده است، تلاش های دولت ها را برای OD را در سه حوزه حیاتی Openness، Usefulness و Re-usability پیاده سازی کنید. OpenDataMonitor ( https://opendatamonitor.eu) نمای کلی از چشم انداز EU OD ارائه می دهد که تجسم هایی را در سطح اتحادیه اروپا و برای کاتالوگ های مختلف ارائه می دهد. فشارسنج داده های باز ( https://opendatabarometer.org )، که توسط بنیاد وب جهانی توسعه یافته است، تصویری از اقدامات OGD با تمرکز بر آمادگی OD، پیاده سازی، و تأثیرات در حال ظهور ارائه می دهد. همه این فعالیتها نشان میدهند که بهبودهای مهمی باید برای افزایش باز بودن، قابلیت همکاری و قابلیت استفاده در بسیاری از کشورها به استثنای بریتانیا، کانادا و ایالات متحده که به دلیل بلوغ اکوسیستم OGD خود مشهور هستند، انجام شود.
با وجود ابتکارات و مطالعات متعدد با هدف تجزیه و تحلیل عملکرد پورتال های OGD و کیفیت ابرداده های آنها، کمی برای تجزیه و تحلیل (کمی) استفاده واقعی آنها انجام شده است. تا آنجا که می دانیم، رابطه بین کیفیت فراداده OGD و استفاده از آنها به صورت تجربی بررسی نشده است. در رابطه با مجموعه داده های مکانی بسیار کمتر انجام شده است.
3. مواد و روشها
برای ارزیابی استفاده از GOGD و کیفیت فرادادههای آن، با در نظر گرفتن بیشتر پورتالهای ملی OGD امروزی شروع کردیم. ما تعدادی پورتال بین المللی را اضافه کردیم تا پوشش ناهمگون پورتال ها با سیستم های اداری مختلف را ارائه دهیم. در میان آنها، ما مواردی را انتخاب کردیم که اطلاعات استفاده از ویرایش، عمدتاً تعداد بازدیدها و بارگیری مجموعههای داده را ارائه میدهند، و APIهایی را برای بازیابی برنامهای این اطلاعات ارائه کردیم. با توجه به تجزیه و تحلیل کیفیت فراداده های دانلود شده از طریق API، ما به چارچوب تکنولوژیکی پیشنهاد شده در [ 14 ] متوسل شدیم و آن را یکپارچه کردیم و گسترش دادیم تا از میان تمام مجموعه داده های هر پورتال، فقط آنهایی را انتخاب کنیم که به صراحت با اطلاعات مکانی مشخص می شوند.
3.1. شناسایی پورتال داده را باز کنید
ما دو نوع پورتال OGD را بر اساس پوشش اداری آنها در نظر گرفتیم: ملی و بین المللی. در مورد اولی، ما با بررسی 94 پورتال ملی طبقهبندی شده توسط شاخص GODI در سال 2016/2017 و چهار پورتال از کشورهای دیگر (کره، اسپانیا، ایرلند، استونی) که در GODI در نظر گرفته نشدهاند اما در OECD OURdata Index قرار گرفتهاند، شروع کردیم. طبقهبندی هر دو در سال 2017 نسبت به سال 2019 انجام شد. پورتالها برای انتخاب مواردی که معیارهای مشاهده و دانلود را ارائه میکنند، تجزیه و تحلیل شدند. اول از همه، در سطح پورتال وب، و از این میان، آنهایی که d API را برای بازیابی خودکار این مقادیر استفاده ارائه می دهند. این انتخاب منجر به شناسایی هشت پورتال ملی شد: ایالات متحده، کلمبیا، ایرلند، اسلوونی، لهستان، فرانسه، لتونی و پورتوریکو. از اینها، ما یک زیرمجموعه پورتال را نگه داشته ایم که درصدی از مجموعه داده های جغرافیایی حداقل 5٪ از کل و به ترتیب چند صد را منتشر می کند. این منجر به شناسایی سه پورتال شد: پورتال ایالات متحده، کلمبیا و ایرلند. ما لتونی و پورتوریکو را به دلیل تعداد کم مجموعه دادههای کلی، به ترتیب 336 و 178 حذف کردیم. ما اسلوونی را رد کردیم زیرا هیچ دستهای به طور صریح به مجموعههای دادههای جغرافیایی اشاره نمیکند، و قالبهای داده عمدتاً به قالب PCAXIS (98٪) اشاره دارد که برای آمار استفاده میشود. اطلاعات حتی پورتال لهستانی هیچ دسته بندی داده ای را که به طور صریح برای داده های جغرافیایی هدف گذاری شده است ارائه نمی دهد و مجموعه داده های بسیار کمی را با قالب های داده جغرافیایی منتشر می کند ( ما لتونی و پورتوریکو را به دلیل تعداد کم مجموعه دادههای کلی، به ترتیب 336 و 178 حذف کردیم. ما اسلوونی را رد کردیم زیرا هیچ دستهای به طور صریح به مجموعههای دادههای جغرافیایی اشاره نمیکند، و قالبهای داده عمدتاً به قالب PCAXIS (98٪) اشاره دارد که برای آمار استفاده میشود. اطلاعات حتی پورتال لهستانی هیچ دسته بندی داده ای را که به طور صریح برای داده های جغرافیایی هدف گذاری شده است ارائه نمی دهد و مجموعه داده های بسیار کمی را با قالب های داده جغرافیایی منتشر می کند ( ما لتونی و پورتوریکو را به دلیل تعداد کم مجموعه دادههای کلی، به ترتیب 336 و 178 حذف کردیم. ما اسلوونی را رد کردیم زیرا هیچ دستهای به طور صریح به مجموعههای دادههای جغرافیایی اشاره نمیکند، و قالبهای داده عمدتاً به قالب PCAXIS (98٪) اشاره دارد که برای آمار استفاده میشود. اطلاعات حتی پورتال لهستانی هیچ دسته بندی داده ای را که به طور صریح برای داده های جغرافیایی هدف گذاری شده است ارائه نمی دهد و مجموعه داده های بسیار کمی را با قالب های داده جغرافیایی منتشر می کند (https://gisgeography.com/gis-formats/به عنوان مثال، تنها شش مجموعه داده در قالب شکل (یعنی ‘.shp’) وجود دارد که معمولا برای داده های مکانی برداری استفاده می شود، و شش مجموعه در قالب ‘jpg’ برای نقشه های شطرنجی استفاده می شود. توزیع مجموعه دادهها با توجه به قالبها، شیوع html، xls، xlsx و csv را نشان میدهد (90%) و سپس چندین قالب دیگر با تعداد کمی وجود دارد. ما پورتال فرانسوی را وارد نکردیم، اگرچه بیش از نیمی از مجموعه دادههای خود را بر اساس قالب «.shp» منتشر میکند (20858 از مجموع 39412 مجموعه داده)، زیرا یک آمار اولیه نشان داد که حداقل تعداد بسیار کمی از این مجموعه دادهها مشاهده میشوند. یک بار. به طور دقیق تر، چارک 3 برابر با 1 است و حتی صدک 95 برابر با هفت نمایش است (حدود 1000 مجموعه داده، تقریباً 2.5٪ از کل). برای متعادل کردن نسبت پورتال های ملی و بین المللی نمونه ما، و حفظ اهداف طراحی یکسان (به عنوان مثال، درصدی از مجموع و تعداد زیادی مجموعه دادههای جغرافیایی)، ما سه پورتال بینالمللی را انتخاب کردیم که به نظر ما سودمندی عمومی و قابل توجه است، حتی برای ناهمگونی این پورتالها در سه بخش موضوعی: هوافضا، قانونگذاری و بشردوستانه. این ناهمگونی میتواند تفاوتها یا شباهتها را در رفتار کاربر، در اصل، با علایق و نیازهای مختلف آشکار کند. پورتال تبادل داده های بشردوستانه (HDX) که توسط UN-OCHA مدیریت می شود، با هدف به اشتراک گذاری داده ها در مورد بحران های بشردوستانه در کشورهای مختلف است. پورتال داده های باز اتحادیه اروپا (EUODP) امکان دسترسی به داده های باز منتشر شده توسط موسسات و ارگان های اتحادیه اروپا را فراهم می کند. پورتال ناسا حدود 10000 مجموعه داده ناسا را جمع آوری و در دسترس عموم قرار می دهد، داده های جمع آوری شده از آرشیوهای مختلف (مانند سیستم داده های سیاره ای، ملی اقیانوس شناسی، و آژانس اتمسفر). همه این پورتال ها امکان بازیابی داده های استفاده را از طریق API فراهم می کنند.
از شش پورتالی که قبلاً شناسایی شده بود، ما آن مجموعه دادههایی را استخراج کردیم که به نحوی قابل شناسایی هستند که حاوی اطلاعات مکانی هستند. این اسکیمینگ بر اساس معیارهای فیلترینگ خاص ارائه شده توسط هر پورتال، اعمال فیلترهای دسته بندی، در صورت وجود، یا فیلترهایی در نوع یا قالب مجموعه داده شده است. در مورد پورتال های ایالات متحده، کلمبیا، HDX و ناسا، ما به ترتیب اصطلاحات طبقه بندی شده “geospatial”، “map”، “geodata” و “Earth Sciences” را در نظر گرفتیم. هنگامی که مقوله بهصراحت وجود نداشت، مجموعه دادههای مکانی براساس قالب داده انتخاب میشدند، برای مثال با فیلتر کردن دادههای موجود در قالبهای geoJSON، KML، WFS، GML، و WMS، برای پورتال ایرلندی. یا، با کلمات کلیدی، به عنوان مثال، “جغرافیایی”، “تصویر ارتو”، و “داده های مکانی” برای EUODP. جمع آوری داده ها در دسامبر 2019 انجام شد. این دادهها تصویری از استفاده کلی از مجموعه دادههای شش پورتال، از نظر کل بازدیدها و بارگیریها، تا آن لحظه ارائه میدهند. ما ابردادههای همه مجموعه دادههای این پورتالها را همراه با استفاده و مقادیر کیفیت ارزیابیشده بهعنوان Open Data در مخزن OD Zenodo ارائه کردهایم.45 ].
نتیجه انتخاب در جدول 1 نشان داده شده است .
همانطور که از جدول 1 مشاهده می شود ، درصد مجموعه داده های مکانی بازیابی شده با توجه به کل در پورتال ها متفاوت است: از حدود 60٪ ایالات متحده تا حدود 5٪ برای کلمبیا، با درصد 50٪ با در نظر گرفتن تعداد کلی مجموعه داده های شش پورتال در نمونه ما.
3.2. معیارهای استفاده
از تجزیه و تحلیل پورتال هایی با هدف انتخاب آنهایی که اطلاعات استفاده از مجموعه داده ها را در دسترس قرار می دهند، مشخص شد که در صورت وجود، دو مقدار عمدتاً نمایش داده می شود: تعداد بازدیدها و گاهی اوقات تعداد بارگیری ها. بنابراین، تجزیه و تحلیل ما از روند استفاده از GOGD بر اساس این دو معیار استفاده بود [ 46 ، 47 ]. منظور ما از Views “تعداد کل دفعاتی که صفحه یک مجموعه داده در مرورگرهای کاربران بارگذاری شده است” و ” دانلودها ” “تعداد کل درخواست های کاربران برای بازیابی محتوای کامل یک مجموعه داده خاص” [ 48 ] است.]. این مقادیر کل استفاده را میتوان توسط APIهای پورتال برگرداند و به همراه سایر ابردادههای مجموعه داده در صفحه دسترسی به مجموعه دادهها یافت میشوند. پلتفرمهای CKAN و Socrata میتوانند با توجه به روشهای مورد بحث در بخش بعدی بازگردند. این دو مقدار از طریق APIها ابرداده های مرتبط با مجموعه داده های پورتال را بازیابی می کنند.
3.3. استفاده از بازیابی متریک
دادههای استفاده پورتالها با بهرهبرداری از APIهای کشف ابرداده ارائه شده توسط پلتفرمهای پورتال CKAN و Socrata بازیابی شد. محتوای فراداده استخراج و در پایگاه داده PostgreSQL برای تجزیه و تحلیل بعدی ذخیره شد. همه کدها در پایتون نوشته شده اند، همچنین برای ادغام آسان تر با کد پلت فرم ارزیابی کیفیت شخص ثالث اتخاذ شده (به بخش بعدی مراجعه کنید). در ادامه ویژگیهای اصلی مربوط به تعامل با این APIها را خلاصه میکنیم.
اطلاعات مربوط به تعداد بازدیدهای یک مجموعه داده را می توان از طریق API CKAN به دست آورد، محتوای یک فیلد خاص به نام tracking_summary را استخراج کرد (از نسخه 2.7.3، فراخوانی API package_show، tracking_summary، کلیدهای مجموعه داده، یا منابع بهطور پیشفرض دیگر)، که به نوبه خود حاوی یک جفت مقدار کل و اخیر است (یعنی بازدیدها در 14 روز گذشته). با توجه به تعریف ما از Views ، کل را در نظر گرفتیممقدار برای ارزیابی استفاده از مجموعه داده CKAN. این مقادیر تنها در صورتی برگردانده می شوند که توسط مدیران پورتال در سمت سرور مجاز باشند. با چرخش در کل لیست مجموعه داده های پورتال، وضعیت کلی نماها ممکن است بازیابی شود. در واقع، APIهای CKAN فقط اطلاعات دادهها را برمیگردانند و اطلاعات دانلودها را ندارند. پورتالی مانند Humanitarian Data Exchange (HDX)، مبتنی بر پسوند CKAN، بارگیریها را همراه با تعداد بازدیدها برمیگرداند.
در مقایسه با APIهای CKAN، RESTful Socrata Open Data API (SODA ( https://dev.socrata.com/ )) مجموعه کوچکتری از فیلدهای فراداده را در مقایسه با مورد بازیابی شده توسط CKAN بازیابی می کند. برای مثال، قالبهای قابل دانلود محتوای مجموعه داده گزارش نشده است. با این حال، برعکس CKAN، ابرداده های برگردانده شده توسط SODA همچنین شامل تعداد کل دانلودها ( download_count ) به همراه تعداد کل بازدیدها ( page_views ) است که دقیقاً با معیارهای بازدیدها و دانلودها مطابقت دارد .
3.4. ارزیابی کیفیت فراداده GOGD
کیفیت داده «مفهومی چند وجهی» است که شامل چندین بعد است [ 49 ]، که در آن یک بعد کیفیت را می توان به عنوان مجموعه ای از «ویژگی های کیفی که یک جنبه یا ساختاری از کیفیت داده را نشان می دهد» [ 50 ] مشاهده کرد. یک متریک کیفیت برای اندازه گیری جنبه خاصی از یک بعد معین استفاده می کند. ابعاد و معیارهای کیفیت در ارزیابی اینکه آیا یک قطعه داده نیازهای کاربران اطلاعات را برآورده میکند [ 34 ] در یک موقعیت خاص، مرکزی هستند [ 51 ]. برای ارزیابی کیفیت فراداده نمونه پورتال های OGD، ما به کد پلت فرم «Open Data Portal Watch» ( https://github.com/sebneu/portalwatch)، بر اساس روش شناسی و معیارهای تعریف شده در [ 14 ]. این پلتفرم ابرداده مجموعه دادهها را که توسط APIهای پورتالهای مختلف بازیابی میشود، با استاندارد DCAT W3C ترسیم میکند و 17 معیار کیفیت را برای ارزیابی انطباق فراداده جذب شده با الزامات DCAT پیادهسازی میکند. چنین معیارهایی به سه بعد کیفیت مربوط می شود: (1) وجود : “آیا زمینه های فراداده خاصی وجود دارد؟”; (ii) انطباق : “آیا مقادیر فراداده به قالب خاصی پایبند هستند؟”؛ (iii) Data Open : “آیا قالب مشخص شده و اطلاعات مجوز می تواند یک مجموعه داده را به عنوان باز طبقه بندی کند؟”. هشت وجودمعیارها ارزیابی می کنند که آیا ابرداده اطلاعات مفیدی برای کشف (یعنی شرح مجموعه داده، عنوان، برخی کلمات کلیدی وجود دارد؟) و دسترسی (به عنوان مثال، آیا URI برای دسترسی و دانلود وجود دارد؟) به مجموعه داده مرتبط، برای تماس با مالک یا ناشر ارائه می دهد. . وجود اطلاعات مجوز و همچنین تاریخ ایجاد و اصلاح فراداده و مجموعه داده نیز ارزیابی میشود. معیار حفظ ، در دسترس بودن اطلاعات فراداده را در رابطه با قالب، اندازه و فرکانس بهروزرسانی مجموعه دادهها ارزیابی میکند. فضایی و زمانی _معیارها (فقط در کد چارچوب اعلام و اجرا میشوند) مشخص میکنند که آیا برخی از اطلاعات مکانی (مثلاً چند ضلعی، شکل، …) یا زمانی (مثلاً شروع یا پایان دوره زمانی تحت پوشش مجموعه داده) وجود دارد، به دنبال دادههای مکانی. در بهترین شیوه های وب (SDW) ( https://www.w3.org/TR/sdw-bp ) که توسط گروه کاری مشترک W3C-OGC منتشر شده است. شش معیار انطباق اعتبار نحوی URI دسترسی، آدرس ایمیل تماس و URI و قالب تاریخ را ارزیابی می کند. انطباق مجوز با تجزیه و تحلیل لیستی از توضیحات مجوز ارائه شده توسط Open Definition بررسی می شود ( https://licenses.opendefinition.org/licenses/groups/all.jsonو اعتبار فرمت فایل با فهرستی از قالبهای ثبتشده و انواع رسانه ارائهشده توسط IANA ( https://www.iana.org/assignments/media-types/media-types.xhtml ) بررسی میشود. در مورد سه معیار باز بودن داده ، آنها انطباق مجموعه دادهها را با تعریف باز (دانش) ( https://opendefinition.org/od/2.1/en/ ) بررسی میکنند و ارزیابی میکنند که آیا مجموعه دادهها در یک ماشین خوانا و باز ارائه شدهاند یا خیر. فرمت و طبق یک مجوز باز.
ارزیابی کیفیت در مجموعه دادههای مکانی هر پورتال انجام شد که منجر به یک واحد، بولی یا شناور (در محدوده [0،1]) شد. v m�مترمقدار برای هر متریک برای هر مجموعه داده، پس از تبدیل مقادیر بولی به 0 و 1، ما 17 معیار را با توجه به روش تصمیم گیری وزن افزودنی ساده (SAW) با تخصیص وزن مساوی جمع آوری کردیم ( wj= 1/17 _ _��=1/17) به هر متریک، بنابراین منجر به یک ارزش کلی کیفیت فراداده مجموعه داده می شودo m q=∑17j = 1m v j ∗wj�متر�=∑�=117متر��∗��، o m q∈ [ 0 , 1 ]�متر�∈[0،1].
کد پلتفرم «Open Data Portal Watch» با کد استخراج استفاده ما ادغام شد و برای توسعه و تولید تجزیه و تحلیل و گزارش گسترش یافت.
ما اشاره می کنیم که برای ارائه تصویری تا حد امکان تحلیلی از کیفیت پورتال ها و استفاده از آنها، ارزیابی کیفیتی که ما انجام داده ایم ذاتاً عینی است (معروف به ساختاری)، قابل اندازه گیری از طریق ویژگی های فیزیکی بی طرفانه (مثلاً تعداد اقلام، نسبت) پورتال های OGD. جنبههای ذهنی (معروف به زمینهای) را نادیده گرفته است، که قادر به در نظر گرفتن نیازها و اهداف کاربران و اطلاعرسانی به انتخابهای استفاده آنها است [ 52 ]، اما نمیتوان آنها را با نوع تحقیق تجربی اندازهگیری کرد، مانند آنچه که توسط ما پیشنهاد شده است که به صورت برنامهای ارزیابی میکند. تعداد زیادی مجموعه داده متعلق به ادارات و سازمان های دولتی مختلف، بر اساس ابرداده هایی که ارائه می کنند.
4. نتایج
تجزیه و تحلیل انجام شده در پورتال های فهرست شده در جدول 1 بر دو جنبه متمرکز است: روند استفاده از مجموعه داده های مکانی، که به عنوان تعداد بازدیدها و دانلودها اندازه گیری می شود، و کیفیت ابرداده آنها.
4.1. استفاده از داده های باز جغرافیایی
شکل 1 فرکانس نماها را برای مجموعه داده های جغرافیایی شش پورتال در نظر گرفته نشان می دهد که مجموع نماها را تا دسامبر 2019 محاسبه می کند.
همه منحنی ها از توزیع دم سنگین با فرکانس استفاده بالا با تمرکز بر مجموعه داده های بسیار کمی پیروی می کنند و بیشتر آنها با فرکانس بسیار پایین.
آمار توصیفی در جدول 2با وجود روند عمومی رایج، تأیید بیشتری ارائه دهید و به ما کمک کنید تا برخی از تفاوتهای بین پورتالها را برجسته کنیم. مقادیر بسیار پایین استفاده در تمام آمار پورتال های ایالات متحده آمریکا، HDX و ناسا به ویژه شگفت انگیز است. دو ربع اول نشان می دهد که تقریباً 50٪ از مجموعه داده های آنها به سختی مشاهده می شود (با بالاترین میانگین برابر با 15 برای پورتال ایالات متحده) و 25٪ دیگر فقط بیشتر بازدید شده است (با بالاترین ربع سوم 22 برای ایالات متحده). این واقعیت به ویژه در مورد ایالات متحده با توجه به اندازه جمعیت آن و همچنین پورتال آن که به بیش از 200000 مجموعه داده ارائه شده توسط صدها منبع داده افزایش یافته است و سنت تمام عیار آن در توجه به OD غیر منتظره است. که به سرعت آن را به یک ابتکار شاخص دولت داده باز تبدیل کرد و نمونه ای برای سایر کاتالوگ های داده های دولتی است که از سال 2009 در سراسر جهان باز شده اند. در این مورد، یک دلیل ممکن است این باشد که چندین مجموعه داده از فعالیتهای کالیبراسیون/ اعتبارسنجی یا در پورتال ناسا در دسترس هستند، اما میتوان از چندین پلتفرم، به عنوان مثال، از طریق صفحات خاص مأموریت، یا از طریق پورتالهایی مانند «بهنظر میرسد» دسترسی پیدا کرد. “(https://lpdaacsvc.cr.usgs.gov/appeears )، «earthdata» ( https://search.earthdata.nasa.gov )، یا «NOAA» ( https://www.ncdc.noaa.gov/cdo ) -web )، که همه آنها در بسیاری از موارد، تجسم مکانی پیشرفته و ویژگی های بارگیری را برای مجموعه داده های مشابه ارائه می دهند. این واقعیت ممکن است تعداد بازدید/دانلود را در بین هر پورتال توزیع کند. در عوض، مقادیر بسیار پایین برای HDX را می توان با این واقعیت توضیح داد که تعداد مجموعه داده های منتشر شده آن در حدود نه ماه دو برابر شد، همانطور که ما متوجه مقایسه مقادیر جمع آوری شده در اواخر مارس 2019، در کار قبلی خود شدیم [ 10 ]]، به مورد موجود در پایان دسامبر 2019. به همین دلیل، منطقی است که انتظار داشته باشیم بیش از نیمی از این مجموعه داده ها زمان کمی برای مشاهده توسط کاربران داشته باشند. با این حال، به این ملاحظات، باید اضافه کرد که نمونه قبلی نیز مقادیر استفاده بسیار کاهش یافته ای را ارائه کرد. سه پورتال دیگر بسیار بهتر هستند و مقادیری را برای سه ربع حتی دو مرتبه بزرگتر نشان می دهند. پورتال های کلمبیا و اتحادیه اروپا از این نظر برجسته هستند.
در مورد نشانگر توزیع دانلودها، از آنجایی که توسط API ها فقط برای پورتال های کلمبیا، HDX و ناسا برگردانده می شود، ما در شکل 2 و جدول 3 فقط منحنی های توزیع و آمار این سه پورتال را گزارش می دهیم که کل دانلودها را به خود اختصاص می دهد. تا دسامبر 2019.
مقایسه این نمودارها و داده ها با نمودار مربوط به تعداد نمایش ها ( شکل 1 و جدول 2، میانگین تعداد دانلودها به طور قابل توجهی کمتر از تعداد بازدیدها است، و در مورد دو پورتال بین المللی، تعداد دانلودها برای هر سه چهارم 0 است، مقادیر میانگین دانلودها به ترتیب 64 (std 373) برای کلمبیا است. (در مقایسه با میانگین 1251 بازدید)، 0.6 (std 2.2) برای HDX (در مقابل میانگین 25 بازدید)، و 19 (std 338) برای ناسا (در مقابل میانگین 113 بازدید). برای دو پورتال مبتنی بر سقراط (یعنی کلمبیا و ناسا) و به ویژه برای پورتال کلمبیا، تفاوت بین بازدیدها و دانلودها می تواند ناشی از این واقعیت باشد که Socrata کل محتوای مجموعه داده را به شکل جدول نشان می دهد. ما معتقدیم که چنین در دسترس بودن می تواند نیاز کاربران به دانلود بیشتر مجموعه داده ها را کاهش دهد، پس از اینکه آنها قبلاً محتوای خود را به طور کامل تجسم کردند. علاوه بر این، کاهش تعداد دانلودهای مجموعه داده های ناسا را می توان مشابه آنچه برای Views مشاهده شد توضیح داد، یعنی تعداد متفاوت پورتال هایی که مجموعه داده های مشابهی را منتشر می کنند. در مورد میانگین بسیار پایین تعداد دانلودها (0.6) HDX، در مورد تعداد بازدیدها، ما معتقدیم که به این دلیل است که بیش از نیمی از مجموعه داده های پورتال فقط در چند ماه گذشته منتشر شده است.
با توجه به اینکه تعداد دانلودها می تواند نشان دهنده علاقه بیشتر کاربران به مجموعه داده نسبت به تعداد بازدیدها و استفاده مجدد احتمالی از آن در برخی از کارکردهای مجدد یا تجزیه و تحلیل باشد، مایه تاسف است که تنها سه پورتال از شش نمونه ما ، حاوی این اطلاعات است. داشتن اعداد دانلود برای کل نمونه پورتال به ما امکان می دهد دید جامع تری از رفتار کاربران ارائه دهیم.
4.2. کیفیت فراداده داده های باز جغرافیایی
هیستوگرام در شکل 3 و آمار توصیفی در جدول 4 نمایه های کیفیت کلی فراداده مجموعه داده های مکانی پورتال های نمونه ما را گزارش می دهند.
به جز ایرلند و تا حدی برای ایالات متحده، پنج پورتال دیگر مقادیر متوسط کیفیت کلی را زیر 0.5 نشان می دهند. در مورد دو پورتال مبتنی بر سوکراتا (یعنی کلمبیا و ناسا)، این مقادیر کم را می توان به این واقعیت نسبت داد که ابرداده های بازگردانده شده توسط Socrata API حاوی اطلاعات کمتری نسبت به اطلاعات ارائه شده توسط CKAN هستند. به عنوان مثال، ابرداده های Socrata حاوی اطلاعاتی در مورد فرمت فایل های قابل دانلود نیستند. این عدم وجود به این معنی است که سه معیاری که وجود، انطباق و باز بودن قالب مجموعه دادهها را ارزیابی میکنند، یعنی حفظ ، فرمت فایل و MachineRead ، همیشه مقدار 0 را برمیگردانند، همانطور که در جدول 5 نشان داده شده است.، که آمار دقیقی از مقادیر میانگین 17 معیار کیفیت و سه بعد کیفیت را ارائه می دهد. این جنبه به ویژه کنجکاو است، با توجه به اینکه Socrata به کاربران اجازه می دهد مجموعه داده ها را در قالب های مختلف دانلود کنند، در نتیجه به طور کامل به یکی از توصیه های اصلی پارادایم OD ( https://opengovdata.org/ ) پایبند هستند.
با این حال، تفاوت بین مقادیر بالاتر کیفیت فوقداده بهدستآمده توسط پورتال ایرلندی و مقادیر سه پورتال مبتنی بر CKAN دیگر گیجکننده است، با توجه به اینکه ابرداده بازگردانده شده، در اصل، یکسان است. تفاوت در مقادیر کیفیت، در این مورد، ممکن است به دلیل توجه متفاوتی باشد که ارائه دهندگان مجموعه داده در گردآوری زمینه های مختلف ابرداده می کنند. به عنوان مثال، اگر دو مجموعه داده از پورتال های اینترنت اکسپلورر و ایالات متحده را تجزیه و تحلیل کنیم که مقادیر کلی کیفیت ابرداده آنها به ترتیب 0.74 و 0.51 به میانگین نزدیک است، و با بررسی 17 امتیاز گزارش شده توسط معیارهای فردی، تفاوت هایی را پیدا می کنیم، هر دو نحوی. و معنایی، در دو مورد. از جمله، به عنوان مثال، مجموعه داده ایرلندی حاوی آدرس ایمیل نویسنده است که به روشی خوب بیان شده است. در حالی که در مجموعه داده ایالات متحده، آدرس ایمیل حاوی مقدار “تهی” است. علاوه بر این، در حالی که در مورد اول مجوز از نوع باز اعلام شده است.https://creativecommons.org/licenses/by/4.0/ »، در مورد دوم، « https://www.usa.gov/publicdomain/label/1.0/ » است—بنابراین در حوزه عمومی ایالات متحده است. اما نه در سراسر جهان از جدول 5 می بینیم که چنین تفاوت هایی برای همه مجموعه داده های دو پورتال وجود دارد، هم برای متریک اول ، ContactURL ، و هم برای دوم، OpenLicense ، با مقادیر میانگین به ترتیب 0.06 (US) و 0.97 (ایرلند). و از 0 (ایالات متحده) و 0.99 (ایرلند).
به طور کلیتر، با نگاهی به بعد Open Data ، جدول 5 نشان میدهد که به استثنای ایرلند و تا حدی ایالات متحده و HDX، به نظر میرسد که سایر پورتالها اهمیت پایبندی کامل به اصول OD را نادیده میگیرند، زیرا آنها چنین نیستند. بخش بزرگی از مجموعه داده های خود را بر اساس فرمت های باز و خوانا و از طریق مجوزهای باز عرضه می کنند. در مورد دو بعد دیگر، ابتدا اشاره می کنیم که Existence مقادیر میانگین نسبتاً بالایی را برای سه پورتال به دست می آورد: US (0.67)، ایرلند (0.76) و HDX (0.66)، و پس از آن EUODP (0.54)، کلمبیا (0.49) و ناسا (0.38). معیارهایی که به نظر میرسد بیشترین تأثیر منفی را بر این بعد دارند، دقیقاً معیارهایی هستند که مختص دادههای مکانی هستند، به عنوان مثال، فضایی وزمانی ، زیرا به ویژه پورتال های مبتنی بر سقراط این نوع ابرداده را بر نمی گرداند. مقادیر میانگین انطباق برای چهار پورتال از شش پورتال کمتر از Existence است، که نشاندهنده عدم دقت یا بیتوجهی احتمالی برای این پورتالها در جمعآوری اطلاعات در فیلدهای فراداده است، حتی در صورت وجود. یک مورد واضح مربوط به آدرس ایمیل است که با ContactEmail اندازه گیری شده است ، که تقریباً برای تمام مجموعه داده های ایرلند، ناسا و حدود دو سوم مجموعه های کلمبیایی دقیق (یعنی به خوبی شکل گرفته) به نظر می رسد، در حالی که برای دیگری کیفیت بسیار پایینی دارد. سه پورتال
5. بحث
هدف اول این مطالعه ارائه تصویری از استفاده از مجموعه داده های مکانی با بررسی نمونه ای از شش پورتال OGD بود. نتایج نشان داد، هرچند با تفاوتهایی بین پورتالها، یک روند مشترک: بیشتر این دادهها ناشناخته باقی میمانند ( بخش 4.1 ). هدف دوم، با هدف ارزیابی کیفیت فراداده این مجموعه دادهها، نشان میدهد که این کیفیت کمتر از حد کافی برای پنج پورتال از شش پورتال است. ما توجه کردهایم که چگونه میتوان این تفاوتها را تا حدی با انتخاب پلتفرم اتخاذ شده ردیابی کرد، که میتواند کامل بودن ابرداده را محدود کند، تا حدی با انتخاب ارائهدهندگان داده هنگام جمعآوری ابردادههای مرتبط با مجموعه دادههای ارائهشده ( بخش 4.2).). در این بخش سعی میکنیم به تحلیل این که آیا این نتایج با یکدیگر مرتبط هستند و چگونه هستند، به این سوال تحقیقی پاسخ میدهیم: «آیا کیفیت ابرداده بر استفاده از GOGD تأثیر میگذارد؟». همچنین برخی از جنبههای مربوط به انتخاب شاخصها برای اندازهگیری استفاده از مجموعه دادهها و شیوههای انتشار این شاخصها توسط مدیران پورتال OGD را به طور انتقادی مورد بحث قرار میدهیم.
5.1. کیفیت فراداده GOGD در مقابل استفاده
برای پاسخ به سؤال تحقیق: «آیا کیفیت ابرداده بر استفاده از GOGD تأثیر میگذارد؟»، با استفاده از آمار آزمون، همبستگی بین تعداد بازدید مجموعههای داده و کیفیت ابردادههای آنها را تحلیل کردیم. با توجه به اینکه بسامدهای نمایش مجموعه داده ها از توزیع نرمال پیروی نمی کنند ( شکل 1 را ببینید )، ما آزمون پیرسون را که عموماً برای تجزیه و تحلیل همبستگی بین متغیرها استفاده می شود، حذف کردیم و به آزمون ناپارامتریک rho اسپیرمن متوسل شدیم. ما ابتدا Spearman را به کل مجموعه داده های نمونه خود، به طور مستقل توسط پورتال های آنها اعمال کردیم و یک مقدار rho به دست آوردیم. ρ = 0.24�=0.24با p = 0پ=0نشاندهنده یک همبستگی کوچک، حتی اگر معنیدار، بین دیدگاههای مجموعه دادههای مکانی و کیفیت ابردادههای آنها است. برای آزمایش اینکه آیا این روند همبستگی برای هر پورتال به صورت جداگانه وجود دارد یا خیر، Spearman rho را در هر پورتال اعمال کردیم. نتایج، که در نمودارهای پراکنده در شکل 4 ترسیم شدهاند ، تقریباً با مقدار کلی آزمون موافق هستند، اگرچه در مورد کلمبیا، هیچ همبستگی معنیداری یافت نشد. چهار پورتال از شش پورتال یک همبستگی مثبت را نشان می دهند، در حالی که برای پورتال ناسا مقدار منفی پایینی به دست می آید. پورتال های ایالات متحده و EUODP بالاترین مقادیر rho را نشان می دهند، یعنی 0.28 و 0.23، که عموماً مقادیر همبستگی کوچک و متوسط در نظر گرفته می شوند [ 53 ].
بهجای نتیجه همبستگی کلی، که عمدتاً تحت تأثیر این واقعیت است که بیشتر مجموعههای داده نمونه متعلق به پورتال ایالات متحده است، نتایج در سطح پورتال (همچنین به جدول 6 مراجعه کنید ) به ما میگویند که پاسخ سؤال تحقیق خود را با دقت فرموله کنیم. تفاوت بین مقادیر همبستگی در پورتالهای مختلف، علائم جایگزین و مقادیر کم تا متوسط رو به پایین، عواملی هستند که ما را از این نتیجهگیری باز میدارند که مطمئناً کیفیت کلی ابرداده همیشه در تأثیرگذاری بر استفاده از آن تعیینکننده است. برای دریافت اطلاعات بیشتر، همبستگیهای بین نماها و هر بعد کیفیت را بررسی کردیم. جدول 6 نشان می دهد که برای هر پورتال، ρ�ارزشها و نشانههای یک بعد نسبت به سایر ابعاد متفاوت بوده و همچنین در این مورد نمیتوان روند مشترکی را استخراج کرد. ما فقط می توانیم به شیوع بعد وجود در دو مورد دیگر توجه کنیم، که می تواند همبستگی مثبت کلی را، به ویژه برای پورتال های ایالات متحده و HDX توضیح دهد. حتی مقادیر همبستگی منفی بهدستآمده از دو بعد دیگر، در پنج مورد معنیدار از شش مورد، بهطور شگفتآوری به نظر میرسد، هرچند با مطلق بسیار کم ρ�مقادیری که هرچه ابرداده ها دقیق و مطابق با اصول OD کمتر باشد، مجموعه داده بیشتر توسط کاربران دیده می شود.
در این مرحله جالب توجه است که همانطور که بیتس [ 17 ] اشاره کرد، اگر کیفیت پایین ابرداده می تواند بر استفاده کمیاب از داده ها تأثیر بگذارد، عوامل دیگری نیز دارای ماهیت اجتماعی، سیاسی و نه تنها تکنولوژیکی هستند. ، می تواند وارد بازی شود و شایسته مطالعه باشد. در واقع، مانند بسیاری از نویسندگان دیگر، ما دیدگاهی عینی از کیفیت ابرداده ها ارائه کرده ایم، که اگرچه برای چارچوب مشکل کیفیت پورتال های OGD اساسی است، اما نمی تواند به تنهایی پاسخ دهد که چرا کاربران از این پورتال ها استفاده می کنند یا نه. همانطور که در کار قبلی خود مشاهده کردیم [ 51]، ارزیابی کیفیت داده ها یک کار وابسته به زمینه است که با تاکید بر اهمیت برخی از ابعاد برای سایرین سروکار دارد. به طور کلی شامل ارائه قضاوت در مورد برخی از ابعاد است که نمی توان آنها را از نظر کمی فقط با یک روش اندازه گیری کرد، اما نیاز به اظهارات کیفی در مورد اهمیت آنها برای یک سناریوی معین دارد. در مرکز این فعالیت، همیشه کاربر و هدف و نیازهای او باید وجود داشته باشد. در واقع، همانطور که توسط Degbelo [ 34 ] اشاره شد، ابرداده های مورد نیاز برای ارزیابی ارتباط با ارزیابی قابلیت استفاده، یا برای ارزیابی قابلیت اعتماد یا ارزیابی پتانسیل استفاده مجدد یکسان نیستند.
5.2. اندازه گیری میزان مصرف OGD
یافته های ما در مورد استفاده از پورتال های OGD یک روند کلی را برجسته می کند: اکثر مجموعه داده های منتشر شده به ندرت توسط کاربران قابل دسترسی هستند. با این حال، تعداد بازدیدها و بارگیریهای مجموعه داده، به عنوان مثال، معیار استفاده در مبنای تحلیل ما، اگرچه نشانگر استفاده مهمی را ارائه میکند، نمیتواند کاربران غیرمستقیم را اندازهگیری کند ، یعنی کسانی که از دادههای پردازش غیرمستقیم توسط برنامههای شخص ثالث استفاده میکنند [ 23 ].]. در واقع، در برخی موارد، بخش های پورتال خاص ممکن است این برنامه ها را با نشان دادن مجموعه داده های مربوطه فهرست کنند. با این حال، این اطلاعات به طور کلی در فراداده مجموعه داده ارائه نمی شود. برای اندازهگیری تأثیر یک مجموعه داده مفیدتر، اما ثبت آن دشوارتر است، باید تعداد کاربران هر برنامهای باشد که از آن دوباره استفاده میکنند. بنابراین، برای مدیران پورتال توصیه میشود که با مجموعه دادهها، حداقل نوع اول اطلاعات مرتبط باشند: چند برنامه کاربردی از آن استفاده مجدد میکنند. این راه حل به کاربران کمک می کند تا نه تنها منشأ داده های اصلی را بدانند، بلکه محصولات این برنامه ها را قابل اعتمادتر کنند [ 52 ].
اگرچه در دسترس بودن شاخصهای غیرمستقیم میتواند بازخورد کاملتری را در مورد تأثیر مجموعههای داده ارائه دهد، اما شکی نیست که اقدامات مستقیمی مانند آنچه که ما اتخاذ کردهایم اطلاعات مفیدی را در مورد محبوبیت مجموعههای داده برای سایر کاربران بالقوه فراهم میکند، زمانی که آنها باید انتخاب کنند کدام یک را انتخاب کنند. مجموعه داده ها می توانند برای نیازهای آنها و برای خود مدیران پورتال ها مناسب تر باشند [ 54 ]. همانطور که یکی از آنها در واقع مشاهده کرد، “ما به تعداد کل مجموعه داده هایی که در آنجا وجود دارد، آنچه را که ارائه می دهیم نگاه می کنیم. ما کلیکهای بازدید را میشماریم، و در آخر، به تعداد دانلودهایی که واقعاً از پورتال OD انجام میشوند نگاه میکنیم» [ 55 ].
5.3. کمبود اطلاعات استفاده
جنبه مهمی که از مطالعه ما پدیدار شد مربوط به نادر بودن اطلاعات در مورد استفاده از مجموعههای داده، در حال حاضر در سطح تجسم وب، و حتی بیشتر در سطح فرادادهای است که توسط API در دسترس است. در مورد سطح اول اطلاعات، ما متوجه شده ایم که تنها 15 (از 98) پورتال ملی OGD این داده ها را ارائه می دهند. علاوه بر این، فقط هشت مورد از آنها اطلاعات استفاده را در ابردادههایی که توسط APIهای پورتال بازگردانده میشوند، ارائه میکنند. این فقدان دادههای استفاده ممکن است، در اصل، مانع از تجزیه و تحلیل گستردهتر استفاده از پورتالهای OGD و علل تعیینکننده آن شده باشد. با این حال، با وجود این محدودیت، ما دریافتیم که روند استفاده از همه پورتال ها، اعم از ملی و بین المللی، اساساً موافق است. برای ما تعجب آور به نظر می رسید که مدیران ارشد داده پورتال های ملی به نظر می رسد اهمیت افشای محبوبیت مجموعه داده های خود را دست کم می گیرند. در واقع، انتشار شاخصهایی مانند بازدیدها و دانلودها میتواند توجه کاربران را به مجموعه دادههای منتشر شده در پورتال آنها جلب کند، نه به مجموعههای موجود در پورتالهای رقیب.37 ]. این اطلاعات در مورد «محبوبیت» مجموعه دادهها میتواند به طور مشابه با اطلاعات موجود در رسانههای اجتماعی یا پلتفرمهای اقتصاد وب برای جذب کاربران/مشتریان مورد استفاده قرار گیرد و همچنین خدمات مشتری را بهبود بخشد [ 56 ].
6. نتیجه گیری و کارهای آینده
به لطف انتشار پورتال های OGD، اکنون حجم عظیمی از مجموعه داده های مکانی باز برای توسعه برنامه ها و پاسخگویی به نیازهای اطلاعاتی شهروندان و سازمان ها در سراسر جهان در دسترس است. برای اطمینان از این پتانسیل، این داده ها باید به طور موثر قابل استفاده مجدد باشند. یکی از عواملی که مانع از انتشار مجموعه داده های GOGD می شود، کیفیت پایین ابرداده های مرتبط با آنها است. با این حال، هیچ مطالعه ای در ادبیات وجود ندارد که رابطه بین استفاده مجدد از داده ها و کیفیت فراداده را از نظر کمی تأیید کند. هدف این کار ارائه یک تحلیل به روز از استفاده از مجموعه داده های مکانی، کیفیت ابرداده آنها و رابطه احتمالی بین این دو پارامتر است. تجزیه و تحلیل تجربی ما سه نتیجه اصلی را نشان داد. اول از همه، بیشتر مجموعه داده های جغرافیایی به ندرت مشاهده و دانلود می شوند. در مورد ارزیابی فراداده GOGD، استفاده از روش ارزیابی کیفیت عینی تقریباً برای همه پورتال های در نظر گرفته شده، به استثنای ایرلند برای همه ابعاد، و تا حدی برای ایالات متحده، HDX و ناسا برای موارد خاص، به مقادیر کیفیت پایین و متوسط منجر شد. ابعاد به عنوان سهم نهایی، ما یک همبستگی خفیف بین استفاده از مجموعه دادهها و کیفیت ابردادههای آنها پیدا کردیم، که به طور کامل این درک ادبیات را که کیفیت ابرداده برای استفاده مجدد از مجموعه داده GOGD از اهمیت بالایی برخوردار است، حفظ نمیکند. و ناسا برای ابعاد خاص. به عنوان سهم نهایی، ما یک همبستگی خفیف بین استفاده از مجموعه دادهها و کیفیت ابردادههای آنها پیدا کردیم، که به طور کامل این درک ادبیات را که کیفیت ابرداده برای استفاده مجدد از مجموعه داده GOGD از اهمیت بالایی برخوردار است، حفظ نمیکند. و ناسا برای ابعاد خاص. به عنوان سهم نهایی، ما یک همبستگی خفیف بین استفاده از مجموعه دادهها و کیفیت ابردادههای آنها پیدا کردیم، که به طور کامل این درک ادبیات را که کیفیت ابرداده برای استفاده مجدد از مجموعه داده GOGD از اهمیت بالایی برخوردار است، حفظ نمیکند.
بر اساس این ارزیابیها و با توجه به ادبیات، به مدیران پورتال توصیه میکنیم که به طور مداوم استفاده از مجموعه دادههای منتشر شده را حداقل از طریق معیارهای اساسی مانند تعداد بازدیدها و دانلودها نظارت کنند. داشتن اطلاعات به موقع در مورد موفقیت مجموعه داده های فردی می تواند تلاش های انتشار آنها را در بخش های خاصی از داده های عمومی بهتر هدایت کند. توصیه دوم مربوط به آمادگی فوق داده های مجموعه داده های جغرافیایی است. اگرچه به نظر نمی رسد کیفیت فراداده به طور کامل استفاده از مجموعه داده ها را توضیح دهد، تجزیه و تحلیل ما نشان می دهد که توجه بیشتر به الزامات انطباق و باز بودن، که در حال حاضر نسبتاً نادیده گرفته شده است، در اصل می تواند استفاده مجدد از مجموعه داده ها را افزایش دهد.
یکی از محدودیت های این کار به دلیل کاهش تعداد پورتال های نمونه ما است که در نتیجه مراحل انتخاب مورد بحث در بخش 3.1 است .. به همین دلیل، نمی توان نتیجه این مطالعه را بدون دقت تعمیم داد. در واقع، همانطور که در پسزمینه بحث شد، دادههای باز مراحل بلوغ متفاوتی در پورتالهای مختلف دارند و چندین عامل بازدارنده ممکن است مانع از بهرهگیری کامل کاربران از پتانسیلهایشان شوند. با این حال، حتی اگر شامل تنها شش پورتال باشد، ماهیت ترکیبی نمونه ما، هم از نظر اندازه پورتالها و هم در پوشش اداری و منطقهای، میتواند منجر به این فرض شود که روند استفاده و کیفیت فراداده کاملاً مشابهی را میتوان در سایر موارد نیز یافت. پورتال های OGD این می تواند اولین جهت برای کارهای آینده باشد. ما همچنین پیشنهاد میکنیم که با بررسی عوامل بازدارنده دیگر، همچنین با ماهیت اجتماعی، سیاسی و نه تنها تکنولوژیکی، که میتوانند وارد عمل شوند و شایسته مطالعه باشند، مطالعه را عمیقتر کنیم.
منابع
- کوتزی، اس. ایوانووا، آی. میتاسووا، اچ. بروولی، ام. نرم افزار و داده های فضایی باز: مروری بر وضعیت فعلی و چشم اندازی به آینده. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 90. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
- جانسون، PA; سیبر، آر. اسکاسا، تی. استفنز، ام. رابینسون، P. هزینه (های) داده های باز جغرافیایی. ترانس. GIS 2017 ، 21 ، 434-445. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- ویسکوزی، جی. کاستلی، م. باتینی، سی. ارزیابی ارزش اجتماعی در ابتکارات داده باز: یک چارچوب. اینترنت آینده 2014 ، 6 ، 498-517. [ Google Scholar ] [ CrossRef ]
- چارالابیدیس، ی. لوکیس، ای. الکسوپولوس، سی. ارزیابی زیرساختهای داده دولت باز نسل دوم با استفاده از مدلهای ارزش. در مجموعه مقالات چهل و هفتمین کنفرانس بین المللی هاوایی در سال 2014 در علوم سیستم، Waikoloa، HI، ایالات متحده، 6-9 ژانویه 2014. صص 2114–2126. [ Google Scholar ] [ CrossRef ]
- کارارا، دبلیو. چان، WS; فیشر، اس. Steenbergen، EV ایجاد ارزش از طریق داده های باز: مطالعه در مورد تأثیر استفاده مجدد از منابع داده عمومی . کمیسیون اروپا: اتحادیه اروپا 2015. در دسترس آنلاین: https://www.europeandataportal.eu/sites/default/files/edp_creating_value_through_open_data_0.pdf (دسترسی در 30 دسامبر 2020).
- کواراتی، ع. کلماتیس، ا. روورلی، ال. زریک، جی. داگوستینو، دی. مسکا، جی. Masnata، M. ادغام داده های حسگرهای آب و هوای ناهمگن در یک برنامه شهر هوشمند. در مجموعه مقالات کنفرانس بین المللی 2017 محاسبات و شبیه سازی با عملکرد بالا (HPCS)، جنوا، ایتالیا، 17 تا 21 ژوئیه 2017؛ صص 152-159. [ Google Scholar ]
- بنو، م. فیگل، ک. آمبریچ، جی. Polleres، A. درک موانع کلیدی در استفاده و انتشار داده های باز. JeDEM e J. eDemocracy Open Gov. 2017 ، 9 ، 134-165. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- آمبریچ، جی. نویمایر، اس. Polleres، A. ارزیابی کیفیت و تکامل پورتال های داده باز. در مجموعه مقالات سومین کنفرانس بین المللی 2015 درباره اینترنت اشیا و ابر آینده، رم، ایتالیا، 24 تا 26 اوت 2015; صص 404-411. [ Google Scholar ]
- یانسن، ام. چارالابیدیس، ی. Zuiderwijk، A. مزایا، موانع پذیرش و اسطوره های داده های باز و دولت باز. Inf. سیستم مدیریت 2012 ، 29 ، 258-268. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- کواراتی، ع. د مارتینو، ام. استفاده از داده های دولتی باز: مروری کوتاه. در مجموعه مقالات بیست و سومین سمپوزیوم مهندسی و برنامه های کاربردی پایگاه داده بین المللی، IDEAS 2019، آتن، یونان، 10 تا 12 ژوئن 2019؛ Desai, BC, Anagnostopoulos, D., Manolopoulos, Y., Nikolaidou, M., Eds. ACM: نیویورک، نیویورک، ایالات متحده آمریکا، 2019؛ صص 1-8. [ Google Scholar ] [ CrossRef ]
- صادق، س. Indulska, M. داده های باز: کیفیت بر کمیت. بین المللی J. Inf. مدیریت 2017 ، 37 ، 150-154. [ Google Scholar ] [ CrossRef ]
- ون دروال، اس. وسل، ک. ارمیلوف، آی. جانف، وی. میلوشویچ، یو. Wainwright، M. بالا بردن پورتال های باز داده به وب داده. در دادههای باز پیوندی – ایجاد دانش از دادههای به هم پیوسته ؛ Springer: Cham, Switzerland, 2014; صص 175-195. [ Google Scholar ]
- ماچوا، آر. Lnenicka، M. ارزیابی کیفیت پورتال های داده باز در سطح ملی. جی. تئور. Appl. الکترون. بازرگانی Res. 2017 ، 12 ، 21-41. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- نویمایر، اس. آمبریچ، جی. Polleres، A. ارزیابی خودکار کیفیت فراداده در پورتال های داده باز. J. Data Inf. کیفیت 2016 ، 8 ، 1-29. [ Google Scholar ] [ CrossRef ]
- برودر، جی. کوتزی، اس. دانکو، دی. گارسیا، اس. Hjelmager، J. فراداده اطلاعات جغرافیایی – چشم انداز از دیدگاه استانداردسازی بین المللی. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 280. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
- تاگلیولاتو، پ. کریستیانو، اف. اوجیونی، ا. Paola, C. Semantic Profiles for Easing SensorML توضیحات: بررسی و پیشنهاد. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 340. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
- بیتس، جی. سیاست اصطکاک داده ها. J. Doc. 2017 74 . _ [ Google Scholar ] [ CrossRef ]
- رایش، ک. Hofig, E. پیاده سازی معیارهای کیفیت فراداده و کاربرد در داده های دولتی عمومی. در مجموعه مقالات سی و هفتمین کنفرانس نرم افزارهای کامپیوتری و برنامه های کاربردی سالانه IEEE 2013، کیوتو، ژاپن، 22 تا 26 ژوئیه 2013. صص 236-241. [ Google Scholar ] [ CrossRef ]
- اولیویرا، MIS؛ د اولیویرا، HR; اولیویرا، لس آنجلس؛ Lóscio، BF تجزیه و تحلیل پورتالهای داده دولت باز: مورد برزیل. در مجموعه مقالات هفدهمین کنفرانس بین المللی پژوهشی دولت دیجیتال در مورد تحقیقات دولت دیجیتال ; ACM: نیویورک، نیویورک، ایالات متحده آمریکا، 2016؛ صص 415-424. [ Google Scholar ] [ CrossRef ]
- کوبلر، اس. رابرت، جی. نویمایر، اس. آمبریچ، جی. Traon, YL مقایسه کیفیت ابرداده در پورتال های داده باز با استفاده از فرآیند تحلیل سلسله مراتبی. فرمانداری Inf. Q. 2018 , 35 , 13-29. [ Google Scholar ] [ CrossRef ]
- کرشتاین، اف. دیتوالد، بی. دوتکوفسکی، اس. گلیکمن، ی. شیملر، اس. Hauswirth، M. داده های پیوندی در پورتال داده اروپا: بستری جامع برای به کارگیری DCAT-AP . دولت الکترونیک؛ Lindgren, I., Janssen, M., Lee, H., Polini, A., Rodríguez Bolívar, MP, Scholl, HJ, Tambouris, E., Eds.; انتشارات بین المللی Springer: چم، سوئیس، 2019; صص 192-204. [ Google Scholar ]
- Lourenço, RP تجزیه و تحلیل پورتال های دولتی باز: چشم اندازی از شفافیت برای پاسخگویی. فرمانداری Inf. Q. 2015 , 32 , 323-332. [ Google Scholar ] [ CrossRef ]
- صفروف، آی. مایجر، ع. Grimmelikhuijsen، S. استفاده از داده های دولت باز: بررسی ادبیات سیستماتیک انواع، شرایط، اثرات و کاربران. Inf. Polity 2017 ، 22 ، 1-24. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- دانکر، اف. van Loenen، B. چگونه می توان موفقیت اکوسیستم داده باز را ارزیابی کرد؟ بین المللی جی دیجیت. زمین 2017 ، 10 ، 284-306. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- ویرکار، اس. پریرا، GV در حال کاوش در داده های باز به روز: مروری بر تأثیرات اجتماعی، اقتصادی و سیاسی. در مجموعه مقالات کنفرانس بین المللی دولت الکترونیک – EGOV، کرمس، اتریش، 3 تا 5 سپتامبر 2018. [ Google Scholar ]
- کروزوئه، جی. سیمونوفسکی، آ. کلارینوال، ا. گبکا، ای. تأثیر موانع بر استفاده از داده های دولت باز: بینش کاربران. در مجموعه مقالات سیزدهمین کنفرانس بین المللی 2019 چالش های پژوهشی در علم اطلاعات (RCIS)، بروکسل، بلژیک، 29 تا 31 مه 2019؛ صص 1-12. [ Google Scholar ]
- بنو، م. فیگل، ک. آمبریچ، جی. پولرس، الف. امیدها و ترس های داده باز: تعیین موانع داده های باز. در مجموعه مقالات کنفرانس 2017 برای دموکراسی الکترونیکی و دولت باز (CeDEM)، کرمس، اتریش، 17 تا 19 مه 2017؛ صص 69-81. [ Google Scholar ]
- گونزالس-زاپاتا، اف. هیکز، آر. معانی چندگانه داده های دولت باز: درک سهامداران مختلف و دیدگاه های آنها. فرمانداری Inf. Q. 2015 ، 32 ، 441-452. [ Google Scholar ] [ CrossRef ]
- Wirtz، BW; Weyerer, JC; روش، ام. دولت باز و مشارکت شهروندان: تحلیلی تجربی از انتظارات شهروندان نسبت به داده های دولت باز. بین المللی Rev. Adm. 2019 ، 85 ، 566-586. [ Google Scholar ] [ CrossRef ]
- دگبلو، ا. گرانل، سی. تریلز، اس. باتاچاریا، دی. کاستلین، اس. کرای، سی. باز کردن شهرهای هوشمند: چالش ها و فرصت های شهروند محور از علم GIS. ISPRS Int. J. Geo-Inf. 2016 ، 5 ، 16. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
- بنیتز-پائز، اف. دگبلو، ا. تریلز، اس. Huerta, J. موانع در استفاده مجدد از ژئوداده باز در کلمبیا و اسپانیا: دیدگاه کاربر داده. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 6. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
- منیتز-پائز، اف. کامبر، ا. تریلز، اس. Huerta, J. ایجاد یک چارچوب مفهومی برای بهبود قابلیت استفاده مجدد از داده های جغرافیایی باز در شهرها. ترانس. GIS 2018 ، 22 ، 806-822. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- رویجر، ای. گریملیخویسن، اس. ون دن برگ، جی. Meijer، A. کار داده باز: درک استفاده از داده باز از یک لنز تمرینی. بین المللی Rev. Adm. 2020 ، 86 ، 3-19. [ Google Scholar ] [ CrossRef ]
- Degbelo، A. نیازهای کاربر داده باز: یک ترکیب اولیه. در مجموعه مجموعه مقالات کنفرانس وب 2020 ؛ انجمن ماشینهای محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، 2020؛ صص 834-839. [ Google Scholar ] [ CrossRef ]
- کوستن، ال.ام. کاچپرزاک، ای. تنیسون، JFA؛ سیمپرل، ای. آزمایشها و مصیبتهای کار با دادههای ساختاریافته: مطالعهای درباره رفتار جستجوی اطلاعات. در مجموعه مقالات کنفرانس CHI 2017 در مورد عوامل انسانی در سیستم های محاسباتی، دنور، CO، ایالات متحده، 6-11 مه 2017؛ انجمن ماشینهای محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، 2017؛ ص 1277–1289. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- زو، ایکس. فریمن، کارشناسی ارشد ارزیابی پورتال های داده باز شهرداری ایالات متحده: چارچوب تعامل کاربر. J. Assoc. Inf. علمی تکنولوژی 2018 ، 70 ، 27–37. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- ساس، تی. اسمیت، ا. برود، ای. تنیسون، جی. ولز، پی. Atz، U. توصیههایی برای پورتالهای داده باز: از راهاندازی تا پایداری ؛ دفتر انتشارات اتحادیه اروپا: لوکزامبورگ، 2017. [ Google Scholar ]
- Lnenicka، M. تجزیه و تحلیل عمیق پورتال های داده باز به عنوان یک سرویس الکترونیکی عمومی در حال ظهور. بین المللی جی. هوم. Soc. علمی 2015 ، 9 ، 589-599. [ Google Scholar ]
- سائز مارتین، آ. روزاریو، AHD; پرز، MDCC تجزیه و تحلیل بین المللی کیفیت پورتال های داده دولتی باز. Soc. علمی محاسبه کنید. Rev. 2016 , 34 , 298-311. [ Google Scholar ] [ CrossRef ]
- دی مارتینو، ام. رزیم، س. Quarati، A. مجموعه داده های هیدروگرافی در پورتال های داده دولت باز: کاهش مسائل قابلیت استفاده مجدد از طریق اسناد منشأ. در مجموعه مقالات فراداده و تحقیقات معنایی – سیزدهمین کنفرانس بین المللی MTSR، 2019، رم، ایتالیا، 28 تا 31 اکتبر 2019؛ جلد 1057، ص 307–319. [ Google Scholar ] [ CrossRef ]
- زوئیدرویک، ا. یانسن، ام. Susha, I. بهبود سرعت و سهولت استفاده از داده های باز از طریق فراداده، مکانیسم های تعامل و شاخص های کیفیت. J. Org. محاسبه کنید. الکترون. بازرگانی 2016 ، 26 ، 116-146. [ Google Scholar ] [ CrossRef ]
- هوختل، جی. Reichstädter, P. دادههای باز مرتبط: ابزاری برای مدیریت اطلاعات بخش عمومی. در مجموعه مقالات دومین کنفرانس بین المللی دولت الکترونیک و دیدگاه سیستم های اطلاعاتی، تولوز، فرانسه، 29 اوت تا 2 سپتامبر 2011. Springer: Berlin/Heidelberg, Germay, 2011; صص 330-343. [ Google Scholar ]
- ویلکینسون، MD؛ دومانتیه، ام. آلبرسبرگ، آی جی; اپلتون، جی. آکستون، ام. باک، ا. بلومبرگ، ن. Boiten، JW; دا سیلوا سانتوس، LB; بورن، PE; و همکاران اصول راهنمای FAIR برای مدیریت داده های علمی و مباشرت. علمی داده 2016 ، 3 . [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- ویلکینسون، MD؛ Sansone، SA; شولتس، ای. دورن، پ. بونینو داسیلوا سانتوس، لو. Dumontier، M. چارچوب طراحی و معیارهای نمونه برای عادلانه بودن. bioRxiv 2017 . [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- کواراتی، ع. De Martino, M. Dataset Relating a Study on Geospatial Open Data Usage and Metadata Quality. Zenodo 2020 . [ Google Scholar ] [ CrossRef ]
- Ubaldi، B. اطلاعات دولت باز ; OECD: پاریس، فرانسه، 2013; جلد 22. [ Google Scholar ]
- Boudreau, C. استفاده مجدد از داده های باز در کبک: از توسعه اقتصادی تا شفافیت دولت. بین المللی Rev. Adm. 2020 . [ Google Scholar ] [ CrossRef ]
- پیشخوان. کد عملکرد COUNTER، انتشار 5. در اندازه گیری عملکرد و معیارها . COUNTER، 25: وینچستر، بریتانیا، 2019. [ Google Scholar ]
- باتینی، سی. Scannapieco، M. داده ها و کیفیت اطلاعات – ابعاد، اصول و تکنیک ها. در سیستم ها و برنامه های داده محور ؛ Springer: Cham, Switzerland, 2016. [ Google Scholar ] [ CrossRef ]
- وانگ، RY؛ قوی، DM فراتر از دقت: معنای کیفیت داده برای مصرف کنندگان داده است. جی. مناگ. Inf. سیستم 1996 ، 12 ، 5-33. [ Google Scholar ] [ CrossRef ]
- کواراتی، ع. آلبرتونی، آر. مارتینو، MD ارزیابی کیفیت کلی اصطلاحنامه SKOS: یک رویکرد مبتنی بر AHP. J. Inf. علمی 2017 ، 43 ، 816-834. [ Google Scholar ] [ CrossRef ]
- آلبرتونی، آر. دی مارتینو، ام. کواراتی، الف. مستند ارزیابی کیفیت واژگان کنترل شده مبتنی بر زمینه. IEEE Trans. ظهور. بالا. محاسبه کنید. 2018 . [ Google Scholar ] [ CrossRef ]
- خلیل زاده، ج. Tasci، AD حجم نمونه بزرگ، سطح معنیداری و اندازه اثر: راهحلهایی برای خطرات استفاده از دادههای بزرگ برای تحقیقات دانشگاهی. تور. مدیریت 2017 ، 62 ، 89-96. [ Google Scholar ] [ CrossRef ]
- کونکیل، اس. Scherer, D. فرصت های جدید برای مخازن در عصر Altmetrics. گاو نر دانشیار Inf. علمی تکنولوژی 2013 ، 39 ، 22-26. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
- استون، الف. آیا تلاشهای داده باز کار میکنند؟ فناوری دولتی ، 1 مارس 2018. [ Google Scholar ]
- جوزف، RC; جانسون، کلان داده های NA و دولت تحول آفرین. پروفسور فناوری اطلاعات 2013 ، 15 ، 43-48. [ Google Scholar ] [ CrossRef ]

شکل 1. تعداد توزیعهای نماها برای مجموعه دادههای جغرافیایی پورتال ملی و بینالمللی OGD (مجموع بازدیدها تا دسامبر 2019).

شکل 2. تعداد توزیع های دانلود برای مجموعه داده های جغرافیایی پورتال های کلمبیا، HDX و ناسا (تا دسامبر 2019).

شکل 3. توزیع کلی کیفیت فراداده.

شکل 4. همبستگی بین کیفیت کلی فراداده و تعداد بازدیدهای مجموعه داده های GOGD برای پورتال های انتخاب شده. اسپیرمن ρ�ارزش ها با p < 0.05پ<0.05پست با *.
بدون دیدگاه