پورتال‌های داده دولت باز (OGD)، به لطف وجود هزاران مجموعه داده جغرافیایی ارجاع‌شده، حاوی اطلاعات مکانی، برای هر تحلیل یا فرآیند مربوط به قلمرو بسیار مورد توجه هستند. برای اینکه این اتفاق بیفتد، کاربران باید بتوانند به این مجموعه داده‌ها دسترسی داشته باشند و دوباره از آنها استفاده کنند. عنصری که اغلب به عنوان مانع از انتشار کامل داده های OGD در نظر گرفته می شود، کیفیت ابرداده آنها است. با شروع یک بررسی تجربی انجام شده بر روی بیش از 160000 مجموعه داده جغرافیایی متعلق به شش پورتال ملی و بین المللی OGD، این کار به عنوان اولین هدف خود ارائه یک نمای کلی از استفاده از این پورتال ها است که از نظر مشاهده و بارگیری مجموعه داده ها اندازه گیری شده است. علاوه بر این، برای ارزیابی تأثیر احتمالی کیفیت فراداده بر استفاده از مجموعه داده‌های مکانی، ارزیابی فراداده برای هر مجموعه داده انجام شد و همبستگی بین این دو متغیر اندازه‌گیری شد. نتایج به‌دست‌آمده نشان‌دهنده استفاده ناکافی قابل‌توجه از مجموعه داده‌های مکانی و به طور کلی کیفیت پایین ابرداده‌های آن‌ها بود. علاوه بر این، یک همبستگی ضعیف بین استفاده و کیفیت فراداده یافت شد، نه به گونه ای که با اطمینان ادعا کنیم که دومی عامل تعیین کننده اولی است.

کلید واژه ها:

داده های باز جغرافیایی ; استفاده از مجموعه داده ها ; کیفیت فراداده

1. مقدمه

جنبش داده‌های باز (OD) نقش مهمی در بخش جغرافیایی بازی می‌کند، با معرفی یک تغییر پارادایم در عرضه و استفاده از داده‌های جغرافیایی که به صورت رایگان، در قالبی قابل خواندن توسط ماشین و با حداقل محدودیت در استفاده مجدد ارائه می‌شود [ 1 , 2 ]. به عنوان مثال، این مورد در مورد حجم عظیمی از داده های ماهواره ای است که به طور آشکار توسط برنامه اتحادیه اروپا کوپرنیک ( https://www.copernicus.eu/it ) در دسترس قرار گرفته است. طی سال‌های اخیر، هزاران مجموعه داده OD توسط دولت‌ها و مؤسسات عمومی از طریق پورتال‌های داده دولت باز (OGD) در سطوح ملی و بین‌المللی (به عنوان مثال data.gov.uk، data.gov، و europeandataportal.eu) در وب منتشر شده است .). هدف این پورتال ها ارائه منابع دقیق، سازگار و معتبر برای ایجاد “ارزش افزوده” اقتصادی و اجتماعی است [ 3 ، 4 ]. گزارش اروپایی “ایجاد ارزش از طریق داده های باز” [ 5 ] مزایای قابل توجهی را از استفاده مجدد از OD، از جمله افزایش تعداد کاربران، تعداد و تنوع برنامه های تجاری، با تاثیر مثبت بر رشد اقتصادی و افزایش بیشتر پیش بینی کرد. توانایی رویارویی با چالش های اجتماعی یا محیطی
بخش geospatial یکی از بخش های اولیه بود که پیشرفت قابل توجهی در باز کردن داده ها داشت. در اوایل سال 2011، ابتکار داده های باز برای تاب آوری ( https://opendri.org/) شروع به استفاده از شیوه های OD برای رویارویی با آسیب پذیری در برابر خطرات طبیعی و اثرات تغییرات آب و هوا کرد. در حال حاضر، نمونه‌هایی از OGD جغرافیایی (GOGD) توسط ابتکارات بین‌المللی ارائه می‌شود، مانند برنامه کوپرنیک اتحادیه اروپا برای رصد زمین با پشتیبانی آژانس فضایی اروپا که حجم فزاینده‌ای از داده‌های ماهواره‌ای را در زمان واقعی برای نظارت بر اکوسیستم زمین، یا توسط ابتکارات ملی (به عنوان مثال، پورتال های ملی OD) که داده های مربوط به فعالیت های شهروندان را ارائه می دهد (به عنوان مثال، داده های ترافیک، حمل و نقل، آمارهای اجتماعی-اقتصادی). OD جغرافیایی را می توان بر اساس ارائه دهندگان آنها به سه نوع طبقه بندی کرد: OD مشارکتی (به عنوان مثال، داده های داوطلبانه [ 6 ]، OpenStreetMap)، OD معتبر، و OD علمی [ 1 ]]. اکثر OGD به شدت به اطلاعات مکانی (به عنوان مثال، مسیرهای ترانزیت، مجوزهای ساختمانی، آدرس حوزه قضایی) مرتبط است.
اگرچه ادبیات مزیت های بدون شک OD را به رسمیت می شناسد، اما هنوز موانع مختلفی در انتشار و استفاده از OD در مورد ارائه دهندگان داده (مایل به انتشار داده های خود) یا کاربران داده (ناتوان از استفاده آسان از داده ها در عمل) وجود دارد [ 7 ، 8 ]. همانطور که توسط یانسن و همکاران مشاهده شد. [ 9 ]، اگر OGD استفاده نشود ارزش محدودی دارد. با هدف درک استفاده از پورتال های OGD، در کار قبلی ما [ 10 ]، بر اساس یک ارزیابی تجربی از استفاده از مجموعه ای از پنج مجموعه داده پورتال OGD، به این نتیجه رسیدیم که آنها تا حد زیادی کمتر مورد استفاده قرار می گیرند و اشاره می کند که این موضوع به کاوش بیشتر نیاز دارد. تجزیه و تحلیل عوامل مؤثر احتمالی
فراداده (داده‌های مربوط به داده‌ها) نقش مهمی در پورتال‌های OGD برای تسهیل دسترسی کاربر و استفاده مجدد از طریق قابلیت‌های جستجو و فیلتر بازی می‌کند [ 11 ، 12 ]. چندین استاندارد ابرداده برای تسهیل گردش داده ها در میان جوامع مختلف و سیستم های نرم افزاری پیشنهاد شده است. به عنوان مثال، W3C واژگان استانداردی مانند RDF ( https://www.w3.org/RDF/ )، DCAT ( https://www.w3.org/ns/dcat ) را برای تسهیل همکاری بین کاتالوگ های داده در وب توصیه می کند. [ 13 ، 14 ]، پسوند آن DCAT-AP ( https://joinup.ec.europa.eu/solution/dcat-application-profile-data-portals-europe) برای توصیف مجموعه داده های بخش عمومی در اروپا و GeoDCAT-AP ( https://joinup.ec.europa.eu/solution/geodcat-application-profile-data-portals-europe/about ) برای نمایش ابرداده های جغرافیایی در اروپا INSPIRE (مانند ISO، به عنوان مثال، ISO/TC211) ( https://www.iso.org/committee/54904/x/catalogue/ ) [ 15 ]، و OGC [ 16 ]. با این حال، در دسترس بودن این استانداردها به تنهایی تضمین نمی کند که ابرداده مناسب تولید و با مجموعه داده های مربوطه مرتبط شود. عوامل متعددی، مانند عدم مهارت توسط ارائه دهندگان ابرداده، یا فقدان ویرایشگرهای ابرداده با طراحی خوب، می توانند تولید ابرداده خوب را مختل کنند، بنابراین مانع استفاده مجدد از OGD می شوند [ 11 ، 17 ].]. این واقعیت توسط چندین مطالعه با هدف ارزیابی و نظارت بر عملکرد پورتال های OGD و همچنین کیفیت ابرداده آنها به خوبی تأیید شده است [ 13 ، 14 ، 18 ، 19 ، 20 ، 21 ]. به ویژه، نویمایر و همکاران. [ 14 ] یک چارچوب کیفیت فراداده برای ارزیابی پورتال های OGD بر اساس پلتفرم های مختلف ایجاد کرد. بر اساس نقشه برداری از طرح های مختلف ابرداده پلت فرم های پورتال به ابرداده W3C DCAT، آنها هفده معیار را برای ارزیابی کیفیت ابرداده پورتال OGD در سطح مجموعه داده پیاده سازی می کنند. ما از آن چارچوب برای ارزیابی کیفیت فراداده نمونه ای از مجموعه داده های GOGD استفاده می کنیم.
با توجه به ارتباط GOGD، هدف پژوهش حاضر بررسی استفاده از آنها، کیفیت فراداده آنها و وجود رابطه احتمالی بین آنهاست. تجزیه و تحلیل ما بر اساس نمونه‌ای از شش پورتال ملی و بین‌المللی OGD است که شامل بیش از 160000 مجموعه داده‌های مکانی است که ابرداده‌ها به صورت برنامه‌نویسی جمع‌آوری و تجزیه و تحلیل شده‌اند تا اطلاعات استفاده و کیفیت را جمع‌آوری کنند. به عنوان اولین مشارکت، این کار روندهای استفاده از GOGD را مستند می کند. یافته های ما با مطالعه قبلی ما مطابقت دارد [ 10 ]، و نشان می دهد که بیشتر مجموعه داده ها به ندرت مشاهده و دانلود می شوند. سهم دوم، ارزیابی کیفیت فراداده GOGD است، بر اساس چارچوب ارائه شده در [ 14]. به استثنای یک استثنا، ارزیابی، مقادیر متوسط ​​کیفیت کلی پایین و متوسط ​​را برای پورتال های در نظر گرفته به دست آورد. به عنوان سهم نهایی، تجزیه و تحلیل رابطه بین استفاده از مجموعه داده‌های GOGD و کیفیت ابرداده‌های آن‌ها همبستگی ملایمی را بین دو متغیر نشان داد (و نه در همه موارد). به نظر ما، این واقعیت را تأیید نمی کند که کیفیت فراداده مطمئناً می تواند بر استفاده از مجموعه داده های مکانی تأثیر بگذارد.

2. پس زمینه

2.1. داده های باز جغرافیایی، فرصت ها و نیازهای کاربر

در حوزه جغرافیایی، پارادایم OD فرصتی را برای ترویج دموکراتیک کردن اطلاعات جغرافیایی، دولت ها و نهادهای شفاف [ 22 ]، و همچنین فرصت های اجتماعی، اقتصادی و محیطی ارائه می دهد. پورتال داده اروپا بینش هایی از نمونه های متعددی از برنامه هایی ارائه می دهد که از OD مکانی برای ارائه خدمات به شهروندان استفاده می کنند ( https://www.europeandataportal.eu/en/using-data/use-cases ، آخرین دسترسی: 20 ژوئیه 2020). به طور سنتی، دسترسی به داده‌های جغرافیایی دولتی به دلیل نرم‌افزار و داده‌های اختصاصی، فرآیندی پیچیده و پرهزینه بود. ارائه داده‌های دولتی به‌صورت باز نشان‌دهنده تغییر قابل‌توجهی برای کاربر است که می‌تواند به داده‌هایی که معمولاً به صورت رایگان ارائه می‌شوند با حداقل محدودیت در استفاده مجدد دسترسی داشته باشد [ 8 ]، 23 ]. کوتز و همکاران [ 1 ] دیدگاهی را در مورد اینکه چگونه در چند دهه اخیر، حوزه جغرافیایی به طور فزاینده ای OD را پذیرفته است، پیشرفت های قابل توجهی در این زمینه، و نحوه باز بودن نحوه جمع آوری، پردازش، تجزیه و تحلیل و تجسم داده های مکانی را تغییر داده است.
موفقیت اکوسیستم‌های OD تا حد زیادی به شناسایی موانع و ویژگی‌های کلیدی، چالش‌های پیاده‌سازی، روند استفاده از مجموعه داده‌ها و موارد تأثیرپذیری از آنها بستگی دارد [ 24 ، 25 ، 26 ، 27 ]. گونزالس و همکاران [ 28] یک مرور ادبیات سیستماتیک در مورد OGD ارائه می کند که بسیاری از روابط ضمنی بین چهار عامل استفاده از OGD را شناسایی می کند: انواع مختلف استفاده، اثرات استفاده، شرایط کلیدی، و کاربران مختلف. چنین رابطه ای ممکن است به درک اینکه آیا و چگونه وعده مزایای OGD می تواند محقق شود کمک کند. سهولت استفاده، سودمندی، و همچنین شفافیت، مشارکت و انتظارات همکاری به طور قابل توجهی قصد شهروندان را برای استفاده از OGD تعیین می کند [ 29 ]. در مورد استفاده مجدد از داده های جغرافیایی باز، Degbelo و همکاران. [ 30] ادبیات موجود در مورد شهرهای هوشمند و باز را مرور کنید و چالش ها و فرصت های کلیدی را با دیدگاه شهروند محور شناسایی کنید. توانمندسازی شهروندان برای استفاده کامل از OD موجود، روشی امیدوارکننده برای تقویت نوآوری و راه حل های شهروند محور برای شهرها است. جانسون و همکاران [ 2 ] موانع اقتصادی و مدنی را تحلیل کرده و استفاده از هکاتون های مدنی را به عنوان روشی جدید برای تعامل دولت محلی و شهروند پیشنهاد می کند. بنیتز و همکاران [ 31 ] تاکید می‌کند که مرتبط‌ترین مسائلی که مانع استفاده مجدد از داده‌ها می‌شود، مربوط به داده‌های قدیمی، مشکل در دسترسی، تفسیر نادرست و سوء استفاده از داده‌ها و شرایط استفاده از آنها است. آنها یک طبقه بندی از این موانع را برای کلمبیا و اسپانیا پیشنهاد می کنند. منیتز-پائز و همکاران. [ 32] یک چارچوب مفهومی برای کمک به مقامات محلی برای تعریف مجدد استراتژی‌های OD فعلی و بهبود سطوح قابلیت استفاده مجدد در پرتو الزامات کاربر پیشنهاد می‌کند. رویجر و همکاران [ 33 ] یک مطالعه مشخص در مورد استفاده از OGD بر اساس ابتکارات مشترک بین کارمندان دولت و شهروندان ارائه می‌کند: آنها نیاز به یک چارچوب شناختی مشترک برای درک OD و همچنین نیاز به مجموعه‌های داده با کیفیت بالا را برجسته می‌کنند.
علاوه بر راه‌حل‌های فوق که اساساً مبتنی بر مشارکت مستقیم کاربر است، Degbelo [ 34 ] یک طبقه‌بندی اولیه برای نیازهای کاربر OD را معرفی می‌کند، که می‌تواند به ارائه‌دهندگان داده برای طراحی پورتال‌های «تقاضا محور» و پیاده‌سازی ابزارهای ارزیابی برای تسهیل استفاده مجدد از داده‌ها کمک کند. نیازهای کاربر برای تولید مستندات دقیق که قادر به پشتیبانی از فعالیت جستجوی اطلاعات هستند، اساسی در نظر گرفته می شوند [ 35 ]. زو و همکاران [ 36] 34 پورتال داده باز شهرداری ایالات متحده را با یک “چارچوب تعامل کاربر” ارزیابی کنید که یک امتیاز عملکرد کلی را تعریف می کند. نتایج آنها نشان داد که پورتال ها از نظر ارائه دسترسی عملکرد خوبی دارند، اما در کمک به کاربران برای درک و تعامل با داده ها چندان خوب نیستند. نویسندگان مشاهده می‌کنند که پلتفرم‌های پورتال‌ها برای دستیابی به تعامل و مشارکت بیشتر کاربر نیاز به بهبود دارند، و نشان می‌دهد که «تحقیقات بیشتری برای درک اینکه چه کسی از پورتال‌ها و داده‌ها و برای چه اهدافی استفاده می‌کند، مورد نیاز است». کار حاضر به دنبال پاسخ به یک سوال کمی متفاوت، اگرچه مرتبط است: “روند استفاده از پورتال های GOGD، که به عنوان تعداد مجموعه داده های جغرافیایی مشاهده شده (و دانلود شده) توسط کاربران اندازه گیری می شود، کدام است؟”

2.2. ارزیابی کیفیت پورتال های OGD

از طریق پلتفرم‌های نرم‌افزاری خاص، مدیران پورتال‌های OGD داده‌های عمومی را مطابق با خط‌مشی‌های انتشار در ادارات خود در دسترس قرار می‌دهند. در میان پلتفرم‌های پذیرفته‌شده در پورتال‌های OGD، CKAN منبع باز و Socrata تجاری از نظر تعداد [ 20 ، 37 ] برجسته هستند. این پلتفرم‌ها اکوسیستم‌های ابرداده، سیستم‌های مدیریت داده، امکانات جستجو و مرور و همچنین API‌هایی را فراهم می‌کنند که با آن‌ها می‌توان به‌صورت برنامه‌نویسی از پورتال‌ها برای دانلود هم ابرداده و هم مجموعه داده‌ها پرس و جو کرد [ 37 ]. با این حال، چارچوب‌های نرم‌افزاری مختلف، طرح‌واره‌های ابرداده و روش‌های مختلف تجسم محتوا را ارائه می‌کنند [ 7 ، 8 ، 38 ، 39 ]]. به عنوان مثال، تمام پورتال های مبتنی بر Socrata محتویات مجموعه داده ها را به صورت جدولی ارائه می دهند، در حالی که در CKAN، کاربر تنها با دانلود یک یا چند فایل در قالب های مورد نظر به محتوای مجموعه دسترسی پیدا می کند. Socrata همیشه داده های استفاده را در حالی که در CKAN است فقط با انتخاب مدیران پورتال نمایش می دهد.
ویژگی های اصلی پورتال OGD مانند جستجوی کلیدواژه و فیلتر کردن بر اساس اصطلاحات فراداده (به عنوان مثال، دسته موضوع، انواع داده، قالب و مجوز) با هدف بهبود دسترسی به داده ها. بنابراین، ابرداده‌های با کیفیت خوب برای حمایت از کشف و دسترسی به مجموعه‌های داده GOGD و استفاده مجدد از آن‌ها از اهمیت بالایی برخوردار هستند. چندین مطالعه عملکرد پورتال OGD و کیفیت ابرداده های آنها را بررسی کرده اند [ 8 ، 12 ، 13 ، 14 ، 18 ، 19 ، 20 ، 22 ، 40 ، 41 ]. برخی از راه حل های آنها بر اساس مدل پنج ستاره برای داده های باز پیوندی (https://www.w3.org/DesignIssues/LinkedData.html ) همانطور که توسط تیم برنرز لی پیشنهاد شده است [ 21 ، 42 ]، و همچنین در مورد هشت اصل داده دولت باز ( https://public.resource.org/ ) 8_principles.html ). به عنوان مثال، ابزار تضمین کیفیت فراداده (MQA) موجود در پورتال داده اروپا، اعتبار سنجی ابرداده را در برابر مشخصات داده های پیوندی DCAT-AP برای افزایش قابلیت همکاری و دسترسی OD فراهم می کند و به طور دوره ای بررسی های کیفیت فراداده را در برابر شاخص های مختلف به دست آمده از FAIR اجرا می کند. ( https://www.go-fair.org/fair-principles/ ) اصول [ 21]. با این وجود، این ابزار منحصراً به بررسی فراداده های جمع آوری شده در پورتال داده اروپا محدود است. ویلکینسون و همکاران، بر اساس اصول FAIR [ 43 ]، چارچوبی را طراحی کرده اند [ 44 ]] و “ابزار خدمات ارزیابی عادلانه” را با اجرای 22 معیار برای ارزیابی انطباق یک منبع وب با این اصول توسعه داد. از طریق این ابزار، کاربران می توانند برای ارزیابی عادلانه بودن یک منبع (وب) معین، تمام 22 معیار FAIR یا یکی از چهار زیر گروه را انتخاب کنند. با هدف استفاده از این ابزار برای تجزیه و تحلیل تجربی خود، آن را بر روی چندین مجموعه داده از پورتال های OGD مختلف آزمایش کردیم. با این حال، از آنجایی که زمان‌های پاسخ حداقل 5 دقیقه را با پیک‌های 30 دقیقه یا بیشتر اندازه‌گیری کردیم، برای ارزیابی یک مجموعه داده، فرضیه اولیه استفاده از ابزار FAIR را به دلیل تعداد زیادی مجموعه داده در نمونه خود رد کردیم. “دیده بان پورتال داده باز” [ 14]، یک چارچوب ارزیابی و نظارت بر کیفیت فراداده، صدها پورتال OGD را پردازش می‌کند که فراداده‌های خود را به DCAT نگاشت می‌کنند و مجموعه بزرگی از ابعاد/متریک‌ها را مستقل از پلتفرم‌های انتشار (CKAN، Socrata و OpenDataSoft) ارزیابی می‌کنند. برای ارزیابی کیفیت فراداده مجموعه داده‌های نمونه پورتال OGD خود، بر این پیاده‌سازی چارچوبی تکیه کردیم که برای بازیابی اطلاعات استفاده از مجموعه داده‌ها و تولید تجزیه و تحلیل طراحی کردیم.
علاوه بر این، برخی از ابتکارات بین المللی بر ارزیابی و رتبه بندی پورتال های OGD تحت دیدگاه های مختلف متمرکز شده اند. شاخص جهانی داده های باز (GODI) ( https://index.okfn.org )، توسعه یافته توسط Open Knowledge International، وضعیت OGD را ردیابی می کند و کشورهایی را که داده ها را به درستی و به موقع منتشر می کنند، شناسایی می کند. شاخص OURdata ( https://www.oecd.org/gov/digital-government/ourdata-index-policy-paper-2020.pdf )، که توسط سازمان همکاری اقتصادی و توسعه ایجاد شده است، تلاش های دولت ها را برای OD را در سه حوزه حیاتی Openness، Usefulness و Re-usability پیاده سازی کنید. OpenDataMonitor ( https://opendatamonitor.eu) نمای کلی از چشم انداز EU OD ارائه می دهد که تجسم هایی را در سطح اتحادیه اروپا و برای کاتالوگ های مختلف ارائه می دهد. فشارسنج داده های باز ( https://opendatabarometer.org )، که توسط بنیاد وب جهانی توسعه یافته است، تصویری از اقدامات OGD با تمرکز بر آمادگی OD، پیاده سازی، و تأثیرات در حال ظهور ارائه می دهد. همه این فعالیت‌ها نشان می‌دهند که بهبودهای مهمی باید برای افزایش باز بودن، قابلیت همکاری و قابلیت استفاده در بسیاری از کشورها به استثنای بریتانیا، کانادا و ایالات متحده که به دلیل بلوغ اکوسیستم OGD خود مشهور هستند، انجام شود.
با وجود ابتکارات و مطالعات متعدد با هدف تجزیه و تحلیل عملکرد پورتال های OGD و کیفیت ابرداده های آنها، کمی برای تجزیه و تحلیل (کمی) استفاده واقعی آنها انجام شده است. تا آنجا که می دانیم، رابطه بین کیفیت فراداده OGD و استفاده از آنها به صورت تجربی بررسی نشده است. در رابطه با مجموعه داده های مکانی بسیار کمتر انجام شده است.

3. مواد و روشها

برای ارزیابی استفاده از GOGD و کیفیت فراداده‌های آن، با در نظر گرفتن بیشتر پورتال‌های ملی OGD امروزی شروع کردیم. ما تعدادی پورتال بین المللی را اضافه کردیم تا پوشش ناهمگون پورتال ها با سیستم های اداری مختلف را ارائه دهیم. در میان آنها، ما مواردی را انتخاب کردیم که اطلاعات استفاده از ویرایش، عمدتاً تعداد بازدیدها و بارگیری مجموعه‌های داده را ارائه می‌دهند، و APIهایی را برای بازیابی برنامه‌ای این اطلاعات ارائه کردیم. با توجه به تجزیه و تحلیل کیفیت فراداده های دانلود شده از طریق API، ما به چارچوب تکنولوژیکی پیشنهاد شده در [ 14 ] متوسل شدیم و آن را یکپارچه کردیم و گسترش دادیم تا از میان تمام مجموعه داده های هر پورتال، فقط آنهایی را انتخاب کنیم که به صراحت با اطلاعات مکانی مشخص می شوند.

3.1. شناسایی پورتال داده را باز کنید

ما دو نوع پورتال OGD را بر اساس پوشش اداری آنها در نظر گرفتیم: ملی و بین المللی. در مورد اولی، ما با بررسی 94 پورتال ملی طبقه‌بندی شده توسط شاخص GODI در سال 2016/2017 و چهار پورتال از کشورهای دیگر (کره، اسپانیا، ایرلند، استونی) که در GODI در نظر گرفته نشده‌اند اما در OECD OURdata Index قرار گرفته‌اند، شروع کردیم. طبقه‌بندی هر دو در سال 2017 نسبت به سال 2019 انجام شد. پورتال‌ها برای انتخاب مواردی که معیارهای مشاهده و دانلود را ارائه می‌کنند، تجزیه و تحلیل شدند. اول از همه، در سطح پورتال وب، و از این میان، آنهایی که d API را برای بازیابی خودکار این مقادیر استفاده ارائه می دهند. این انتخاب منجر به شناسایی هشت پورتال ملی شد: ایالات متحده، کلمبیا، ایرلند، اسلوونی، لهستان، فرانسه، لتونی و پورتوریکو. از اینها، ما یک زیرمجموعه پورتال را نگه داشته ایم که درصدی از مجموعه داده های جغرافیایی حداقل 5٪ از کل و به ترتیب چند صد را منتشر می کند. این منجر به شناسایی سه پورتال شد: پورتال ایالات متحده، کلمبیا و ایرلند. ما لتونی و پورتوریکو را به دلیل تعداد کم مجموعه داده‌های کلی، به ترتیب 336 و 178 حذف کردیم. ما اسلوونی را رد کردیم زیرا هیچ دسته‌ای به طور صریح به مجموعه‌های داده‌های جغرافیایی اشاره نمی‌کند، و قالب‌های داده عمدتاً به قالب PCAXIS (98٪) اشاره دارد که برای آمار استفاده می‌شود. اطلاعات حتی پورتال لهستانی هیچ دسته بندی داده ای را که به طور صریح برای داده های جغرافیایی هدف گذاری شده است ارائه نمی دهد و مجموعه داده های بسیار کمی را با قالب های داده جغرافیایی منتشر می کند ( ما لتونی و پورتوریکو را به دلیل تعداد کم مجموعه داده‌های کلی، به ترتیب 336 و 178 حذف کردیم. ما اسلوونی را رد کردیم زیرا هیچ دسته‌ای به طور صریح به مجموعه‌های داده‌های جغرافیایی اشاره نمی‌کند، و قالب‌های داده عمدتاً به قالب PCAXIS (98٪) اشاره دارد که برای آمار استفاده می‌شود. اطلاعات حتی پورتال لهستانی هیچ دسته بندی داده ای را که به طور صریح برای داده های جغرافیایی هدف گذاری شده است ارائه نمی دهد و مجموعه داده های بسیار کمی را با قالب های داده جغرافیایی منتشر می کند ( ما لتونی و پورتوریکو را به دلیل تعداد کم مجموعه داده‌های کلی، به ترتیب 336 و 178 حذف کردیم. ما اسلوونی را رد کردیم زیرا هیچ دسته‌ای به طور صریح به مجموعه‌های داده‌های جغرافیایی اشاره نمی‌کند، و قالب‌های داده عمدتاً به قالب PCAXIS (98٪) اشاره دارد که برای آمار استفاده می‌شود. اطلاعات حتی پورتال لهستانی هیچ دسته بندی داده ای را که به طور صریح برای داده های جغرافیایی هدف گذاری شده است ارائه نمی دهد و مجموعه داده های بسیار کمی را با قالب های داده جغرافیایی منتشر می کند (https://gisgeography.com/gis-formats/به عنوان مثال، تنها شش مجموعه داده در قالب شکل (یعنی ‘.shp’) وجود دارد که معمولا برای داده های مکانی برداری استفاده می شود، و شش مجموعه در قالب ‘jpg’ برای نقشه های شطرنجی استفاده می شود. توزیع مجموعه داده‌ها با توجه به قالب‌ها، شیوع html، xls، xlsx و csv را نشان می‌دهد (90%) و سپس چندین قالب دیگر با تعداد کمی وجود دارد. ما پورتال فرانسوی را وارد نکردیم، اگرچه بیش از نیمی از مجموعه داده‌های خود را بر اساس قالب «.shp» منتشر می‌کند (20858 از مجموع 39412 مجموعه داده)، زیرا یک آمار اولیه نشان داد که حداقل تعداد بسیار کمی از این مجموعه داده‌ها مشاهده می‌شوند. یک بار. به طور دقیق تر، چارک 3 برابر با 1 است و حتی صدک 95 برابر با هفت نمایش است (حدود 1000 مجموعه داده، تقریباً 2.5٪ از کل). برای متعادل کردن نسبت پورتال های ملی و بین المللی نمونه ما، و حفظ اهداف طراحی یکسان (به عنوان مثال، درصدی از مجموع و تعداد زیادی مجموعه داده‌های جغرافیایی)، ما سه پورتال بین‌المللی را انتخاب کردیم که به نظر ما سودمندی عمومی و قابل توجه است، حتی برای ناهمگونی این پورتال‌ها در سه بخش موضوعی: هوافضا، قانون‌گذاری و بشردوستانه. این ناهمگونی می‌تواند تفاوت‌ها یا شباهت‌ها را در رفتار کاربر، در اصل، با علایق و نیازهای مختلف آشکار کند. پورتال تبادل داده های بشردوستانه (HDX) که توسط UN-OCHA مدیریت می شود، با هدف به اشتراک گذاری داده ها در مورد بحران های بشردوستانه در کشورهای مختلف است. پورتال داده های باز اتحادیه اروپا (EUODP) امکان دسترسی به داده های باز منتشر شده توسط موسسات و ارگان های اتحادیه اروپا را فراهم می کند. پورتال ناسا حدود 10000 مجموعه داده ناسا را ​​جمع آوری و در دسترس عموم قرار می دهد، داده های جمع آوری شده از آرشیوهای مختلف (مانند سیستم داده های سیاره ای، ملی اقیانوس شناسی، و آژانس اتمسفر). همه این پورتال ها امکان بازیابی داده های استفاده را از طریق API فراهم می کنند.
از شش پورتالی که قبلاً شناسایی شده بود، ما آن مجموعه داده‌هایی را استخراج کردیم که به نحوی قابل شناسایی هستند که حاوی اطلاعات مکانی هستند. این اسکیمینگ بر اساس معیارهای فیلترینگ خاص ارائه شده توسط هر پورتال، اعمال فیلترهای دسته بندی، در صورت وجود، یا فیلترهایی در نوع یا قالب مجموعه داده شده است. در مورد پورتال های ایالات متحده، کلمبیا، HDX و ناسا، ما به ترتیب اصطلاحات طبقه بندی شده “geospatial”، “map”، “geodata” و “Earth Sciences” را در نظر گرفتیم. هنگامی که مقوله به‌صراحت وجود نداشت، مجموعه داده‌های مکانی براساس قالب داده انتخاب می‌شدند، برای مثال با فیلتر کردن داده‌های موجود در قالب‌های geoJSON، KML، WFS، GML، و WMS، برای پورتال ایرلندی. یا، با کلمات کلیدی، به عنوان مثال، “جغرافیایی”، “تصویر ارتو”، و “داده های مکانی” برای EUODP. جمع آوری داده ها در دسامبر 2019 انجام شد. این داده‌ها تصویری از استفاده کلی از مجموعه داده‌های شش پورتال، از نظر کل بازدیدها و بارگیری‌ها، تا آن لحظه ارائه می‌دهند. ما ابرداده‌های همه مجموعه داده‌های این پورتال‌ها را همراه با استفاده و مقادیر کیفیت ارزیابی‌شده به‌عنوان Open Data در مخزن OD Zenodo ارائه کرده‌ایم.45 ].
نتیجه انتخاب در جدول 1 نشان داده شده است .
همانطور که از جدول 1 مشاهده می شود ، درصد مجموعه داده های مکانی بازیابی شده با توجه به کل در پورتال ها متفاوت است: از حدود 60٪ ایالات متحده تا حدود 5٪ برای کلمبیا، با درصد 50٪ با در نظر گرفتن تعداد کلی مجموعه داده های شش پورتال در نمونه ما.

3.2. معیارهای استفاده

از تجزیه و تحلیل پورتال هایی با هدف انتخاب آنهایی که اطلاعات استفاده از مجموعه داده ها را در دسترس قرار می دهند، مشخص شد که در صورت وجود، دو مقدار عمدتاً نمایش داده می شود: تعداد بازدیدها و گاهی اوقات تعداد بارگیری ها. بنابراین، تجزیه و تحلیل ما از روند استفاده از GOGD بر اساس این دو معیار استفاده بود [ 46 ، 47 ]. منظور ما از Views “تعداد کل دفعاتی که صفحه یک مجموعه داده در مرورگرهای کاربران بارگذاری شده است” و ” دانلودها ” “تعداد کل درخواست های کاربران برای بازیابی محتوای کامل یک مجموعه داده خاص” [ 48 ] است.]. این مقادیر کل استفاده را می‌توان توسط APIهای پورتال برگرداند و به همراه سایر ابرداده‌های مجموعه داده در صفحه دسترسی به مجموعه داده‌ها یافت می‌شوند. پلتفرم‌های CKAN و Socrata می‌توانند با توجه به روش‌های مورد بحث در بخش بعدی بازگردند. این دو مقدار از طریق APIها ابرداده های مرتبط با مجموعه داده های پورتال را بازیابی می کنند.

3.3. استفاده از بازیابی متریک

داده‌های استفاده پورتال‌ها با بهره‌برداری از APIهای کشف ابرداده ارائه شده توسط پلتفرم‌های پورتال CKAN و Socrata بازیابی شد. محتوای فراداده استخراج و در پایگاه داده PostgreSQL برای تجزیه و تحلیل بعدی ذخیره شد. همه کدها در پایتون نوشته شده اند، همچنین برای ادغام آسان تر با کد پلت فرم ارزیابی کیفیت شخص ثالث اتخاذ شده (به بخش بعدی مراجعه کنید). در ادامه ویژگی‌های اصلی مربوط به تعامل با این APIها را خلاصه می‌کنیم.
اطلاعات مربوط به تعداد بازدیدهای یک مجموعه داده را می توان از طریق API CKAN به دست آورد، محتوای یک فیلد خاص به نام tracking_summary را استخراج کرد (از نسخه 2.7.3، فراخوانی API package_show، tracking_summary، کلیدهای مجموعه داده، یا منابع به‌طور پیش‌فرض دیگر)، که به نوبه خود حاوی یک جفت مقدار کل و اخیر است (یعنی بازدیدها در 14 روز گذشته). با توجه به تعریف ما از Views ، کل را در نظر گرفتیممقدار برای ارزیابی استفاده از مجموعه داده CKAN. این مقادیر تنها در صورتی برگردانده می شوند که توسط مدیران پورتال در سمت سرور مجاز باشند. با چرخش در کل لیست مجموعه داده های پورتال، وضعیت کلی نماها ممکن است بازیابی شود. در واقع، APIهای CKAN فقط اطلاعات داده‌ها را برمی‌گردانند و اطلاعات دانلودها را ندارند. پورتالی مانند Humanitarian Data Exchange (HDX)، مبتنی بر پسوند CKAN، بارگیری‌ها را همراه با تعداد بازدیدها برمی‌گرداند.
در مقایسه با APIهای CKAN، RESTful Socrata Open Data API (SODA ( https://dev.socrata.com/ )) مجموعه کوچکتری از فیلدهای فراداده را در مقایسه با مورد بازیابی شده توسط CKAN بازیابی می کند. برای مثال، قالب‌های قابل دانلود محتوای مجموعه داده گزارش نشده است. با این حال، برعکس CKAN، ابرداده های برگردانده شده توسط SODA همچنین شامل تعداد کل دانلودها ( download_count ) به همراه تعداد کل بازدیدها ( page_views ) است که دقیقاً با معیارهای بازدیدها و دانلودها مطابقت دارد .

3.4. ارزیابی کیفیت فراداده GOGD

کیفیت داده «مفهومی چند وجهی» است که شامل چندین بعد است [ 49 ]، که در آن یک بعد کیفیت را می توان به عنوان مجموعه ای از «ویژگی های کیفی که یک جنبه یا ساختاری از کیفیت داده را نشان می دهد» [ 50 ] مشاهده کرد. یک متریک کیفیت برای اندازه گیری جنبه خاصی از یک بعد معین استفاده می کند. ابعاد و معیارهای کیفیت در ارزیابی اینکه آیا یک قطعه داده نیازهای کاربران اطلاعات را برآورده می‌کند [ 34 ] در یک موقعیت خاص، مرکزی هستند [ 51 ]. برای ارزیابی کیفیت فراداده نمونه پورتال های OGD، ما به کد پلت فرم «Open Data Portal Watch» ( https://github.com/sebneu/portalwatch)، بر اساس روش شناسی و معیارهای تعریف شده در [ 14 ]. این پلتفرم ابرداده مجموعه داده‌ها را که توسط APIهای پورتال‌های مختلف بازیابی می‌شود، با استاندارد DCAT W3C ترسیم می‌کند و 17 معیار کیفیت را برای ارزیابی انطباق فراداده جذب شده با الزامات DCAT پیاده‌سازی می‌کند. چنین معیارهایی به سه بعد کیفیت مربوط می شود: (1) وجود : “آیا زمینه های فراداده خاصی وجود دارد؟”; (ii) انطباق : “آیا مقادیر فراداده به قالب خاصی پایبند هستند؟”؛ (iii) Data Open : “آیا قالب مشخص شده و اطلاعات مجوز می تواند یک مجموعه داده را به عنوان باز طبقه بندی کند؟”. هشت وجودمعیارها ارزیابی می کنند که آیا ابرداده اطلاعات مفیدی برای کشف (یعنی شرح مجموعه داده، عنوان، برخی کلمات کلیدی وجود دارد؟) و دسترسی (به عنوان مثال، آیا URI برای دسترسی و دانلود وجود دارد؟) به مجموعه داده مرتبط، برای تماس با مالک یا ناشر ارائه می دهد. . وجود اطلاعات مجوز و همچنین تاریخ ایجاد و اصلاح فراداده و مجموعه داده نیز ارزیابی می‌شود. معیار حفظ ، در دسترس بودن اطلاعات فراداده را در رابطه با قالب، اندازه و فرکانس به‌روزرسانی مجموعه داده‌ها ارزیابی می‌کند. فضایی و زمانی _معیارها (فقط در کد چارچوب اعلام و اجرا می‌شوند) مشخص می‌کنند که آیا برخی از اطلاعات مکانی (مثلاً چند ضلعی، شکل، …) یا زمانی (مثلاً شروع یا پایان دوره زمانی تحت پوشش مجموعه داده) وجود دارد، به دنبال داده‌های مکانی. در بهترین شیوه های وب (SDW) ( https://www.w3.org/TR/sdw-bp ) که توسط گروه کاری مشترک W3C-OGC منتشر شده است. شش معیار انطباق اعتبار نحوی URI دسترسی، آدرس ایمیل تماس و URI و قالب تاریخ را ارزیابی می کند. انطباق مجوز با تجزیه و تحلیل لیستی از توضیحات مجوز ارائه شده توسط Open Definition بررسی می شود ( https://licenses.opendefinition.org/licenses/groups/all.jsonو اعتبار فرمت فایل با فهرستی از قالب‌های ثبت‌شده و انواع رسانه ارائه‌شده توسط IANA ( https://www.iana.org/assignments/media-types/media-types.xhtml ) بررسی می‌شود. در مورد سه معیار باز بودن داده ، آن‌ها انطباق مجموعه داده‌ها را با تعریف باز (دانش) ( https://opendefinition.org/od/2.1/en/ ) بررسی می‌کنند و ارزیابی می‌کنند که آیا مجموعه داده‌ها در یک ماشین خوانا و باز ارائه شده‌اند یا خیر. فرمت و طبق یک مجوز باز.
ارزیابی کیفیت در مجموعه داده‌های مکانی هر پورتال انجام شد که منجر به یک واحد، بولی یا شناور (در محدوده [0،1]) شد. m�مترمقدار برای هر متریک برای هر مجموعه داده، پس از تبدیل مقادیر بولی به 0 و 1، ما 17 معیار را با توجه به روش تصمیم گیری وزن افزودنی ساده (SAW) با تخصیص وزن مساوی جمع آوری کردیم ( wj1/17 _��=1/17) به هر متریک، بنابراین منجر به یک ارزش کلی کیفیت فراداده مجموعه داده می شودq=171wj�متر�=∑�=117متر��∗��، q∈ ]�متر�∈[0،1].
کد پلتفرم «Open Data Portal Watch» با کد استخراج استفاده ما ادغام شد و برای توسعه و تولید تجزیه و تحلیل و گزارش گسترش یافت.
ما اشاره می کنیم که برای ارائه تصویری تا حد امکان تحلیلی از کیفیت پورتال ها و استفاده از آنها، ارزیابی کیفیتی که ما انجام داده ایم ذاتاً عینی است (معروف به ساختاری)، قابل اندازه گیری از طریق ویژگی های فیزیکی بی طرفانه (مثلاً تعداد اقلام، نسبت) پورتال های OGD. جنبه‌های ذهنی (معروف به زمینه‌ای) را نادیده گرفته است، که قادر به در نظر گرفتن نیازها و اهداف کاربران و اطلاع‌رسانی به انتخاب‌های استفاده آنها است [ 52 ]، اما نمی‌توان آن‌ها را با نوع تحقیق تجربی اندازه‌گیری کرد، مانند آنچه که توسط ما پیشنهاد شده است که به صورت برنامه‌ای ارزیابی می‌کند. تعداد زیادی مجموعه داده متعلق به ادارات و سازمان های دولتی مختلف، بر اساس ابرداده هایی که ارائه می کنند.

4. نتایج

تجزیه و تحلیل انجام شده در پورتال های فهرست شده در جدول 1 بر دو جنبه متمرکز است: روند استفاده از مجموعه داده های مکانی، که به عنوان تعداد بازدیدها و دانلودها اندازه گیری می شود، و کیفیت ابرداده آنها.

4.1. استفاده از داده های باز جغرافیایی

شکل 1 فرکانس نماها را برای مجموعه داده های جغرافیایی شش پورتال در نظر گرفته نشان می دهد که مجموع نماها را تا دسامبر 2019 محاسبه می کند.
همه منحنی ها از توزیع دم سنگین با فرکانس استفاده بالا با تمرکز بر مجموعه داده های بسیار کمی پیروی می کنند و بیشتر آنها با فرکانس بسیار پایین.
آمار توصیفی در جدول 2با وجود روند عمومی رایج، تأیید بیشتری ارائه دهید و به ما کمک کنید تا برخی از تفاوت‌های بین پورتال‌ها را برجسته کنیم. مقادیر بسیار پایین استفاده در تمام آمار پورتال های ایالات متحده آمریکا، HDX و ناسا به ویژه شگفت انگیز است. دو ربع اول نشان می دهد که تقریباً 50٪ از مجموعه داده های آنها به سختی مشاهده می شود (با بالاترین میانگین برابر با 15 برای پورتال ایالات متحده) و 25٪ دیگر فقط بیشتر بازدید شده است (با بالاترین ربع سوم 22 برای ایالات متحده). این واقعیت به ویژه در مورد ایالات متحده با توجه به اندازه جمعیت آن و همچنین پورتال آن که به بیش از 200000 مجموعه داده ارائه شده توسط صدها منبع داده افزایش یافته است و سنت تمام عیار آن در توجه به OD غیر منتظره است. که به سرعت آن را به یک ابتکار شاخص دولت داده باز تبدیل کرد و نمونه ای برای سایر کاتالوگ های داده های دولتی است که از سال 2009 در سراسر جهان باز شده اند. در این مورد، یک دلیل ممکن است این باشد که چندین مجموعه داده از فعالیت‌های کالیبراسیون/ اعتبارسنجی یا در پورتال ناسا در دسترس هستند، اما می‌توان از چندین پلتفرم، به عنوان مثال، از طریق صفحات خاص مأموریت، یا از طریق پورتال‌هایی مانند «به‌نظر می‌رسد» دسترسی پیدا کرد. “(https://lpdaacsvc.cr.usgs.gov/appeears )، «earthdata» ( https://search.earthdata.nasa.gov )، یا «NOAA» ( https://www.ncdc.noaa.gov/cdo ) -web )، که همه آنها در بسیاری از موارد، تجسم مکانی پیشرفته و ویژگی های بارگیری را برای مجموعه داده های مشابه ارائه می دهند. این واقعیت ممکن است تعداد بازدید/دانلود را در بین هر پورتال توزیع کند. در عوض، مقادیر بسیار پایین برای HDX را می توان با این واقعیت توضیح داد که تعداد مجموعه داده های منتشر شده آن در حدود نه ماه دو برابر شد، همانطور که ما متوجه مقایسه مقادیر جمع آوری شده در اواخر مارس 2019، در کار قبلی خود شدیم [ 10 ]]، به مورد موجود در پایان دسامبر 2019. به همین دلیل، منطقی است که انتظار داشته باشیم بیش از نیمی از این مجموعه داده ها زمان کمی برای مشاهده توسط کاربران داشته باشند. با این حال، به این ملاحظات، باید اضافه کرد که نمونه قبلی نیز مقادیر استفاده بسیار کاهش یافته ای را ارائه کرد. سه پورتال دیگر بسیار بهتر هستند و مقادیری را برای سه ربع حتی دو مرتبه بزرگتر نشان می دهند. پورتال های کلمبیا و اتحادیه اروپا از این نظر برجسته هستند.
در مورد نشانگر توزیع دانلودها، از آنجایی که توسط API ها فقط برای پورتال های کلمبیا، HDX و ناسا برگردانده می شود، ما در شکل 2 و جدول 3 فقط منحنی های توزیع و آمار این سه پورتال را گزارش می دهیم که کل دانلودها را به خود اختصاص می دهد. تا دسامبر 2019.
مقایسه این نمودارها و داده ها با نمودار مربوط به تعداد نمایش ها ( شکل 1 و جدول 2، میانگین تعداد دانلودها به طور قابل توجهی کمتر از تعداد بازدیدها است، و در مورد دو پورتال بین المللی، تعداد دانلودها برای هر سه چهارم 0 است، مقادیر میانگین دانلودها به ترتیب 64 (std 373) برای کلمبیا است. (در مقایسه با میانگین 1251 بازدید)، 0.6 (std 2.2) برای HDX (در مقابل میانگین 25 بازدید)، و 19 (std 338) برای ناسا (در مقابل میانگین 113 بازدید). برای دو پورتال مبتنی بر سقراط (یعنی کلمبیا و ناسا) و به ویژه برای پورتال کلمبیا، تفاوت بین بازدیدها و دانلودها می تواند ناشی از این واقعیت باشد که Socrata کل محتوای مجموعه داده را به شکل جدول نشان می دهد. ما معتقدیم که چنین در دسترس بودن می تواند نیاز کاربران به دانلود بیشتر مجموعه داده ها را کاهش دهد، پس از اینکه آنها قبلاً محتوای خود را به طور کامل تجسم کردند. علاوه بر این، کاهش تعداد دانلودهای مجموعه داده های ناسا را ​​می توان مشابه آنچه برای Views مشاهده شد توضیح داد، یعنی تعداد متفاوت پورتال هایی که مجموعه داده های مشابهی را منتشر می کنند. در مورد میانگین بسیار پایین تعداد دانلودها (0.6) HDX، در مورد تعداد بازدیدها، ما معتقدیم که به این دلیل است که بیش از نیمی از مجموعه داده های پورتال فقط در چند ماه گذشته منتشر شده است.
با توجه به اینکه تعداد دانلودها می تواند نشان دهنده علاقه بیشتر کاربران به مجموعه داده نسبت به تعداد بازدیدها و استفاده مجدد احتمالی از آن در برخی از کارکردهای مجدد یا تجزیه و تحلیل باشد، مایه تاسف است که تنها سه پورتال از شش نمونه ما ، حاوی این اطلاعات است. داشتن اعداد دانلود برای کل نمونه پورتال به ما امکان می دهد دید جامع تری از رفتار کاربران ارائه دهیم.

4.2. کیفیت فراداده داده های باز جغرافیایی

هیستوگرام در شکل 3 و آمار توصیفی در جدول 4 نمایه های کیفیت کلی فراداده مجموعه داده های مکانی پورتال های نمونه ما را گزارش می دهند.
به جز ایرلند و تا حدی برای ایالات متحده، پنج پورتال دیگر مقادیر متوسط ​​کیفیت کلی را زیر 0.5 نشان می دهند. در مورد دو پورتال مبتنی بر سوکراتا (یعنی کلمبیا و ناسا)، این مقادیر کم را می توان به این واقعیت نسبت داد که ابرداده های بازگردانده شده توسط Socrata API حاوی اطلاعات کمتری نسبت به اطلاعات ارائه شده توسط CKAN هستند. به عنوان مثال، ابرداده های Socrata حاوی اطلاعاتی در مورد فرمت فایل های قابل دانلود نیستند. این عدم وجود به این معنی است که سه معیاری که وجود، انطباق و باز بودن قالب مجموعه داده‌ها را ارزیابی می‌کنند، یعنی حفظ ، فرمت فایل و MachineRead ، همیشه مقدار 0 را برمی‌گردانند، همانطور که در جدول 5 نشان داده شده است.، که آمار دقیقی از مقادیر میانگین 17 معیار کیفیت و سه بعد کیفیت را ارائه می دهد. این جنبه به ویژه کنجکاو است، با توجه به اینکه Socrata به کاربران اجازه می دهد مجموعه داده ها را در قالب های مختلف دانلود کنند، در نتیجه به طور کامل به یکی از توصیه های اصلی پارادایم OD ( https://opengovdata.org/ ) پایبند هستند.
با این حال، تفاوت بین مقادیر بالاتر کیفیت فوق‌داده به‌دست‌آمده توسط پورتال ایرلندی و مقادیر سه پورتال مبتنی بر CKAN دیگر گیج‌کننده است، با توجه به اینکه ابرداده بازگردانده شده، در اصل، یکسان است. تفاوت در مقادیر کیفیت، در این مورد، ممکن است به دلیل توجه متفاوتی باشد که ارائه دهندگان مجموعه داده در گردآوری زمینه های مختلف ابرداده می کنند. به عنوان مثال، اگر دو مجموعه داده از پورتال های اینترنت اکسپلورر و ایالات متحده را تجزیه و تحلیل کنیم که مقادیر کلی کیفیت ابرداده آنها به ترتیب 0.74 و 0.51 به میانگین نزدیک است، و با بررسی 17 امتیاز گزارش شده توسط معیارهای فردی، تفاوت هایی را پیدا می کنیم، هر دو نحوی. و معنایی، در دو مورد. از جمله، به عنوان مثال، مجموعه داده ایرلندی حاوی آدرس ایمیل نویسنده است که به روشی خوب بیان شده است. در حالی که در مجموعه داده ایالات متحده، آدرس ایمیل حاوی مقدار “تهی” است. علاوه بر این، در حالی که در مورد اول مجوز از نوع باز اعلام شده است.https://creativecommons.org/licenses/by/4.0/ »، در مورد دوم، « https://www.usa.gov/publicdomain/label/1.0/ » است—بنابراین در حوزه عمومی ایالات متحده است. اما نه در سراسر جهان از جدول 5 می بینیم که چنین تفاوت هایی برای همه مجموعه داده های دو پورتال وجود دارد، هم برای متریک اول ، ContactURL ، و هم برای دوم، OpenLicense ، با مقادیر میانگین به ترتیب 0.06 (US) و 0.97 (ایرلند). و از 0 (ایالات متحده) و 0.99 (ایرلند).
به طور کلی‌تر، با نگاهی به بعد Open Data ، جدول 5 نشان می‌دهد که به استثنای ایرلند و تا حدی ایالات متحده و HDX، به نظر می‌رسد که سایر پورتال‌ها اهمیت پایبندی کامل به اصول OD را نادیده می‌گیرند، زیرا آنها چنین نیستند. بخش بزرگی از مجموعه داده های خود را بر اساس فرمت های باز و خوانا و از طریق مجوزهای باز عرضه می کنند. در مورد دو بعد دیگر، ابتدا اشاره می کنیم که Existence مقادیر میانگین نسبتاً بالایی را برای سه پورتال به دست می آورد: US (0.67)، ایرلند (0.76) و HDX (0.66)، و پس از آن EUODP (0.54)، کلمبیا (0.49) و ناسا (0.38). معیارهایی که به نظر می‌رسد بیشترین تأثیر منفی را بر این بعد دارند، دقیقاً معیارهایی هستند که مختص داده‌های مکانی هستند، به عنوان مثال، فضایی وزمانی ، زیرا به ویژه پورتال های مبتنی بر سقراط این نوع ابرداده را بر نمی گرداند. مقادیر میانگین انطباق برای چهار پورتال از شش پورتال کمتر از Existence است، که نشان‌دهنده عدم دقت یا بی‌توجهی احتمالی برای این پورتال‌ها در جمع‌آوری اطلاعات در فیلدهای فراداده است، حتی در صورت وجود. یک مورد واضح مربوط به آدرس ایمیل است که با ContactEmail اندازه گیری شده است ، که تقریباً برای تمام مجموعه داده های ایرلند، ناسا و حدود دو سوم مجموعه های کلمبیایی دقیق (یعنی به خوبی شکل گرفته) به نظر می رسد، در حالی که برای دیگری کیفیت بسیار پایینی دارد. سه پورتال

5. بحث

هدف اول این مطالعه ارائه تصویری از استفاده از مجموعه داده های مکانی با بررسی نمونه ای از شش پورتال OGD بود. نتایج نشان داد، هرچند با تفاوت‌هایی بین پورتال‌ها، یک روند مشترک: بیشتر این داده‌ها ناشناخته باقی می‌مانند ( بخش 4.1 ). هدف دوم، با هدف ارزیابی کیفیت فراداده این مجموعه داده‌ها، نشان می‌دهد که این کیفیت کمتر از حد کافی برای پنج پورتال از شش پورتال است. ما توجه کرده‌ایم که چگونه می‌توان این تفاوت‌ها را تا حدی با انتخاب پلتفرم اتخاذ شده ردیابی کرد، که می‌تواند کامل بودن ابرداده را محدود کند، تا حدی با انتخاب ارائه‌دهندگان داده هنگام جمع‌آوری ابرداده‌های مرتبط با مجموعه داده‌های ارائه‌شده ( بخش 4.2).). در این بخش سعی می‌کنیم به تحلیل این که آیا این نتایج با یکدیگر مرتبط هستند و چگونه هستند، به این سوال تحقیقی پاسخ می‌دهیم: «آیا کیفیت ابرداده بر استفاده از GOGD تأثیر می‌گذارد؟». همچنین برخی از جنبه‌های مربوط به انتخاب شاخص‌ها برای اندازه‌گیری استفاده از مجموعه داده‌ها و شیوه‌های انتشار این شاخص‌ها توسط مدیران پورتال OGD را به طور انتقادی مورد بحث قرار می‌دهیم.

5.1. کیفیت فراداده GOGD در مقابل استفاده

برای پاسخ به سؤال تحقیق: «آیا کیفیت ابرداده بر استفاده از GOGD تأثیر می‌گذارد؟»، با استفاده از آمار آزمون، همبستگی بین تعداد بازدید مجموعه‌های داده و کیفیت ابرداده‌های آن‌ها را تحلیل کردیم. با توجه به اینکه بسامدهای نمایش مجموعه داده ها از توزیع نرمال پیروی نمی کنند ( شکل 1 را ببینید )، ما آزمون پیرسون را که عموماً برای تجزیه و تحلیل همبستگی بین متغیرها استفاده می شود، حذف کردیم و به آزمون ناپارامتریک rho اسپیرمن متوسل شدیم. ما ابتدا Spearman را به کل مجموعه داده های نمونه خود، به طور مستقل توسط پورتال های آنها اعمال کردیم و یک مقدار rho به دست آوردیم. ρ 0.24�=0.24با 0پ=0نشان‌دهنده یک همبستگی کوچک، حتی اگر معنی‌دار، بین دیدگاه‌های مجموعه داده‌های مکانی و کیفیت ابرداده‌های آن‌ها است. برای آزمایش اینکه آیا این روند همبستگی برای هر پورتال به صورت جداگانه وجود دارد یا خیر، Spearman rho را در هر پورتال اعمال کردیم. نتایج، که در نمودارهای پراکنده در شکل 4 ترسیم شده‌اند ، تقریباً با مقدار کلی آزمون موافق هستند، اگرچه در مورد کلمبیا، هیچ همبستگی معنی‌داری یافت نشد. چهار پورتال از شش پورتال یک همبستگی مثبت را نشان می دهند، در حالی که برای پورتال ناسا مقدار منفی پایینی به دست می آید. پورتال های ایالات متحده و EUODP بالاترین مقادیر rho را نشان می دهند، یعنی 0.28 و 0.23، که عموماً مقادیر همبستگی کوچک و متوسط ​​در نظر گرفته می شوند [ 53 ].
به‌جای نتیجه همبستگی کلی، که عمدتاً تحت تأثیر این واقعیت است که بیشتر مجموعه‌های داده نمونه متعلق به پورتال ایالات متحده است، نتایج در سطح پورتال (همچنین به جدول 6 مراجعه کنید ) به ما می‌گویند که پاسخ سؤال تحقیق خود را با دقت فرموله کنیم. تفاوت بین مقادیر همبستگی در پورتال‌های مختلف، علائم جایگزین و مقادیر کم تا متوسط ​​رو به پایین، عواملی هستند که ما را از این نتیجه‌گیری باز می‌دارند که مطمئناً کیفیت کلی ابرداده همیشه در تأثیرگذاری بر استفاده از آن تعیین‌کننده است. برای دریافت اطلاعات بیشتر، همبستگی‌های بین نماها و هر بعد کیفیت را بررسی کردیم. جدول 6 نشان می دهد که برای هر پورتال، ρارزش‌ها و نشانه‌های یک بعد نسبت به سایر ابعاد متفاوت بوده و همچنین در این مورد نمی‌توان روند مشترکی را استخراج کرد. ما فقط می توانیم به شیوع بعد وجود در دو مورد دیگر توجه کنیم، که می تواند همبستگی مثبت کلی را، به ویژه برای پورتال های ایالات متحده و HDX توضیح دهد. حتی مقادیر همبستگی منفی به‌دست‌آمده از دو بعد دیگر، در پنج مورد معنی‌دار از شش مورد، به‌طور شگفت‌آوری به نظر می‌رسد، هرچند با مطلق بسیار کم ρمقادیری که هرچه ابرداده ها دقیق و مطابق با اصول OD کمتر باشد، مجموعه داده بیشتر توسط کاربران دیده می شود.
در این مرحله جالب توجه است که همانطور که بیتس [ 17 ] اشاره کرد، اگر کیفیت پایین ابرداده می تواند بر استفاده کمیاب از داده ها تأثیر بگذارد، عوامل دیگری نیز دارای ماهیت اجتماعی، سیاسی و نه تنها تکنولوژیکی هستند. ، می تواند وارد بازی شود و شایسته مطالعه باشد. در واقع، مانند بسیاری از نویسندگان دیگر، ما دیدگاهی عینی از کیفیت ابرداده ها ارائه کرده ایم، که اگرچه برای چارچوب مشکل کیفیت پورتال های OGD اساسی است، اما نمی تواند به تنهایی پاسخ دهد که چرا کاربران از این پورتال ها استفاده می کنند یا نه. همانطور که در کار قبلی خود مشاهده کردیم [ 51]، ارزیابی کیفیت داده ها یک کار وابسته به زمینه است که با تاکید بر اهمیت برخی از ابعاد برای سایرین سروکار دارد. به طور کلی شامل ارائه قضاوت در مورد برخی از ابعاد است که نمی توان آنها را از نظر کمی فقط با یک روش اندازه گیری کرد، اما نیاز به اظهارات کیفی در مورد اهمیت آنها برای یک سناریوی معین دارد. در مرکز این فعالیت، همیشه کاربر و هدف و نیازهای او باید وجود داشته باشد. در واقع، همانطور که توسط Degbelo [ 34 ] اشاره شد، ابرداده های مورد نیاز برای ارزیابی ارتباط با ارزیابی قابلیت استفاده، یا برای ارزیابی قابلیت اعتماد یا ارزیابی پتانسیل استفاده مجدد یکسان نیستند.

5.2. اندازه گیری میزان مصرف OGD

یافته های ما در مورد استفاده از پورتال های OGD یک روند کلی را برجسته می کند: اکثر مجموعه داده های منتشر شده به ندرت توسط کاربران قابل دسترسی هستند. با این حال، تعداد بازدیدها و بارگیری‌های مجموعه داده، به عنوان مثال، معیار استفاده در مبنای تحلیل ما، اگرچه نشانگر استفاده مهمی را ارائه می‌کند، نمی‌تواند کاربران غیرمستقیم را اندازه‌گیری کند ، یعنی کسانی که از داده‌های پردازش غیرمستقیم توسط برنامه‌های شخص ثالث استفاده می‌کنند [ 23 ].]. در واقع، در برخی موارد، بخش های پورتال خاص ممکن است این برنامه ها را با نشان دادن مجموعه داده های مربوطه فهرست کنند. با این حال، این اطلاعات به طور کلی در فراداده مجموعه داده ارائه نمی شود. برای اندازه‌گیری تأثیر یک مجموعه داده مفیدتر، اما ثبت آن دشوارتر است، باید تعداد کاربران هر برنامه‌ای باشد که از آن دوباره استفاده می‌کنند. بنابراین، برای مدیران پورتال توصیه می‌شود که با مجموعه داده‌ها، حداقل نوع اول اطلاعات مرتبط باشند: چند برنامه کاربردی از آن استفاده مجدد می‌کنند. این راه حل به کاربران کمک می کند تا نه تنها منشأ داده های اصلی را بدانند، بلکه محصولات این برنامه ها را قابل اعتمادتر کنند [ 52 ].
اگرچه در دسترس بودن شاخص‌های غیرمستقیم می‌تواند بازخورد کامل‌تری را در مورد تأثیر مجموعه‌های داده ارائه دهد، اما شکی نیست که اقدامات مستقیمی مانند آنچه که ما اتخاذ کرده‌ایم اطلاعات مفیدی را در مورد محبوبیت مجموعه‌های داده برای سایر کاربران بالقوه فراهم می‌کند، زمانی که آنها باید انتخاب کنند کدام یک را انتخاب کنند. مجموعه داده ها می توانند برای نیازهای آنها و برای خود مدیران پورتال ها مناسب تر باشند [ 54 ]. همانطور که یکی از آنها در واقع مشاهده کرد، “ما به تعداد کل مجموعه داده هایی که در آنجا وجود دارد، آنچه را که ارائه می دهیم نگاه می کنیم. ما کلیک‌های بازدید را می‌شماریم، و در آخر، به تعداد دانلودهایی که واقعاً از پورتال OD انجام می‌شوند نگاه می‌کنیم» [ 55 ].

5.3. کمبود اطلاعات استفاده

جنبه مهمی که از مطالعه ما پدیدار شد مربوط به نادر بودن اطلاعات در مورد استفاده از مجموعه‌های داده، در حال حاضر در سطح تجسم وب، و حتی بیشتر در سطح فراداده‌ای است که توسط API در دسترس است. در مورد سطح اول اطلاعات، ما متوجه شده ایم که تنها 15 (از 98) پورتال ملی OGD این داده ها را ارائه می دهند. علاوه بر این، فقط هشت مورد از آنها اطلاعات استفاده را در ابرداده‌هایی که توسط APIهای پورتال بازگردانده می‌شوند، ارائه می‌کنند. این فقدان داده‌های استفاده ممکن است، در اصل، مانع از تجزیه و تحلیل گسترده‌تر استفاده از پورتال‌های OGD و علل تعیین‌کننده آن شده باشد. با این حال، با وجود این محدودیت، ما دریافتیم که روند استفاده از همه پورتال ها، اعم از ملی و بین المللی، اساساً موافق است. برای ما تعجب آور به نظر می رسید که مدیران ارشد داده پورتال های ملی به نظر می رسد اهمیت افشای محبوبیت مجموعه داده های خود را دست کم می گیرند. در واقع، انتشار شاخص‌هایی مانند بازدیدها و دانلودها می‌تواند توجه کاربران را به مجموعه داده‌های منتشر شده در پورتال آنها جلب کند، نه به مجموعه‌های موجود در پورتال‌های رقیب.37 ]. این اطلاعات در مورد «محبوبیت» مجموعه داده‌ها می‌تواند به طور مشابه با اطلاعات موجود در رسانه‌های اجتماعی یا پلت‌فرم‌های اقتصاد وب برای جذب کاربران/مشتریان مورد استفاده قرار گیرد و همچنین خدمات مشتری را بهبود بخشد [ 56 ].

6. نتیجه گیری و کارهای آینده

به لطف انتشار پورتال های OGD، اکنون حجم عظیمی از مجموعه داده های مکانی باز برای توسعه برنامه ها و پاسخگویی به نیازهای اطلاعاتی شهروندان و سازمان ها در سراسر جهان در دسترس است. برای اطمینان از این پتانسیل، این داده ها باید به طور موثر قابل استفاده مجدد باشند. یکی از عواملی که مانع از انتشار مجموعه داده های GOGD می شود، کیفیت پایین ابرداده های مرتبط با آنها است. با این حال، هیچ مطالعه ای در ادبیات وجود ندارد که رابطه بین استفاده مجدد از داده ها و کیفیت فراداده را از نظر کمی تأیید کند. هدف این کار ارائه یک تحلیل به روز از استفاده از مجموعه داده های مکانی، کیفیت ابرداده آنها و رابطه احتمالی بین این دو پارامتر است. تجزیه و تحلیل تجربی ما سه نتیجه اصلی را نشان داد. اول از همه، بیشتر مجموعه داده های جغرافیایی به ندرت مشاهده و دانلود می شوند. در مورد ارزیابی فراداده GOGD، استفاده از روش ارزیابی کیفیت عینی تقریباً برای همه پورتال های در نظر گرفته شده، به استثنای ایرلند برای همه ابعاد، و تا حدی برای ایالات متحده، HDX و ناسا برای موارد خاص، به مقادیر کیفیت پایین و متوسط ​​منجر شد. ابعاد به عنوان سهم نهایی، ما یک همبستگی خفیف بین استفاده از مجموعه داده‌ها و کیفیت ابرداده‌های آن‌ها پیدا کردیم، که به طور کامل این درک ادبیات را که کیفیت ابرداده برای استفاده مجدد از مجموعه داده GOGD از اهمیت بالایی برخوردار است، حفظ نمی‌کند. و ناسا برای ابعاد خاص. به عنوان سهم نهایی، ما یک همبستگی خفیف بین استفاده از مجموعه داده‌ها و کیفیت ابرداده‌های آن‌ها پیدا کردیم، که به طور کامل این درک ادبیات را که کیفیت ابرداده برای استفاده مجدد از مجموعه داده GOGD از اهمیت بالایی برخوردار است، حفظ نمی‌کند. و ناسا برای ابعاد خاص. به عنوان سهم نهایی، ما یک همبستگی خفیف بین استفاده از مجموعه داده‌ها و کیفیت ابرداده‌های آن‌ها پیدا کردیم، که به طور کامل این درک ادبیات را که کیفیت ابرداده برای استفاده مجدد از مجموعه داده GOGD از اهمیت بالایی برخوردار است، حفظ نمی‌کند.
بر اساس این ارزیابی‌ها و با توجه به ادبیات، به مدیران پورتال توصیه می‌کنیم که به طور مداوم استفاده از مجموعه داده‌های منتشر شده را حداقل از طریق معیارهای اساسی مانند تعداد بازدیدها و دانلودها نظارت کنند. داشتن اطلاعات به موقع در مورد موفقیت مجموعه داده های فردی می تواند تلاش های انتشار آنها را در بخش های خاصی از داده های عمومی بهتر هدایت کند. توصیه دوم مربوط به آمادگی فوق داده های مجموعه داده های جغرافیایی است. اگرچه به نظر نمی رسد کیفیت فراداده به طور کامل استفاده از مجموعه داده ها را توضیح دهد، تجزیه و تحلیل ما نشان می دهد که توجه بیشتر به الزامات انطباق و باز بودن، که در حال حاضر نسبتاً نادیده گرفته شده است، در اصل می تواند استفاده مجدد از مجموعه داده ها را افزایش دهد.
یکی از محدودیت های این کار به دلیل کاهش تعداد پورتال های نمونه ما است که در نتیجه مراحل انتخاب مورد بحث در بخش 3.1 است .. به همین دلیل، نمی توان نتیجه این مطالعه را بدون دقت تعمیم داد. در واقع، همانطور که در پس‌زمینه بحث شد، داده‌های باز مراحل بلوغ متفاوتی در پورتال‌های مختلف دارند و چندین عامل بازدارنده ممکن است مانع از بهره‌گیری کامل کاربران از پتانسیل‌هایشان شوند. با این حال، حتی اگر شامل تنها شش پورتال باشد، ماهیت ترکیبی نمونه ما، هم از نظر اندازه پورتال‌ها و هم در پوشش اداری و منطقه‌ای، می‌تواند منجر به این فرض شود که روند استفاده و کیفیت فراداده کاملاً مشابهی را می‌توان در سایر موارد نیز یافت. پورتال های OGD این می تواند اولین جهت برای کارهای آینده باشد. ما همچنین پیشنهاد می‌کنیم که با بررسی عوامل بازدارنده دیگر، همچنین با ماهیت اجتماعی، سیاسی و نه تنها تکنولوژیکی، که می‌توانند وارد عمل شوند و شایسته مطالعه باشند، مطالعه را عمیق‌تر کنیم.

منابع

  1. کوتزی، اس. ایوانووا، آی. میتاسووا، اچ. بروولی، ام. نرم افزار و داده های فضایی باز: مروری بر وضعیت فعلی و چشم اندازی به آینده. ISPRS Int. J. Geo-Inf. 2020 ، 9 ، 90. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  2. جانسون، PA; سیبر، آر. اسکاسا، تی. استفنز، ام. رابینسون، P. هزینه (های) داده های باز جغرافیایی. ترانس. GIS 2017 ، 21 ، 434-445. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  3. ویسکوزی، جی. کاستلی، م. باتینی، سی. ارزیابی ارزش اجتماعی در ابتکارات داده باز: یک چارچوب. اینترنت آینده 2014 ، 6 ، 498-517. [ Google Scholar ] [ CrossRef ]
  4. چارالابیدیس، ی. لوکیس، ای. الکسوپولوس، سی. ارزیابی زیرساخت‌های داده دولت باز نسل دوم با استفاده از مدل‌های ارزش. در مجموعه مقالات چهل و هفتمین کنفرانس بین المللی هاوایی در سال 2014 در علوم سیستم، Waikoloa، HI، ایالات متحده، 6-9 ژانویه 2014. صص 2114–2126. [ Google Scholar ] [ CrossRef ]
  5. کارارا، دبلیو. چان، WS; فیشر، اس. Steenbergen، EV ایجاد ارزش از طریق داده های باز: مطالعه در مورد تأثیر استفاده مجدد از منابع داده عمومی . کمیسیون اروپا: اتحادیه اروپا 2015. در دسترس آنلاین: https://www.europeandataportal.eu/sites/default/files/edp_creating_value_through_open_data_0.pdf (دسترسی در 30 دسامبر 2020).
  6. کواراتی، ع. کلماتیس، ا. روورلی، ال. زریک، جی. داگوستینو، دی. مسکا، جی. Masnata، M. ادغام داده های حسگرهای آب و هوای ناهمگن در یک برنامه شهر هوشمند. در مجموعه مقالات کنفرانس بین المللی 2017 محاسبات و شبیه سازی با عملکرد بالا (HPCS)، جنوا، ایتالیا، 17 تا 21 ژوئیه 2017؛ صص 152-159. [ Google Scholar ]
  7. بنو، م. فیگل، ک. آمبریچ، جی. Polleres، A. درک موانع کلیدی در استفاده و انتشار داده های باز. JeDEM e J. eDemocracy Open Gov. 2017 ، 9 ، 134-165. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  8. آمبریچ، جی. نویمایر، اس. Polleres، A. ارزیابی کیفیت و تکامل پورتال های داده باز. در مجموعه مقالات سومین کنفرانس بین المللی 2015 درباره اینترنت اشیا و ابر آینده، رم، ایتالیا، 24 تا 26 اوت 2015; صص 404-411. [ Google Scholar ]
  9. یانسن، ام. چارالابیدیس، ی. Zuiderwijk، A. مزایا، موانع پذیرش و اسطوره های داده های باز و دولت باز. Inf. سیستم مدیریت 2012 ، 29 ، 258-268. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  10. کواراتی، ع. د مارتینو، ام. استفاده از داده های دولتی باز: مروری کوتاه. در مجموعه مقالات بیست و سومین سمپوزیوم مهندسی و برنامه های کاربردی پایگاه داده بین المللی، IDEAS 2019، آتن، یونان، 10 تا 12 ژوئن 2019؛ Desai, BC, Anagnostopoulos, D., Manolopoulos, Y., Nikolaidou, M., Eds. ACM: نیویورک، نیویورک، ایالات متحده آمریکا، 2019؛ صص 1-8. [ Google Scholar ] [ CrossRef ]
  11. صادق، س. Indulska, M. داده های باز: کیفیت بر کمیت. بین المللی J. Inf. مدیریت 2017 ، 37 ، 150-154. [ Google Scholar ] [ CrossRef ]
  12. ون دروال، اس. وسل، ک. ارمیلوف، آی. جانف، وی. میلوشویچ، یو. Wainwright، M. بالا بردن پورتال های باز داده به وب داده. در داده‌های باز پیوندی – ایجاد دانش از داده‌های به هم پیوسته ؛ Springer: Cham, Switzerland, 2014; صص 175-195. [ Google Scholar ]
  13. ماچوا، آر. Lnenicka، M. ارزیابی کیفیت پورتال های داده باز در سطح ملی. جی. تئور. Appl. الکترون. بازرگانی Res. 2017 ، 12 ، 21-41. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  14. نویمایر، اس. آمبریچ، جی. Polleres، A. ارزیابی خودکار کیفیت فراداده در پورتال های داده باز. J. Data Inf. کیفیت 2016 ، 8 ، 1-29. [ Google Scholar ] [ CrossRef ]
  15. برودر، جی. کوتزی، اس. دانکو، دی. گارسیا، اس. Hjelmager، J. فراداده اطلاعات جغرافیایی – چشم انداز از دیدگاه استانداردسازی بین المللی. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 280. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  16. تاگلیولاتو، پ. کریستیانو، اف. اوجیونی، ا. Paola, C. Semantic Profiles for Easing SensorML توضیحات: بررسی و پیشنهاد. ISPRS Int. J. Geo-Inf. 2019 ، 8 ، 340. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  17. بیتس، جی. سیاست اصطکاک داده ها. J. Doc. 2017 74 . _ [ Google Scholar ] [ CrossRef ]
  18. رایش، ک. Hofig, E. پیاده سازی معیارهای کیفیت فراداده و کاربرد در داده های دولتی عمومی. در مجموعه مقالات سی و هفتمین کنفرانس نرم افزارهای کامپیوتری و برنامه های کاربردی سالانه IEEE 2013، کیوتو، ژاپن، 22 تا 26 ژوئیه 2013. صص 236-241. [ Google Scholar ] [ CrossRef ]
  19. اولیویرا، MIS؛ د اولیویرا، HR; اولیویرا، لس آنجلس؛ Lóscio، BF تجزیه و تحلیل پورتالهای داده دولت باز: مورد برزیل. در مجموعه مقالات هفدهمین کنفرانس بین المللی پژوهشی دولت دیجیتال در مورد تحقیقات دولت دیجیتال ; ACM: نیویورک، نیویورک، ایالات متحده آمریکا، 2016؛ صص 415-424. [ Google Scholar ] [ CrossRef ]
  20. کوبلر، اس. رابرت، جی. نویمایر، اس. آمبریچ، جی. Traon, YL مقایسه کیفیت ابرداده در پورتال های داده باز با استفاده از فرآیند تحلیل سلسله مراتبی. فرمانداری Inf. Q. 2018 , 35 , 13-29. [ Google Scholar ] [ CrossRef ]
  21. کرشتاین، اف. دیتوالد، بی. دوتکوفسکی، اس. گلیکمن، ی. شیملر، اس. Hauswirth، M. داده های پیوندی در پورتال داده اروپا: بستری جامع برای به کارگیری DCAT-AP . دولت الکترونیک؛ Lindgren, I., Janssen, M., Lee, H., Polini, A., Rodríguez Bolívar, MP, Scholl, HJ, Tambouris, E., Eds.; انتشارات بین المللی Springer: چم، سوئیس، 2019; صص 192-204. [ Google Scholar ]
  22. Lourenço, RP تجزیه و تحلیل پورتال های دولتی باز: چشم اندازی از شفافیت برای پاسخگویی. فرمانداری Inf. Q. 2015 , 32 , 323-332. [ Google Scholar ] [ CrossRef ]
  23. صفروف، آی. مایجر، ع. Grimmelikhuijsen، S. استفاده از داده های دولت باز: بررسی ادبیات سیستماتیک انواع، شرایط، اثرات و کاربران. Inf. Polity 2017 ، 22 ، 1-24. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  24. دانکر، اف. van Loenen، B. چگونه می توان موفقیت اکوسیستم داده باز را ارزیابی کرد؟ بین المللی جی دیجیت. زمین 2017 ، 10 ، 284-306. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  25. ویرکار، اس. پریرا، GV در حال کاوش در داده های باز به روز: مروری بر تأثیرات اجتماعی، اقتصادی و سیاسی. در مجموعه مقالات کنفرانس بین المللی دولت الکترونیک – EGOV، کرمس، اتریش، 3 تا 5 سپتامبر 2018. [ Google Scholar ]
  26. کروزوئه، جی. سیمونوفسکی، آ. کلارینوال، ا. گبکا، ای. تأثیر موانع بر استفاده از داده های دولت باز: بینش کاربران. در مجموعه مقالات سیزدهمین کنفرانس بین المللی 2019 چالش های پژوهشی در علم اطلاعات (RCIS)، بروکسل، بلژیک، 29 تا 31 مه 2019؛ صص 1-12. [ Google Scholar ]
  27. بنو، م. فیگل، ک. آمبریچ، جی. پولرس، الف. امیدها و ترس های داده باز: تعیین موانع داده های باز. در مجموعه مقالات کنفرانس 2017 برای دموکراسی الکترونیکی و دولت باز (CeDEM)، کرمس، اتریش، 17 تا 19 مه 2017؛ صص 69-81. [ Google Scholar ]
  28. گونزالس-زاپاتا، اف. هیکز، آر. معانی چندگانه داده های دولت باز: درک سهامداران مختلف و دیدگاه های آنها. فرمانداری Inf. Q. 2015 ، 32 ، 441-452. [ Google Scholar ] [ CrossRef ]
  29. Wirtz، BW; Weyerer, JC; روش، ام. دولت باز و مشارکت شهروندان: تحلیلی تجربی از انتظارات شهروندان نسبت به داده های دولت باز. بین المللی Rev. Adm. 2019 ، 85 ، 566-586. [ Google Scholar ] [ CrossRef ]
  30. دگبلو، ا. گرانل، سی. تریلز، اس. باتاچاریا، دی. کاستلین، اس. کرای، سی. باز کردن شهرهای هوشمند: چالش ها و فرصت های شهروند محور از علم GIS. ISPRS Int. J. Geo-Inf. 2016 ، 5 ، 16. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  31. بنیتز-پائز، اف. دگبلو، ا. تریلز، اس. Huerta, J. موانع در استفاده مجدد از ژئوداده باز در کلمبیا و اسپانیا: دیدگاه کاربر داده. ISPRS Int. J. Geo-Inf. 2018 ، 7 ، 6. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  32. منیتز-پائز، اف. کامبر، ا. تریلز، اس. Huerta, J. ایجاد یک چارچوب مفهومی برای بهبود قابلیت استفاده مجدد از داده های جغرافیایی باز در شهرها. ترانس. GIS 2018 ، 22 ، 806-822. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  33. رویجر، ای. گریملیخویسن، اس. ون دن برگ، جی. Meijer، A. کار داده باز: درک استفاده از داده باز از یک لنز تمرینی. بین المللی Rev. Adm. 2020 ، 86 ، 3-19. [ Google Scholar ] [ CrossRef ]
  34. Degbelo، A. نیازهای کاربر داده باز: یک ترکیب اولیه. در مجموعه مجموعه مقالات کنفرانس وب 2020 ؛ انجمن ماشین‌های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، 2020؛ صص 834-839. [ Google Scholar ] [ CrossRef ]
  35. کوستن، ال.ام. کاچپرزاک، ای. تنیسون، JFA؛ سیمپرل، ای. آزمایش‌ها و مصیبت‌های کار با داده‌های ساختاریافته: مطالعه‌ای درباره رفتار جستجوی اطلاعات. در مجموعه مقالات کنفرانس CHI 2017 در مورد عوامل انسانی در سیستم های محاسباتی، دنور، CO، ایالات متحده، 6-11 مه 2017؛ انجمن ماشین‌های محاسباتی: نیویورک، نیویورک، ایالات متحده آمریکا، 2017؛ ص 1277–1289. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  36. زو، ایکس. فریمن، کارشناسی ارشد ارزیابی پورتال های داده باز شهرداری ایالات متحده: چارچوب تعامل کاربر. J. Assoc. Inf. علمی تکنولوژی 2018 ، 70 ، 27–37. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  37. ساس، تی. اسمیت، ا. برود، ای. تنیسون، جی. ولز، پی. Atz، U. توصیه‌هایی برای پورتال‌های داده باز: از راه‌اندازی تا پایداری ؛ دفتر انتشارات اتحادیه اروپا: لوکزامبورگ، 2017. [ Google Scholar ]
  38. Lnenicka، M. تجزیه و تحلیل عمیق پورتال های داده باز به عنوان یک سرویس الکترونیکی عمومی در حال ظهور. بین المللی جی. هوم. Soc. علمی 2015 ، 9 ، 589-599. [ Google Scholar ]
  39. سائز مارتین، آ. روزاریو، AHD; پرز، MDCC تجزیه و تحلیل بین المللی کیفیت پورتال های داده دولتی باز. Soc. علمی محاسبه کنید. Rev. 2016 , 34 , 298-311. [ Google Scholar ] [ CrossRef ]
  40. دی مارتینو، ام. رزیم، س. Quarati، A. مجموعه داده های هیدروگرافی در پورتال های داده دولت باز: کاهش مسائل قابلیت استفاده مجدد از طریق اسناد منشأ. در مجموعه مقالات فراداده و تحقیقات معنایی – سیزدهمین کنفرانس بین المللی MTSR، 2019، رم، ایتالیا، 28 تا 31 اکتبر 2019؛ جلد 1057، ص 307–319. [ Google Scholar ] [ CrossRef ]
  41. زوئیدرویک، ا. یانسن، ام. Susha, I. بهبود سرعت و سهولت استفاده از داده های باز از طریق فراداده، مکانیسم های تعامل و شاخص های کیفیت. J. Org. محاسبه کنید. الکترون. بازرگانی 2016 ، 26 ، 116-146. [ Google Scholar ] [ CrossRef ]
  42. هوختل، جی. Reichstädter, P. داده‌های باز مرتبط: ابزاری برای مدیریت اطلاعات بخش عمومی. در مجموعه مقالات دومین کنفرانس بین المللی دولت الکترونیک و دیدگاه سیستم های اطلاعاتی، تولوز، فرانسه، 29 اوت تا 2 سپتامبر 2011. Springer: Berlin/Heidelberg, Germay, 2011; صص 330-343. [ Google Scholar ]
  43. ویلکینسون، MD؛ دومانتیه، ام. آلبرسبرگ، آی جی; اپلتون، جی. آکستون، ام. باک، ا. بلومبرگ، ن. Boiten، JW; دا سیلوا سانتوس، LB; بورن، PE; و همکاران اصول راهنمای FAIR برای مدیریت داده های علمی و مباشرت. علمی داده 2016 ، 3 . [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  44. ویلکینسون، MD؛ Sansone، SA; شولتس، ای. دورن، پ. بونینو داسیلوا سانتوس، لو. Dumontier، M. چارچوب طراحی و معیارهای نمونه برای عادلانه بودن. bioRxiv 2017 . [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  45. کواراتی، ع. De Martino, M. Dataset Relating a Study on Geospatial Open Data Usage and Metadata Quality. Zenodo 2020 . [ Google Scholar ] [ CrossRef ]
  46. Ubaldi، B. اطلاعات دولت باز ; OECD: پاریس، فرانسه، 2013; جلد 22. [ Google Scholar ]
  47. Boudreau, C. استفاده مجدد از داده های باز در کبک: از توسعه اقتصادی تا شفافیت دولت. بین المللی Rev. Adm. 2020 . [ Google Scholar ] [ CrossRef ]
  48. پیشخوان. کد عملکرد COUNTER، انتشار 5. در اندازه گیری عملکرد و معیارها . COUNTER، 25: وینچستر، بریتانیا، 2019. [ Google Scholar ]
  49. باتینی، سی. Scannapieco، M. داده ها و کیفیت اطلاعات – ابعاد، اصول و تکنیک ها. در سیستم ها و برنامه های داده محور ؛ Springer: Cham, Switzerland, 2016. [ Google Scholar ] [ CrossRef ]
  50. وانگ، RY؛ قوی، DM فراتر از دقت: معنای کیفیت داده برای مصرف کنندگان داده است. جی. مناگ. Inf. سیستم 1996 ، 12 ، 5-33. [ Google Scholar ] [ CrossRef ]
  51. کواراتی، ع. آلبرتونی، آر. مارتینو، MD ارزیابی کیفیت کلی اصطلاحنامه SKOS: یک رویکرد مبتنی بر AHP. J. Inf. علمی 2017 ، 43 ، 816-834. [ Google Scholar ] [ CrossRef ]
  52. آلبرتونی، آر. دی مارتینو، ام. کواراتی، الف. مستند ارزیابی کیفیت واژگان کنترل شده مبتنی بر زمینه. IEEE Trans. ظهور. بالا. محاسبه کنید. 2018 . [ Google Scholar ] [ CrossRef ]
  53. خلیل زاده، ج. Tasci، AD حجم نمونه بزرگ، سطح معنی‌داری و اندازه اثر: راه‌حل‌هایی برای خطرات استفاده از داده‌های بزرگ برای تحقیقات دانشگاهی. تور. مدیریت 2017 ، 62 ، 89-96. [ Google Scholar ] [ CrossRef ]
  54. کونکیل، اس. Scherer, D. فرصت های جدید برای مخازن در عصر Altmetrics. گاو نر دانشیار Inf. علمی تکنولوژی 2013 ، 39 ، 22-26. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  55. استون، الف. آیا تلاش‌های داده باز کار می‌کنند؟ فناوری دولتی ، 1 مارس 2018. [ Google Scholar ]
  56. جوزف، RC; جانسون، کلان داده های NA و دولت تحول آفرین. پروفسور فناوری اطلاعات 2013 ، 15 ، 43-48. [ Google Scholar ] [ CrossRef ]
شکل 1. تعداد توزیع‌های نماها برای مجموعه داده‌های جغرافیایی پورتال ملی و بین‌المللی OGD (مجموع بازدیدها تا دسامبر 2019).
شکل 2. تعداد توزیع های دانلود برای مجموعه داده های جغرافیایی پورتال های کلمبیا، HDX و ناسا (تا دسامبر 2019).
شکل 3. توزیع کلی کیفیت فراداده.
شکل 4. همبستگی بین کیفیت کلی فراداده و تعداد بازدیدهای مجموعه داده های GOGD برای پورتال های انتخاب شده. اسپیرمن ρارزش ها با 0.05پ<0.05پست با *.

بدون دیدگاه

دیدگاهتان را بنویسید