هدف یادگیری
- هدف این بخش برجسته کردن تفاوت بین منابع داده اولیه و ثانویه و درک اهمیت فراداده و استانداردهای داده است.
فایل زیر با کاما را در نظر بگیرید:
شهر، خورشید، دما، بارش
لس آنجلس، 300، 70، 10
لندن، 50، 55، 40
سنگاپور، 330، 80، 60
با نگاهی به محتویات فایل متوجه می شویم که حاوی اطلاعاتی در مورد شهرهای لس آنجلس، لندن و سنگاپور است. همانطور که اشاره شد، هر فیلد یا ویژگی با کاما از هم جدا می شود و فایل همچنین حاوی یک ردیف سرصفحه است که اطلاعات موجود در هر ستون را به ما می گوید. یا این کار را می کند؟ ستون “خورشید” به چه چیزی اشاره دارد؟ آیا تعداد روزهای آفتابی امسال، سال گذشته، سالانه است یا چه زمانی؟ در مورد “دمای” چطور؟ آیا این به میانگین دمای روز، عصر یا سالانه اشاره دارد؟ برای این موضوع، دما چگونه اندازه گیری می شود؟ در درجه سانتیگراد؟ فارنهایت؟ کلوین؟ ستون “نشت” احتمالاً به بارش اشاره دارد، اما باز هم، واحدها یا چارچوب زمانی برای چنین اقدامات و داده هایی چیست؟ در نهایت، این داده ها از کجا آمده اند؟ چه کسی آنها را جمع آوری کرد، چه زمانی و با چه هدفی جمع آوری شدند؟
شگفتانگیز است که فکر کنید چنین فایل متنی کوچکی میتواند به سوالات زیادی منجر شود. حالا بیایید مثال را به فایلی با صد رکورد روی ده متغیر، هزار رکورد روی صد متغیر یا بهتر از آن ده هزار رکورد روی هزار متغیر گسترش دهیم. از طریق این مثال نسبتاً ساده، تعدادی از مسائل کلی اما محوری که به دادهها مربوط میشوند ظاهر میشوند. چنین مسائلی از قراردادهای نامگذاری نسبتاً پیش پا افتاده ای که برای شناسایی رکوردهای فردی (یعنی ردیف ها) و تمایز یک فیلد (به عنوان مثال، ستون) از دیگری استفاده می شوند، تا موضوع ارائه مستندات در مورد اینکه چه داده هایی در یک فایل خاص گنجانده شده است را شامل می شود. زمانی که داده ها جمع آوری شد؛ داده ها برای چه هدفی استفاده می شوند؛ چه کسی آنها را جمع آوری کرد. و البته، داده ها از کجا آمده اند؟
فایل متنی ساده قبلی نشان میدهد که چگونه نمیتوانیم و نباید دادهها و اطلاعات را بدیهی بگیریم. همچنین دو مفهوم مهم را با توجه به منبع داده ها و محتوای فایل های داده برجسته می کند. با توجه به منابع داده، داده ها را می توان در یکی از دو دسته مجزا قرار داد. دسته اول داده های اولیه نامیده می شود . داده های اولیه به داده هایی اطلاق می شود که مستقیماً یا به صورت دست اول جمع آوری می شوند. برای مثال، اگر میخواهید تغییرپذیری دمای محلی را در ماه مه بررسی کنید، و دما را در ظهر هر روز در ماه می ثبت کردهاید، یک مجموعه داده اولیه میسازید. برعکس، داده های ثانویهبه داده های جمع آوری شده توسط شخص دیگری یا شخص دیگری اشاره کنید. به عنوان مثال، هنگامی که ما با سرشماری یا داده های اقتصادی جمع آوری و توزیع شده توسط دولت کار می کنیم، از داده های ثانویه استفاده می کنیم.
عوامل متعددی بر تصمیم پشت ساخت و استفاده از مجموعه داده های اولیه در مقابل مجموعه داده های ثانویه تأثیر می گذارد. از جمله مهم ترین عوامل، هزینه های مرتبط با جمع آوری داده ها از نظر پول، در دسترس بودن و زمان است. در واقع، مرحله جمعآوری و یکپارچهسازی دادهها در اکثر پروژههای سیستم اطلاعات جغرافیایی (GIS) اغلب زمانبرترین است. به عبارت دیگر، مکان یابی، به دست آوردن و کنار هم قرار دادن داده هایی که برای یک پروژه GIS استفاده می شود، چه خودتان داده ها را جمع آوری کنید و چه از داده های ثانویه استفاده کنید، ممکن است در واقع بیشتر وقت شما را بگیرد. البته، بسته به هدف، در دسترس بودن و نیاز، ممکن است نیازی به ساخت یک مجموعه داده کاملاً جدید (یعنی مجموعه داده اولیه) نباشد. با توجه به حجم عظیمی از داده ها و اطلاعاتی که به طور عمومی در دسترس هستند، به عنوان مثال، از طریق اینترنت،
اکنون که ما درک اساسی از تفاوت بین داده های اولیه و ثانویه و همچنین منطق پشت هر کدام داریم، چگونه می توانیم داده ها و اطلاعات مورد نیاز خود را پیدا کنیم؟ همانطور که قبلاً اشاره شد، حجم فوقالعاده وسیع و رو به رشدی از دادهها و اطلاعات در دسترس ما است، و انجام جستجوی آنلاین برای «دادههای جنگلزدایی» صدها – اگر نه هزاران – نتیجه را به دست میآورد. برای غلبه بر این داده ها و اضافه بار اطلاعات باید به … حتی داده های بیشتری روی آوریم. به طور خاص، ما به دنبال نوع خاصی از داده به نام فراداده هستیم . با تعریف ساده، ابرداده، دادههایی درباره دادهها هستند. در یک سطح، یک ردیف سرصفحه در یک فایل متنی ساده مانند مواردی که در بخش قبل مورد بحث قرار گرفت، مشابه ابرداده است. سطر هدر داده ها (مثلاً نام ها و برچسب ها) را در مورد ردیف های بعدی داده ها ارائه می دهد.
با این حال، خود ردیفهای سرصفحه ممکن است نیاز به توضیح بیشتری داشته باشند، همانطور که قبلاً نشان داده شد. علاوه بر این، هنگام کار با چندین مجموعه داده یا جستجو در میان آنها، باز کردن هر فایل به منظور تعیین محتویات و قابلیت استفاده در بهترین حالت ممکن است بسیار خسته کننده یا در بدترین حالت غیرممکن باشد. متادیتا را وارد کنید امروزه بسیاری از فایلها، بهویژه مجموعههای داده ثانویه، با یک فایل فراداده همراه هستند. این فایل های ابرداده حاوی مواردی مانند توضیحات کلی در مورد محتوای فایل، تعاریف اصطلاحات مختلف مورد استفاده برای شناسایی رکوردها (ردیف ها) و فیلدها (فیلدها)، محدوده مقادیر برای فیلدها، کیفیت یا قابلیت اطمینان داده ها و اندازه گیری ها هستند. ، نحوه جمع آوری داده ها، زمان جمع آوری داده ها و چه کسی داده ها را جمع آوری کرده است. اگرچه همه داده ها با ابرداده همراه نیستند،
همانطور که فایلهای ساده در اشکال، اندازهها و فرمتهای مختلف وجود دارند، ابردادهها نیز چنین هستند. از آنجایی که مقدار و در دسترس بودن دادهها و اطلاعات هر روز افزایش مییابد، ابردادهها نقش مهمی در درک همه آن دارند. دسته ای از ابرداده ها که در هنگام کار با GIS بیشتر به آن توجه می کنیم، ابرداده های مکانی نامیده می شوند . همانطور که از نام آن پیداست، ابرداده های مکانی، داده هایی در مورد داده های جغرافیایی و مکانی هستند. طبق کمیته اطلاعات جغرافیایی فدرال (FGDC) در ایالات متحده (به https://www.fgdc.gov مراجعه کنید)، «فراداده جغرافیایی برای مستندسازی منابع دیجیتال جغرافیایی مانند فایلهای GIS، پایگاههای اطلاعاتی جغرافیایی و تصاویر زمین استفاده میشود. یک رکورد ابرداده جغرافیایی شامل عناصر اصلی فهرست کتابخانه مانند عنوان، چکیده، و داده های انتشار است. عناصر جغرافیایی مانند گستره جغرافیایی و اطلاعات طرح ریزی. و عناصر پایگاه داده مانند تعاریف برچسب ویژگی و ارزش دامنه مشخصه.” تعریف فراداده جغرافیایی در مورد بهبود شفافیت در مورد داده ها و همچنین ارتقای استانداردها است. چند لحظه را به کاوش و بررسی محتوای یک فایل فراداده جغرافیایی که با FGDC در اینجا مطابقت دارد، اختصاص دهید .
به طور کلی، استانداردها به قوانین و شیوههایی که به طور گسترده ترویج، پذیرفته شده و دنبال میشوند اشاره دارد. با توجه به دامنه و تنوع داده ها و منابع داده، شناسایی یک رشته مشترک برای مکان یابی و درک محتویات هر فایل معین می تواند یک چالش باشد. همانطور که قواعد دستور زبان و ریاضیات به ترتیب پایههای ارتباط و محاسبات عددی را فراهم میکنند، ابردادهها نیز چارچوبهای مشابهی را برای کار با دادهها و اطلاعات از منابع مختلف و اشتراکگذاری آنها فراهم میکنند.
نکته اصلی در پس ابرداده این است که به اشتراک گذاری داده ها و اطلاعات را تسهیل می کند. در چارچوب سازمانهای بزرگ مانند دولتها، به اشتراکگذاری دادهها و اطلاعات میتواند افزونگیها را از بین ببرد و کارایی را افزایش دهد. علاوه بر این، دسترسی به دادهها و اطلاعات، یکپارچهسازی دادههای مختلف را ارتقا میدهد که میتواند تحلیلها را بهبود بخشد، تصمیمگیریها را آگاه کند و خطمشی را شکل دهد. نقشی که ابرداده – و بهویژه ابردادههای مکانی – در دنیای GIS ایفا میکنند، حیاتی است و مزایای زیادی از نظر صرفهجویی در هزینه و زمان ارائه میکند. این دقیقاً به اشتراک گذاری، توزیع گسترده و یکپارچه سازی داده ها و اطلاعات مختلف جغرافیایی و غیرجغرافیایی است که توسط ابرداده ها فعال می شود، که برخی از جالب ترین و قانع کننده ترین نوآوری ها در GIS و جامعه گسترده تر فناوری اطلاعات جغرافیایی را هدایت می کند. مهمتر،
خوراکی های کلیدی
- داده های اولیه به داده هایی اطلاق می شود که از طریق مشاهده یا اندازه گیری مستقیم به دست می آیند و داده های ثانویه به داده های جمع آوری شده توسط یک طرف دیگر اشاره دارد.
- جمع آوری داده ها یکی از زمان برترین جنبه های هر پروژه GIS است.
- ابرداده دادههایی درباره دادهها هستند و تبادل، انتشار و یکپارچهسازی دادهها را ارتقا میدهند.
تمرینات
- هزینه ها و مزایای استفاده از داده های اولیه به جای داده های ثانویه چیست؟
- به وبسایت کمیته دادههای جغرافیایی فدرال ( https://www.fgdc.gov ) مراجعه کنید و با جزئیات توضیح دهید که چه اطلاعاتی باید در یک فایل فراداده گنجانده شود. چرا ابرداده ها و استانداردها مهم هستند؟
بدون دیدگاه