داده های مربوط به داده ها

هدف یادگیری

  1. هدف این بخش برجسته کردن تفاوت بین منابع داده اولیه و ثانویه و درک اهمیت فراداده و استانداردهای داده است.

فایل زیر با کاما را در نظر بگیرید:

شهر، خورشید، دما، بارش

لس آنجلس، 300، 70، 10

لندن، 50، 55، 40

سنگاپور، 330، 80، 60

با نگاهی به محتویات فایل متوجه می شویم که حاوی اطلاعاتی در مورد شهرهای لس آنجلس، لندن و سنگاپور است. همانطور که اشاره شد، هر فیلد یا ویژگی با کاما از هم جدا می شود و فایل همچنین حاوی یک ردیف سرصفحه است که اطلاعات موجود در هر ستون را به ما می گوید. یا این کار را می کند؟ ستون “خورشید” به چه چیزی اشاره دارد؟ آیا تعداد روزهای آفتابی امسال، سال گذشته، سالانه است یا چه زمانی؟ در مورد “دمای” چطور؟ آیا این به میانگین دمای روز، عصر یا سالانه اشاره دارد؟ برای این موضوع، دما چگونه اندازه گیری می شود؟ در درجه سانتیگراد؟ فارنهایت؟ کلوین؟ ستون “نشت” احتمالاً به بارش اشاره دارد، اما باز هم، واحدها یا چارچوب زمانی برای چنین اقدامات و داده هایی چیست؟ در نهایت، این داده ها از کجا آمده اند؟ چه کسی آنها را جمع آوری کرد، چه زمانی و با چه هدفی جمع آوری شدند؟

شگفت‌انگیز است که فکر کنید چنین فایل متنی کوچکی می‌تواند به سوالات زیادی منجر شود. حالا بیایید مثال را به فایلی با صد رکورد روی ده متغیر، هزار رکورد روی صد متغیر یا بهتر از آن ده هزار رکورد روی هزار متغیر گسترش دهیم. از طریق این مثال نسبتاً ساده، تعدادی از مسائل کلی اما محوری که به داده‌ها مربوط می‌شوند ظاهر می‌شوند. چنین مسائلی از قراردادهای نامگذاری نسبتاً پیش پا افتاده ای که برای شناسایی رکوردهای فردی (یعنی ردیف ها) و تمایز یک فیلد (به عنوان مثال، ستون) از دیگری استفاده می شوند، تا موضوع ارائه مستندات در مورد اینکه چه داده هایی در یک فایل خاص گنجانده شده است را شامل می شود. زمانی که داده ها جمع آوری شد؛ داده ها برای چه هدفی استفاده می شوند؛ چه کسی آنها را جمع آوری کرد. و البته، داده ها از کجا آمده اند؟

فایل متنی ساده قبلی نشان می‌دهد که چگونه نمی‌توانیم و نباید داده‌ها و اطلاعات را بدیهی بگیریم. همچنین دو مفهوم مهم را با توجه به منبع داده ها و محتوای فایل های داده برجسته می کند. با توجه به منابع داده، داده ها را می توان در یکی از دو دسته مجزا قرار داد. دسته اول داده های اولیه نامیده می شود . داده های اولیه به داده هایی اطلاق می شود که مستقیماً یا به صورت دست اول جمع آوری می شوند. برای مثال، اگر می‌خواهید تغییرپذیری دمای محلی را در ماه مه بررسی کنید، و دما را در ظهر هر روز در ماه می ثبت کرده‌اید، یک مجموعه داده اولیه می‌سازید. برعکس، داده های ثانویهبه داده های جمع آوری شده توسط شخص دیگری یا شخص دیگری اشاره کنید. به عنوان مثال، هنگامی که ما با سرشماری یا داده های اقتصادی جمع آوری و توزیع شده توسط دولت کار می کنیم، از داده های ثانویه استفاده می کنیم.

عوامل متعددی بر تصمیم پشت ساخت و استفاده از مجموعه داده های اولیه در مقابل مجموعه داده های ثانویه تأثیر می گذارد. از جمله مهم ترین عوامل، هزینه های مرتبط با جمع آوری داده ها از نظر پول، در دسترس بودن و زمان است. در واقع، مرحله جمع‌آوری و یکپارچه‌سازی داده‌ها در اکثر پروژه‌های سیستم اطلاعات جغرافیایی (GIS) اغلب زمان‌برترین است. به عبارت دیگر، مکان یابی، به دست آوردن و کنار هم قرار دادن داده هایی که برای یک پروژه GIS استفاده می شود، چه خودتان داده ها را جمع آوری کنید و چه از داده های ثانویه استفاده کنید، ممکن است در واقع بیشتر وقت شما را بگیرد. البته، بسته به هدف، در دسترس بودن و نیاز، ممکن است نیازی به ساخت یک مجموعه داده کاملاً جدید (یعنی مجموعه داده اولیه) نباشد. با توجه به حجم عظیمی از داده ها و اطلاعاتی که به طور عمومی در دسترس هستند، به عنوان مثال، از طریق اینترنت،

اکنون که ما درک اساسی از تفاوت بین داده های اولیه و ثانویه و همچنین منطق پشت هر کدام داریم، چگونه می توانیم داده ها و اطلاعات مورد نیاز خود را پیدا کنیم؟ همانطور که قبلاً اشاره شد، حجم فوق‌العاده وسیع و رو به رشدی از داده‌ها و اطلاعات در دسترس ما است، و انجام جستجوی آنلاین برای «داده‌های جنگل‌زدایی» صدها – اگر نه هزاران – نتیجه را به دست می‌آورد. برای غلبه بر این داده ها و اضافه بار اطلاعات باید به … حتی داده های بیشتری روی آوریم. به طور خاص، ما به دنبال نوع خاصی از داده به نام فراداده هستیم . با تعریف ساده، ابرداده، داده‌هایی درباره داده‌ها هستند. در یک سطح، یک ردیف سرصفحه در یک فایل متنی ساده مانند مواردی که در بخش قبل مورد بحث قرار گرفت، مشابه ابرداده است. سطر هدر داده ها (مثلاً نام ها و برچسب ها) را در مورد ردیف های بعدی داده ها ارائه می دهد.

با این حال، خود ردیف‌های سرصفحه ممکن است نیاز به توضیح بیشتری داشته باشند، همانطور که قبلاً نشان داده شد. علاوه بر این، هنگام کار با چندین مجموعه داده یا جستجو در میان آنها، باز کردن هر فایل به منظور تعیین محتویات و قابلیت استفاده در بهترین حالت ممکن است بسیار خسته کننده یا در بدترین حالت غیرممکن باشد. متادیتا را وارد کنید امروزه بسیاری از فایل‌ها، به‌ویژه مجموعه‌های داده ثانویه، با یک فایل فراداده همراه هستند. این فایل های ابرداده حاوی مواردی مانند توضیحات کلی در مورد محتوای فایل، تعاریف اصطلاحات مختلف مورد استفاده برای شناسایی رکوردها (ردیف ها) و فیلدها (فیلدها)، محدوده مقادیر برای فیلدها، کیفیت یا قابلیت اطمینان داده ها و اندازه گیری ها هستند. ، نحوه جمع آوری داده ها، زمان جمع آوری داده ها و چه کسی داده ها را جمع آوری کرده است. اگرچه همه داده ها با ابرداده همراه نیستند،

همانطور که فایل‌های ساده در اشکال، اندازه‌ها و فرمت‌های مختلف وجود دارند، ابرداده‌ها نیز چنین هستند. از آنجایی که مقدار و در دسترس بودن داده‌ها و اطلاعات هر روز افزایش می‌یابد، ابرداده‌ها نقش مهمی در درک همه آن دارند. دسته ای از ابرداده ها که در هنگام کار با GIS بیشتر به آن توجه می کنیم، ابرداده های مکانی نامیده می شوند . همانطور که از نام آن پیداست، ابرداده های مکانی، داده هایی در مورد داده های جغرافیایی و مکانی هستند. طبق کمیته اطلاعات جغرافیایی فدرال (FGDC) در ایالات متحده (به http://www.fgdc.gov مراجعه کنید)، «فراداده جغرافیایی برای مستندسازی منابع دیجیتال جغرافیایی مانند فایل‌های GIS، پایگاه‌های اطلاعاتی جغرافیایی و تصاویر زمین استفاده می‌شود. یک رکورد ابرداده جغرافیایی شامل عناصر اصلی فهرست کتابخانه مانند عنوان، چکیده، و داده های انتشار است. عناصر جغرافیایی مانند گستره جغرافیایی و اطلاعات طرح ریزی. و عناصر پایگاه داده مانند تعاریف برچسب ویژگی و ارزش دامنه مشخصه.” تعریف فراداده جغرافیایی در مورد بهبود شفافیت در مورد داده ها و همچنین ارتقای استانداردها است. چند لحظه را به کاوش و بررسی محتوای یک فایل فراداده جغرافیایی که با FGDC در اینجا مطابقت دارد، اختصاص دهید .

به طور کلی، استانداردها به قوانین و شیوه‌هایی که به طور گسترده ترویج، پذیرفته شده و دنبال می‌شوند اشاره دارد. با توجه به دامنه و تنوع داده ها و منابع داده، شناسایی یک رشته مشترک برای مکان یابی و درک محتویات هر فایل معین می تواند یک چالش باشد. همانطور که قواعد دستور زبان و ریاضیات به ترتیب پایه‌های ارتباط و محاسبات عددی را فراهم می‌کنند، ابرداده‌ها نیز چارچوب‌های مشابهی را برای کار با داده‌ها و اطلاعات از منابع مختلف و اشتراک‌گذاری آن‌ها فراهم می‌کنند.

نکته اصلی در پس ابرداده این است که به اشتراک گذاری داده ها و اطلاعات را تسهیل می کند. در چارچوب سازمان‌های بزرگ مانند دولت‌ها، به اشتراک‌گذاری داده‌ها و اطلاعات می‌تواند افزونگی‌ها را از بین ببرد و کارایی را افزایش دهد. علاوه بر این، دسترسی به داده‌ها و اطلاعات، یکپارچه‌سازی داده‌های مختلف را ارتقا می‌دهد که می‌تواند تحلیل‌ها را بهبود بخشد، تصمیم‌گیری‌ها را آگاه کند و خط‌مشی را شکل دهد. نقشی که ابرداده – و به‌ویژه ابرداده‌های مکانی – در دنیای GIS ایفا می‌کنند، حیاتی است و مزایای زیادی از نظر صرفه‌جویی در هزینه و زمان ارائه می‌کند. این دقیقاً به اشتراک گذاری، توزیع گسترده و یکپارچه سازی داده ها و اطلاعات مختلف جغرافیایی و غیرجغرافیایی است که توسط ابرداده ها فعال می شود، که برخی از جالب ترین و قانع کننده ترین نوآوری ها در GIS و جامعه گسترده تر فناوری اطلاعات جغرافیایی را هدایت می کند. مهمتر،

خوراکی های کلیدی

  • داده های اولیه به داده هایی اطلاق می شود که از طریق مشاهده یا اندازه گیری مستقیم به دست می آیند و داده های ثانویه به داده های جمع آوری شده توسط یک طرف دیگر اشاره دارد.
  • جمع آوری داده ها یکی از زمان برترین جنبه های هر پروژه GIS است.
  • ابرداده داده‌هایی درباره داده‌ها هستند و تبادل، انتشار و یکپارچه‌سازی داده‌ها را ارتقا می‌دهند.

تمرینات

  1. هزینه ها و مزایای استفاده از داده های اولیه به جای داده های ثانویه چیست؟
  2. به وب‌سایت کمیته داده‌های جغرافیایی فدرال ( http://www.fgdc.gov ) مراجعه کنید و با جزئیات توضیح دهید که چه اطلاعاتی باید در یک فایل فراداده گنجانده شود. چرا ابرداده ها و استانداردها مهم هستند؟

بدون دیدگاه

دیدگاهتان را بنویسید