خلاصه

از طریق داده های داوطلبانه، افراد می توانند به ارزیابی اطلاعات در مورد جنبه های مختلف محیط اطراف خود کمک کنند. به ویژه در مدیریت منابع طبیعی، اطلاعات جغرافیایی داوطلبانه (VGI) به طور فزاینده ای به عنوان یک منبع مهم شناخته می شود، به عنوان مثال، پشتیبانی از تحلیل الگوی بازدید برای ارزیابی ارزش های جمعی و بهبود رفاه طبیعی. با این حال، در سال های اخیر، حفظ حریم خصوصی کاربران به یک موضوع مهم تبدیل شده است. تضادهای بالقوه اغلب از این واقعیت پدید می‌آیند که VGI می‌تواند در زمینه‌هایی که در اصل توسط داوطلبان در نظر گرفته نشده است، دوباره استفاده شود. پرداختن به این تضادهای حریم خصوصی به ویژه در مدیریت منابع طبیعی مشکل ساز است، جایی که تجسم ها اغلب اکتشافی هستند، با مجموعه های چند وجهی و گاهی اوقات در ابتدا ناشناخته از نتایج تحلیل. در این صفحه، ما یک رویکرد یکپارچه و مبتنی بر مؤلفه برای تجسم آگاه از حریم خصوصی VGI ارائه می‌کنیم، که به طور خاص برای کاربرد در مدیریت منابع طبیعی مناسب است. به عنوان یک مؤلفه کلیدی، HyperLogLog (HLL) – یک قالب انتزاعی داده – برای امکان تخمین نتایج به جای اندازه گیری دقیق تر استفاده می شود. در حالی که HLL به تنهایی نمی تواند حریم خصوصی را حفظ کند، می توان آن را با رویکردهای موجود برای بهبود حریم خصوصی ترکیب کرد و در عین حال، انعطاف پذیری تجزیه و تحلیل را حفظ کرد. این مؤلفه‌ها با هم، کاهش تدریجی خطرات حریم خصوصی برای داوطلبان را در مراحل مختلف فرآیند تحلیلی ممکن می‌سازد. یک نمایش مورد استفاده خاص بر اساس یک مجموعه داده جهانی و در دسترس عموم ارائه شده است که شامل 100 میلیون عکس است که توسط 581099 کاربر تحت مجوزهای Creative Commons به اشتراک گذاشته شده است.

کلید واژه ها:

حریم خصوصی ؛ شبکه های اجتماعی ؛ داده های مکانی ؛ HyperLogLog ; تصمیم گیری ؛ تجسم

چکیده گرافیکی

1. معرفی

مجموعه‌ای از اصطلاحات برای توصیف محتوای تولید شده توسط کاربر (UGC) که در دسترس عموم است و برای زمینه‌های مختلف کاربرد و حل مسئله استفاده می‌شود، مانند اطلاعات جغرافیایی داوطلبانه (VGI)، اطلاعات جغرافیایی مشارکتی (CGI) یا اطلاعات جغرافیایی محیطی پدید آمده است. (AGI) (نگاه کنید به [ 1 ]). یکی از دلایل این است که بین اشتراک گذاری داوطلبانه اطلاعات و اطلاعات داوطلبانه تفاوت ظریف وجود دارد. به عنوان مثال، برای یک هدف یا کاربرد خاص مانند VGI [ 2 ]. گرماندی و سینکلر [ 3]، در میان دیگران، اصطلاح «جمع سپاری غیرفعال» را برای مورد خاص UGC ابداع کرد که در آن «[…] اطلاعات به طور داوطلبانه توسط کاربران به اشتراک گذاشته می شود، البته نه برای هدفی که توسط محققان استفاده می شود» (ص. 37).
با این حال، از منظر حفظ حریم خصوصی، به نظر می‌رسد که این مشکلات در تعریف دقیق داده‌ها اهمیت چندانی ندارند، زیرا حریم خصوصی داوطلبان می‌تواند بدون در نظر گرفتن اینکه داده‌ها داوطلبانه یا داوطلبانه به اشتراک گذاشته شده‌اند به خطر بیفتد [ 2 ، 3 ]. به عنوان یک تعریف ساده و در عین حال مفید از حریم خصوصی، Malhotra و همکاران. [ 4] از عبارت نگرانی‌های مربوط به حریم خصوصی اطلاعات کاربران اینترنت (IUIPC) برای توصیف «میزان نگرانی یک فرد در مورد میزان داده‌های خاص فردی که توسط دیگران نسبت به ارزش مزایای دریافتی در اختیار دارد» (ص. 338) استفاده کنید. چنین تعریفی نشان می‌دهد که هرگونه ارزیابی از حریم خصوصی و عوامل اخلاقی زمانی که با کاربردهای واقعی داده‌ها جدا باشد ناقص است، مفهومی که توسط نویسندگان دیگر پشتیبانی می‌شود (نگاه کنید به [5، 6 ] ) . در اینجا، مدیریت منابع طبیعی نقش ویژه ای ایفا می کند، زیرا کاربردهای داده ها معمولاً در جهت منافع افراد یا جامعه است (نگاه کنید به [ 7 ]؛ همچنین به مدل سیستم ما، شکل 1، در بخش 3 توجه کنید.). در نتیجه، حفاظت از هویت داوطلبان، در عین حال که کیفیت نتایج را نیز حفظ می کند، باید مورد علاقه تصمیم گیرندگان و عموم مردم باشد [ 2 ، 3 ، 5 ].
بسیاری از تکنیک‌ها در حال حاضر وجود دارند که به کاهش حساسیت مجموعه داده‌های داوطلبانه یا جمع‌آوری‌شده و نتایج مشترک کمک می‌کنند. این تکنیک ها از مولفه های اساسی، مانند ناشناس سازی شبه یا هش رمزنگاری، تا راه حل های پیچیده تر، مانند القای نویز یا تجمیع داده ها را شامل می شود (به [ 8 ، 9 ] مراجعه کنید). در سطح مدل سیستم، این مؤلفه‌ها را می‌توان با در نظر گرفتن مجموعه گسترده‌تری از پروتکل‌ها و چارچوب‌های عملکرد خوب، مانند کمینه‌سازی داده‌ها، اصل جداسازی نگرانی‌ها، یا حریم خصوصی با طراحی و حریم خصوصی به‌طور پیش‌فرض (برای تعاریف این موارد) ترکیب کرد. شرایط، [ 8 ، 10 ، 11 ، 12 را ببینید]). معمولاً پذیرفته شده است که افزایش سطوح حریم خصوصی با هزینه‌های متعددی همراه است، مانند محدودیت‌ها در تنظیم تحقیقات یا کاهش سودمندی نتایج [ 13 ]. به عنوان یک نتیجه اولیه از این بسیاری از ملاحظات، یک بحث مداوم و داغ پیرامون سؤالاتی در مورد اینکه کجا می توان مصالحه کرد، چگونه اجزاء را به بهترین نحو ترکیب کرد و چه سطوحی از خطرات قابل قبول است، پدیدار شد [14 ] .
در جستجوی مکانیسم‌های بهبودیافته و قوی برای محافظت از حریم خصوصی، تعجب آور نیست که اجزایی که مزایای مختلفی را ارائه می‌کنند توجه کمی به خود جلب می‌کنند، اگر نتوانند بالاترین انتظارات را از حریم خصوصی برآورده کنند [15 ] . یکی از این مؤلفه ها HyperLogLog (HLL) است، یک قالب انتزاعی داده که توسط Flajolet و همکاران پیشنهاد شده است. [ 16 ] برای شمارش مقادیر متمایز در یک مجموعه، به نام تخمین کاردینالیته. HLL ممکن است به طور خاص شکافی را در مراحل میانی فرآیندهای تحلیلی پر کند، جایی که حفظ حریم خصوصی یک الزام مطلق نیست. چنین موقعیت هایی اغلب در سیستم های تصمیم گیری چند معیاره [ 17 ] و علم شهروندی [ 18] رخ می دهد.]، با طیف وسیعی از نیازها برای تنظیم تدریجی معاوضه حریم خصوصی و ابزار در مراحل مختلف پردازش داده ها. HLL دارای چندین ویژگی است که آن را به ویژه به عنوان یک مؤلفه میانی و آگاه از حریم خصوصی برای برنامه های کاربردی آگاه از مکان مانند VGI و اطلاعات جغرافیایی جمع سپاری مناسب می کند [ 19]]. با این حال، از آنجایی که الگوریتم HLL فقط تخمین کاردینالیته را امکان پذیر می‌کند، کاربرد آن در حوزه فضایی نیاز به در نظر گرفتن اجزای اضافه، روش‌ها و استراتژی‌های کاهش ریسک دارد. از آنجایی که اثر حفظ حریم خصوصی HLL به خودی خود تضمین نمی شود، ما از “حریم خصوصی آگاه” برای تاکید بر وابستگی به پیاده سازی، انتخاب های کاربر و ویژگی های داده استفاده می کنیم. علاوه بر این، پردازش داده‌های مکانی برای تصمیم‌گیری چند معیاره شامل مراحل متعددی از بازیابی داده‌ها تا ذخیره‌سازی داده‌ها و تجسم و انتشار نتایج است. با هدف کاهش تدریجی خطر شناسایی مجدد افراد، معاوضه حریم خصوصی و ابزار در هر یک از این مراحل امکان پذیر است.
در این مقاله، ما یک مثال یکپارچه از استفاده از HLL برای نظارت بر الگوهای بازدید فضایی را نشان می‌دهیم. ما بحث می کنیم که چگونه چندین تکنیک کاهش خطر را می توان با در نظر گرفتن پارامترهای فردی در ترکیب با سایر مؤلفه ها، از جمله ادغام مفاهیم geoprivacy [ 20] اجرا کرد.]. با در نظر گرفتن شرایط منحصربه‌فرد داده‌های جغرافیایی جمع‌سپاری عمومی و داوطلبانه، نشان داده می‌شود که چگونه HLL ممکن است شکاف پردازش آگاهانه از حریم خصوصی داده‌های تولید شده توسط کاربر را در مدیریت منابع طبیعی پر کند. با توجه به باز بودن و پیچیدگی مجموعه تحقیقاتی ارائه شده، تأکید می کنیم که هدف ما ارائه مدارک رسمی برای حفظ حریم خصوصی با تکنیک های نشان داده شده در اینجا نیست. ارزیابی‌های ریاضی از رابطه مطلوبیت با حریم خصوصی وجود دارد و برای ابزارها و مؤلفه‌های فردی مورد استفاده در این کار ارجاع داده می‌شود. در عوض، با نشان دادن یک طرح مدولار آگاه از حریم خصوصی گسترده تر که می تواند بر اساس نیازهای شخصی و زمینه های برنامه تطبیق داده شود، تمرکز ما بر سودمندی است. درجات مختلفی از تناسب برای اهداف خاص وجود دارد، و چندین مثال در این کار مورد بحث قرار گرفته است. به عنوان وسیله ای برای کاهش موانع کاربرد عملی، ما به طور خاص جزئیات پیاده سازی و موانع را برای ادغام HLL در گردش کار موجود در نظر می گیریم. بنابراین، مشارکت‌های ما چندوجهی است، اما بر روی یک تنظیم تجسم جدید و ارزیابی متعادل و کاربردی‌محور مبادلات بین حریم خصوصی و ابزار تمرکز دارد. با حمایت از پذیرش گسترده و تکرار شفاف نتایج، ابزارهای خود، پردازش خط لوله و داده های معیار را در کنار این کار به طور کامل منتشر می کنیم.

2. کار قبلی

تعاریف مفیدی که به توصیف ابعاد روانی، اجتماعی و سیاسی حریم خصوصی کمک می کند، از دهه 1960 وجود داشته است [ 21 ، 22 ]. با این حال، تنها در دهه اول قرن بیست و یکم بود که مفاهیم رسمی حریم خصوصی در دسترس قرار گرفت و به دانشمندان اجازه داد تضادهای حریم خصوصی را در مجموعه داده ها کمیت و اندازه گیری کنند [ 23 ]. K-anonymity [ 24 ] یکی از اولین روش‌های پیشنهادی بود که هدف آن کمی کردن و پیش‌بینی خطر شناسایی مجدد در یک مجموعه داده است. در اینجا، k آستانه ای را برای تعداد دفعاتی که ویژگی ها ممکن است در یک مجموعه داده رخ دهد برای گنجاندن [ 25 ] توصیف می کند، به عنوان مثال، حداقل پنج به عنوان یک قانون سرانگشتی [ 26]] (ص 14). یک k کمتر معمولاً به معنای خطر بالاتر شناسایی مجدد است، به عنوان مثال، از طریق ارتباط مشترک و ترکیب ویژگی ها با اطلاعات خارجی. برعکس، k بزرگتر منجر به از دست دادن اطلاعات بیشتر می شود، تا جایی که داده ها بی فایده می شوند [ 23 ] (ص. 2754).
برای جبران کاستی های مختلف در موارد استفاده خاص، تعداد زیادی از انواع فرعی، جایگزین ها و پیشرفت ها پیشنهاد شده است [ 25 ، 27 ، 28 ]. با این حال، در حالی که کاهش دانه بندی یا سرکوب داده ها می تواند خطرات را کاهش دهد، ارائه تضمین های دقیق [ 13 ] دشوار است. این یکی از دلایلی بود که Dwork et al. [ 29 ] مسیر متفاوتی را بر اساس سطوح نویز با دقت کالیبره شده اضافه شده به خروجی ها بررسی کرد. بعدها، این مفهوم به عنوان حریم خصوصی متفاوت (DP) شناخته شد و یک مفهوم رسمی دقیق و تضمین های ریاضی برای حفظ حریم خصوصی [ 30 ] ارائه کرد.
در حالی که k-anonymity، DP و سایر رویکردها در حال حاضر طیف گسترده ای از موارد استفاده را پوشش می دهند، چندین چالش همچنان کاربرد گسترده آنها را در عمل محدود می کند [ 12 ، 23 ، 31 ]. برای مثال، در حالی که DP آسیب‌پذیری‌های شناخته شده k-anonymity را حل می‌کند، تعدادی از عوامل انعطاف‌پذیری و امکان‌سنجی را در عمل کاهش می‌دهند [ 23 ] (ص. 2760). [ 31 ]. مشابه K-anonymity، برخی از سوالات تحلیلی به سطوحی از نویز نیاز دارند که برای نتایج مضر است [ 14 ، 27]]. برای القای تصادفی، حداقل برخی از ویژگی‌های آماری داده‌ها باید شناخته شوند، که نیاز به انطباق خاص یا تحمیل محدودیت‌هایی برای استفاده در برنامه‌های پخش جریانی، ابزارهای نظارت مستمر و خطوط لوله تجسم‌های مستقل دارند [12] (ص. 71 ) . [ 32 ، 33 ]. در حالی که استثنائات اعمال می شود، اکثر رویکردهای موجود نیز به طور خاص بر حفظ حریم خصوصی انتشار نتایج تمرکز می کنند (نگاه کنید به [ 28 ]، ص 16)، با نادیده گرفتن این که هر “عمل جمع آوری داده ها […] نقطه شروع نگرانی های مختلف در مورد حریم خصوصی اطلاعات است” [4 ] ] (ص 338).
از منظر حفظ حریم خصوصی، یک جزء نسبتاً جدید، ساختارهای داده احتمالی (PDS) مانند فیلترهای بلوم، طرح‌های شمارش حداقل، یا HyperLogLog (HLL) هستند (برای یک نمای کلی به [ 19 ] مراجعه کنید ). برخلاف k-anonymity – که بر اساس اصول تجمع و حذف در مجموعه داده‌های منفرد شکل گرفته است – و DP – که بر اساس اختلال داده‌های تصادفی با تمرکز بر حساسیت خروجی ساخته شده است -، الگوریتم‌های احتمالی استراتژی متفاوتی را با هدف متفاوت به کار می‌برند. با حذف سیستماتیک بخش‌های اطلاعات در سطح بنیادی‌تری از داده‌ها، دقت با کاهش حیرت‌انگیز در مصرف حافظه و زمان پردازش معامله می‌شود، در حالی که محدودیت‌های خطای تضمین شده حفظ می‌شود (همان، ص 1). به طور طبیعی، مورد اصلی استفاده از محاسبات احتمالی، داده های بزرگ و برنامه های کاربردی جریان بود (همان).
اخیراً، چندین نشریه به کاربرد PDS برای حفظ حریم خصوصی، با نتایج دوسویه نگاه کرده اند. فیسیتن و همکاران [ 27 ] طرح‌های Count-Min را با k-anonymity ترکیب کرد، به‌عنوان وسیله‌ای برای بهبود عملکرد برای تخمین فرکانس‌های پرس و جو برای مجموعه‌های داده بسیار بزرگ. Bianchi، Bracciale و Loreti [ 34 ]، با بررسی مزایای حفظ حریم خصوصی فیلترهای بلوم، به نتیجه‌ای «بهتر از هیچ» می‌رسند. به منظور متعادل کردن دقت و حریم خصوصی، یو و وبر [ 35 ] HLL را برای تعداد کل در داده‌های بالینی پیشنهاد کردند و آزمایشی را با 100 میلیون بیمار شبیه‌سازی کردند. دزفونتینز و همکاران [ 36 ] ثابت می کند که HLL حریم خصوصی را حفظ نمی کند، اما چندین استراتژی کاهش خطر را پیشنهاد می کند. اخیراً، رایت و همکاران. [ 37] نشان می دهد که فیلترهای HLL و Bloom را می توان برای ارضای تعریف دقیق DP ترکیب کرد. در دیدگاه خود، سینگ و همکاران. [ 19 ] تأکید می کند که استفاده از PDS در برنامه های کاربردی آگاه از مکان نیاز به کاوش بیشتر دارد (همان، ص 17).
به طور خلاصه، در حالی که حریم خصوصی یک ویژگی اولیه PDS نیست، به عنوان یک عارضه جانبی شناخته می شود. HLL، به عنوان آخرین PDS توسعه یافته، نقش ویژه ای از این منظر حفظ حریم خصوصی به عهده گرفته است. مورد استفاده اولیه HLL شمارش عناصر متمایز در یک مجموعه است که تخمین کاردینالیته نامیده می شود. نمایش داخلی یک مجموعه HLL، طرح نیز نامیده می شود زیرا فقط خلاصه تقریبی کوچکی از داده های اصلی را ذخیره می کند (نگاه کنید به [ 36 ]؛ یک مثال در شکل 2، بخش 4.3 نشان داده شده است ). در نتیجه، یک طرح HLL می تواند 1 میلیارد آیتم متمایز را با نرخ خطای 2٪ با استفاده از تنها 1.5 کیلوبایت حافظه شمارش کند [ 19]] (ص 13). مجموعه‌های HLL صریحاً از بررسی عضویت عناصر خاص پشتیبانی نمی‌کنند (همانجا). در نتیجه، حذف آیتم ها امکان پذیر نیست، زیرا پس از اضافه شدن، نمی توان موارد را بدون ابهام شناسایی کرد. از این نظر، مجموعه‌های HLL بیشتر شبیه داده‌های آماری رفتار می‌کنند، در حالی که عملکرد و کاربرد عملی آنها بیشتر شبیه به مجموعه‌های معمولی است. به عنوان مثال، چندین مجموعه HLL را می توان ادغام کرد (عملیات اتحاد)، برای محاسبه تعداد ترکیبی عناصر متمایز هر دو مجموعه، بدون از دست دادن دقت. این امکان محاسبات موازی یا ذخیره انفرادی بسیاری از مجموعه های کوچک HLL را فراهم می کند که در نهایت تنها در یک مجموعه واحد ترکیب می شوند. به همین ترتیب، از طریق اصل گنجاندن-خروج [ 38 ]، روابط بین مجموعه‌های مختلف HLL را می‌توان به صورت کمی ارزیابی کرد، همانطور که توسط بیکر و لانگ‌مید [38] پیشنهاد شده است.39 ] برای اندازه گیری شباهت ژنومی. در ادامه، ما بحث و نشان می‌دهیم که چگونه مجموعه‌های HLL را می‌توان با داده‌های فضایی ترکیب کرد تا معیارها و روابط معمولی مورد استفاده در VGI را تقریبی کند.

3. مفهوم

3.1. مدل سیستم

همانطور که در مقدمه به آن اشاره شد، سطح مشارکت برای تولید VGI می تواند تا حد زیادی متفاوت باشد. گومز-بارون و همکاران [ 40 ] ملاحظات کلی را برای طراحی سیستماتیک پروژه‌های VGI، با در نظر گرفتن زنجیره‌ای از حالت‌های مشارکت احتمالی که از مشارکت غیرفعال به مشارکت فعال‌تر کشیده می‌شوند، پیشنهاد کرد (ص. 11). مدل سیستم ما، که در شکل 1 نشان داده شده است ، از این ملاحظات کلی مشتق شده است. هدف این گرافیک ساده شده نشان دادن این ایده کلیدی است که تصمیم گیرندگان و مردم می توانند به شیوه ای مشترک با یکدیگر همکاری کنند تا رفاه کلی را بهبود بخشند و از توسعه سود جمعی محیط اطمینان حاصل کنند [4 ، 41 ] . هایلایت شده در مدل سیستم (رنگ خاکستری،شکل 1 ) اجزایی هستند که برای پردازش داده های HLL، به عنوان بخشی از سرویس Analytics (AS) اضافه شده اند. چنین خدماتی همچنین می‌تواند به عنوان واحد پردازش جمع‌سپاری مرکزی [ 40 ] یا متولی داده [ 23 ] (ص 2753) توصیف شود، که در بخش 4.2 (معماری نرم‌افزار) به طور دقیق‌تر توضیح داده شده است.
این واقعیت که سطوح مختلف مشارکت ممکن است با دو پیوند ارتباطی ممکن بین کاربران و AS شناخته شده است. اولین و شاید پرکاربردترین رویکرد در حال حاضر، از رسانه های اجتماعی مبتنی بر مکان (LBSM) به عنوان یک سرویس میانی استفاده می کند، که معمولاً منجر به حالت های منفعل تر مشارکت می شود [ 3 ]. برعکس، می‌توان با گنجاندن اجزای کلیدی سرویس ارتباطی به‌عنوان بخشی از AS، پیوند مستقیم‌تری با کاربران ایجاد کرد، که نشان‌دهنده یک حالت مشارکت فعال‌تر، در زنجیره‌ای از تعاریف ممکن از VGI است [40 ، 42 ] . در حالی که کیفیت و کمیت داده ها ممکن است به طور قابل توجهی بین این دو رویکرد متفاوت باشد، هر دو ممکن است برای تولید داده هایی با ساختار مشابه استفاده شوند.
این امکان را فراهم می‌کند تا آسیب‌پذیری‌های مشابه داده‌های جمع‌آوری‌شده را که با دو مورد یک دشمن داخلی و خارجی در شکل 1 مشخص شده‌اند، فرموله کنیم . مورد دشمن داخلی این احتمال را نشان می دهد که سرویس تجزیه و تحلیل توسط شخصی با اطلاعات داخلی یا دسترسی مستقیم به سرویس تجزیه و تحلیل، یا شخصی خارجی که دسترسی مخربی به دست آورده است، به خطر بیفتد. حتی اگر داده ها به طور عمومی در دسترس هستند، به عنوان مثال، از طریق رسانه های اجتماعی، چنین سناریویی تحت شرایط خاصی محتمل به نظر می رسد. به عنوان مثال، هر داده ای که به روش های جدید تجمیع و ترکیب می شود، می تواند بینش هایی ایجاد کند که با داده های اصلی امکان پذیر نیست [ 12]]. برعکس، کاربران رسانه‌های اجتماعی ممکن است در هر زمانی اطلاعاتی را که قبلاً به اشتراک گذاشته شده‌اند حذف کنند و بازتاب به موقع این تغییر در مجموعه‌های داده‌های بعدی را به چالش بکشند [ 6 ]. در مورد دوم یک دشمن خارجی، وضعیت رایج‌تر مورد بحث کسی که سعی در به خطر انداختن حریم خصوصی در مجموعه داده‌های منتشر شده دارد، به تصویر کشیده می‌شود. نماینده چنین مجموعه داده ای، داده های معیار تولید و به اشتراک گذاشته شده در این کار است ( بخش 6 ). ما به این دو مورد متخاصم در بخش 5 ، با بحث از دو مطالعه موردی باز می گردیم.

3.2. سرویس آنالیز

به عنوان ابزاری برای محدود کردن دامنه بحث زیر، ما به طور خاص یک سرویس تحلیلی برای نظارت بر الگوهای بازدید فضایی با توانایی استفاده از نتایج در تعدادی از زمینه‌های تصمیم‌گیری در نظر می‌گیریم. برای مثال ، چن، پارکینز و شرن [ 43 ]، از تعداد عکس‌های اینستاگرام برای تجزیه و تحلیل و شناسایی مقادیر مهم چشم‌انداز اطراف سدهای برق آبی پیشنهادی در کانادا استفاده می‌کنند. کندی و نعمان [ 44 ] از تعداد کاربران فلیکر که در خوشه‌های مکان عکس حضور دارند برای کشف نشانه‌های شاخص استفاده می‌کنند. چوب، گوری، نقره و لاکایو [ 45] دریافتند که تعداد کاربران Flickr در ماه با نرخ بازدید رسمی از پارک های ملی در ایالات متحده مرتبط است و بنابراین می تواند به عنوان یک پروکسی کافی برای بهبود مدیریت پارک استفاده شود. رویکرد مشابهی توسط Heikinheimo و همکاران اعمال شده است. [ 46 ] برای نرخ بازدید از پارک ملی و فرکانس کاربران مشتق شده از اینستاگرام. داده‌های فضایی فلیکر، مشابه نوع مورد استفاده در اینجا، همچنین در یک پروژه بزرگ (naturalcapitalproject.stanford.edu) برای شناسایی و کمی کردن ارزش‌های زیبایی‌شناختی، به‌عنوان پایه‌ای مهم برای ارزیابی خدمات اکوسیستم استفاده می‌شود [47 ] .
تکرار در این مثال ها استفاده از چندین نوع شناسه است. برای تمایز بین موارد، شناسه‌های منحصربه‌فرد (UID) یک نیاز ذاتی سیستم‌های فناوری اطلاعات و تجزیه و تحلیل بصری هستند. به عنوان مثال، مدیریت پارک ملی را در نظر بگیرید که هدف آن نظارت بر تعداد کل بازدیدکنندگان منحصر به فرد کاربر است. این می تواند در محل انجام شود، به عنوان بخشی از جمع آوری هزینه ورودی، و در صورت امکان تعیین شناسه به بازدیدکنندگان، برای جلوگیری از شمارش مضاعف. از طرف دیگر، داده‌های رسانه‌های اجتماعی در دسترس عموم ممکن است به عنوان یک پروکسی در نظر گرفته شوند، مانند مثالی که توسط فیشر و همکاران مورد بحث قرار گرفت. [ 48 ]. در نهایت، یک پروژه متمرکز VGI را می توان تصور کرد که دقیقاً برای پشتیبانی از مدیریت پارک های عمومی ساخته شده است، قابل مقایسه با برنامه هایی که به ارزیابی شیوع بیماری همه گیر کمک می کنند (مثلاً).
با وجود این نیت های خوب، نشان داده شده است که داده ها را می توان در طول عمر خود تغییر کاربری داد. UID ها به طور خاص یک علت اصلی درگیری های حریم خصوصی و سوء استفاده از داده ها هستند (به عنوان مثال، [ 49 ]). بدون جامع بودن، ما سه معیار تکرارشونده را مشاهده می‌کنیم که بر اساس UIDها در مدیریت منابع طبیعی ایجاد می‌شوند: تعداد پست (PC)، تعداد کاربر (UC) و پست (یا عکس) روزهای کاربر (PUD) (نگاه کنید به [3، 45 ، 48 ] ) . . دومی توسط وود و همکاران ابداع شده است. [ 45 ] به‌عنوان اندازه‌گیری برای «تعداد کل روزهایی که هر شخص در هر سایت حداقل یک عکس گرفته است» (ص 6) و به‌طور فزاینده‌ای به عنوان یک نماینده کمی برای ارزش زیبایی‌شناختی استفاده می‌شود (مثلاً ، [ 47]). به عنوان چهارمین شبه UID، مختصات پست‌ها یا عکس‌های به اشتراک گذاشته شده عمومی معمولاً برای مشاهده رخدادهای فضایی استفاده می‌شود. با توجه به دقت آنها، چنین مختصاتی معمولاً با حساسیت یکسانی نسبت به UIDها برخورد می‌شود که پیامدهای ویژه‌ای برای حریم خصوصی جغرافیایی دارد [ 20 ]. فقط یک مثال توسط شی و همکاران ارائه شده است. [ 50 ]، که امکان استخراج مکان های شغلی و مسکن کاربران را از سوابق عمومی ایستگاه اجاره دوچرخه نشان می دهد. به طور خلاصه، در حالی که این معیارها قابل قبول به نظر می رسند، از منظر حریم خصوصی نیز آزاردهنده هستند، حتی در سناریوهای همکاری پیشگیرانه. در حالی که مجموعه بزرگی از راه حل ها برای این مشکل وجود دارد (به بخش 2 مراجعه کنید)، ما به طور خاص قابلیت های HLL را به عنوان یک جزء در ادامه بررسی می کنیم.

4. مواد و روش ها

4.1. مجموعه داده

ما از مجموعه داده 100 میلیونی یاهو فلیکر کریتیو کامانز (YFCC100M) که توسط یاهو در سال 2014 [ 51 ] منتشر شد برای ارائه یک مثال نمایشی استفاده می کنیم. این مجموعه داده به صورت یک فایل مقادیر جدا شده با کاما (CSV) به صورت عمومی در دسترس است و متا دیتا از 100 میلیون عکس و ویدیو به اشتراک گذاشته شده توسط 581099 کاربر تشکیل شده است. 48366323 عکس و 103506 ویدیو در مجموعه داده دارای برچسب جغرافیایی هستند (همان، ص 66). برای شبیه سازی یک برنامه استریم، داده ها ابتدا در یک پایگاه داده به نام “rawdb” خوانده می شوند (به بخش 4.2 مراجعه کنید.) حفظ تمام روابط درونی. این روابط، مانند شناسه‌های کاربر، شناسه‌های پست، مُهرهای زمانی یا مختصات و سایر مراجع، معمولاً هنگام دسترسی مستقیم به رابط برنامه‌نویسی برنامه کاربردی فلیکر (API) نیز در دسترس هستند. منطق انتخاب این مجموعه داده این است که دارای ساختار و محدوده ای است که امکان مقایسه با سایر داده های مورد استفاده در زمینه های مختلف VGI را فراهم می کند (نمونه هایی را در بخش 3 ببینید ).

4.2. معماری نرم افزار

برای ارزیابی شفاف و تکرار سیستم و نتایج ارائه شده در این کار، ما چندین مؤلفه فناوری را ترکیب می کنیم تا یک راه اندازی سرویس تحلیلی معمولی را نشان دهیم. در هسته، چهار داکر کانتینر (docker.com) به عنوان نمایشی از نقش های مختلف در مدل سیستم شرح داده شده در بخش 3 ( شکل 1 ) استفاده می شود. از آنجایی که اکثر کارها در زمینه حفاظت از حریم خصوصی در زمینه پایگاه داده انجام می شود [ 23 ] (ص 2754)، یک انتخاب طبیعی اجرای این نقش ها با PostgreSQL (postgresql.org) بود. اولین کانتینر (“rawdb”) یک سرویس رسانه اجتماعی را شبیه سازی می کند که امکان دسترسی به داده های اصلی و بدون فیلتر را از طریق یک API باز فراهم می کند. یا داده های خام جمع آوری شده مستقیم از کاربران (یعنی حالت مشارکت فعال VGI،شکل 1 ). عملکرد API توسط رابط پرس و جو PostgreSQL منعکس می شود. به طور مشابه، دومین ظرف PostgreSQL (“hlldb”) برای نشان دادن یک متصدی داده آگاه از حریم خصوصی استفاده می شود. این متصدی داده، اجرای Citus HLL (github.com/citusdata/postgresql-hll) را اجرا می کند. با هدف نشان دادن اصل تفکیک نگرانی‌ها، سرویس Aggregation و Sketching با یک کانتینر جداگانه و سوم (“hllworker”) اجرا می‌شود که فقط برای محاسبات درون حافظه استفاده می‌شود. در نهایت، کانتینر چهارم که Jupyter Notebook (jupyter.org) را اجرا می کند، نماد بخش تجسم سرویس Analytics (AS) است. مراحل دقیق و کد خط لوله تجسم در چهار نوت بوک ساختار یافته است. این نوت بوک ها در کنار این مقاله در یک مخزن داده منتشر شده اند [ 52] و نسخه‌های HTML در مواد تکمیلی (S1–S4) گنجانده شده‌اند .
هدف برای این نوت بوک ها چندگانه است. اولاً، از طریق معیار عملکرد، می‌توان میزان معاوضه بالقوه سودمندی-حریم خصوصی را که متخصصان باید در هنگام تغییر گردش کار در نظر بگیرند، تعیین کرد. ثانیاً، هر مرحله به‌طور شفاف مستند شده است، و هم قابلیت تکرارپذیری تحقیق و هم «دیدگاه بینشی» را برای عملکرد AS تصور شده ما فراهم می‌کند، همانطور که برای سناریوی دشمن داخلی مورد بحث قرار می‌گیرد (بخش 5 ) . این امکان شناسایی و بحث در مورد نقاط قوت و ضعف در بخش 6.3 (معادل حریم خصوصی) را فراهم می کند. در نهایت، نوت‌بوک‌ها می‌توانند به‌عنوان پایه‌ای برای ارزیابی نحوه انجام برخی انتخاب‌ها و تنظیمات پارامترها در مراحل اولیه فرآیند عمل کنند (به بخش 4 مراجعه کنید.) ممکن است بر نتایج بعدی تأثیر بگذارد. اولین نوت بوک نحوه وارد کردن داده های YFCC100M را به فرمت های rawdb و hlldb توضیح می دهد. نوت بوک دوم و سوم به ترتیب برای مقایسه پردازش داده ها بر اساس داده های خام و HLL استفاده می شود. در دفترچه چهارم، نشان داده شده است که چگونه می توان از داده های معیار منتشر شده برای تجزیه و تحلیل بیشتر استفاده کرد (به بخش 6.2 مراجعه کنید ). دو نوت بوک اضافی حاوی کدی برای تکرار ارقام و آمار باقی مانده در این مقاله هستند (به مواد تکمیلی، S5-S6 مراجعه کنید ).

4.3. مؤلفه اول: HyperLogLog (HLL)

به عنوان اولین مؤلفه از دو مؤلفه، HLL برای شمارش موارد متمایز برای سه معیار مختلف PC، UC و PUD که در بخش 3.2 معرفی شده‌اند، استفاده می‌شود . حتی اگر پیاده سازی های مختلف HLL وجود داشته باشد، همه تعدادی از مراحل اساسی را به اشتراک می گذارند. در هسته، نسخه باینری هر رشته کاراکتری به «سطل‌هایی» با اندازه مساوی تقسیم می‌شود، مثلاً 4 (به تصویر در شکل 2 ، مرحله 4 مراجعه کنید). سطل همچنین به عنوان عرض ثبت نامیده می شود. برای هر سطل، تعداد صفرهای پیشرو شمارش می شود. از آنجایی که هر رشته کاراکتری داده شده ابتدا تصادفی می شود (مرحله 3، شکل 2 )، معمولاً با استفاده از یک تابع هش غیر رمزنگاری، می توان پیش بینی کرد که چند آیتم متمایز باید به مجموعه HLL داده شده اضافه شده باشد.بر اساس حداکثر تعداد صفرهای پیشرو مشاهده شده [ 16 ]. به عبارت دیگر، اگر چندین آیتم به یک مجموعه HLL اضافه شود، تنها بیشترین تعداد صفرهای ابتدایی در هر سطل باید حفظ شود. در نتیجه، تخمین اصلی (یعنی تعداد عناصر متمایز اضافه شده به مجموعه، مرحله 6، شکل 2 ) اعداد اعشاری را تولید می کند که فقط تعداد دقیق را تقریبی می کنند.
به عنوان یک عارضه جانبی، بررسی اینکه آیا یک کاربر یا شناسه خاص به مجموعه HLL اضافه شده است یا خیر، فقط به طور محدود امکان پذیر است. در یک موقعیت خصمانه، Desfontaines و همکاران. [ 36 ] به چنین چکی به عنوان “حمله تقاطع” اشاره می کند. حملات تقاطع ابتدا مستلزم به دست آوردن هش یک شخص یا شناسه مورد نظر و سپس افزودن این هش به مجموعه HLL است. اگر مجموعه HLL تغییر کند، یک طرف مقابل ممکن است بتواند سوء ظن اولیه خود را تا حدی افزایش دهد. چنین افزایشی در دانش قبلی، حتی به میزان کمی، معمولاً با تعاریف دقیق حفظ حریم خصوصی ناسازگار است (به بخش 2 مراجعه کنید ). دزفونتینز و همکاران [ 36] نشان می دهد که اثر حفظ حریم خصوصی HLL مستقیماً به اندازه یک مجموعه مربوط می شود و مجموعه های کوچکتر آسیب پذیری بیشتری دارند. نویسندگان به این نتیجه رسیدند که مجموعه‌های HLL با 10000 عنصر دارای اثر حفظ حریم خصوصی قوی هستند، مجموعه‌هایی با 1000 عنصر کاهش محسوسی در حفظ حریم خصوصی دارند، و مجموعه‌هایی با کمتر از 1000 عنصر اثر ضعیف حفظ حریم خصوصی را نشان می‌دهند (همان، ص 14). .
در کنار اندازه مجموعه ها، پارامترهای متعددی بر دقت تخمین کاردینالیته و در نتیجه به طور غیرمستقیم اثر حفظ حریم خصوصی تأثیر می گذارد. به عنوان مثال، تعداد و عرض سطل ها را می توان برای نیازهای مختلف تنظیم کرد. با تنظیم پارامتر log2m = 11 (لگاریتم به پایه 2)، تعداد رجیسترهای استفاده شده 2048 خواهد بود. در این حالت، خطای نسبی تخمین ±1.04/√(2| log 2 m ) = ± خواهد بود. 2.30 درصد در ترکیب با عرض رجیستر پیش‌فرض 5 ( عرض reg=5 )، پیاده‌سازی Citus HLL اجازه می‌دهد حداکثر تعداد 1.6 × 1012 آیتم را به یک مجموعه اضافه کنید  عددی که بیان آن با نمادهای غیر علمی دشوار است. برای مقایسه، با استفاده از aregwidth 4 و log2m 10 در حال حاضر حداکثر تعداد مواردی را که می توان تخمین زد به 12 میلیون کاهش می دهد، با خطای نسبی ±3.25٪ (برای ارجاع به موارد فوق، به مستندات آنلاین مراجعه کنید). از منظر حفظ حریم خصوصی، توصیه می شود از کوچکترین تنظیمات پارامتر ممکن استفاده کنید، که به حداکثر اندازه مورد انتظار مجموعه های HLL بستگی دارد. در مورد ما، مجموعه داده Flickr YFCC100M شامل 100 میلیون شناسه پست است، به همین دلیل است که از تنظیمات پیش فرض log2m = 11 و regwidth = 5 استفاده کردیم . برای بسیاری از مجموعه داده های دیگر، تنظیمات پارامتر کوچکتر امکان پذیر خواهد بود.
کاملاً نامرتبط با عملکرد HLL است، اما از منظر حفظ حریم خصوصی توصیه می شود، یک تابع هش رمزنگاری را می توان در مرحله قبل اضافه کرد (مرحله 2، شکل 2 ). این به طور موثر از حملات معمولی تقاطع جلوگیری می کند زیرا یک دشمن نمی تواند بدون دانستن کلید مخفی، هش را برای شناسه اصلی شناخته شده ایجاد کند. در پیاده سازی ما از تابع Postgres HMAC با استفاده از SHA256 و یک کلید مخفی با طول 160 بیت استفاده می کنیم. پیامدهای مربوط به حریم خصوصی و کاربرد در محیط فضایی ما بعداً در بخش 6.3 (معادل حریم خصوصی) ارزیابی می شود. در نهایت، و به جای پیاده سازی خاص، این است که مجموعه های HLL به طور متوالی به سه “حالت” مختلف عملکرد ارتقا می یابند: صریح ، پراکنده ، وپر . به دلایل عملکرد، حالت صریح و پراکنده دقت بالاتری در کاردینالیته‌های پایین‌تر ارائه می‌دهد. از آنجایی که حالت صریح هش‌های اصلی را به طور کامل ذخیره می‌کند، بدیهی است که نمی‌تواند هیچ مزیتی برای حفظ حریم خصوصی داشته باشد و باید غیرفعال شود، که هر مجموعه‌ای را مستقیماً به پراکنده ارتقا می‌دهد (همانطور که توسط Desfontaines و همکاران [36]، ص 15، که از «sparse» استفاده می‌کنند پیشنهاد شده است . منظور ما از حالت صریح در اینجا).
در حالی که ذخیره یک مورد واحد در یک مجموعه HLL مورد معمول برنامه نیست، تنها مزایای اولیه ضعیفی را برای حریم خصوصی ارائه می‌کند، به مشخص کردن برخی از عملکردهای کلیدی کمک می‌کند. برای نشان دادن، در نظر بگیرید که همه شناسه‌های کاربر موجود در مجموعه داده YFCC100M را می‌توان به مجموعه‌های تک تک HLL تبدیل کرد. برخلاف داده‌های خام، که از 581099 آیتم منحصر به فرد (k = 1) تشکیل شده است، یک شمارش مستقیم ساده از آیتم‌های متمایز از این نمایش‌های HLL منفرد، تعداد 17358 را به دست می‌دهد (برای بازتولید این اعداد، به محاسبات در مواد تکمیلی، S5 مراجعه کنید .). بنابراین، بدیهی است که چندین شناسه کاربر به یک نمایش HLL تبدیل می شوند. این گروه بندی از تصادفی سازی ناشی از عملیات هش نشات می گیرد. همه این مجموعه‌های HLL منفرد را می‌توان با هم ادغام کرد (یک عملیات اتحادیه)، برای تولید یک مجموعه HLL منفرد که می‌توان از آن برای تخمین کاردینالیتی 589475 استفاده کرد ( جدول 1 را ببینید ).
توجه داشته باشید که آنچه شمارش می شود کاملاً به تحلیلگر واگذار می شود. در جدول 1 ، خلاصه ای برای معیارهای مورد استفاده در این مقاله، با مقادیر متناظر که بر اساس مجموعه داده YFCC100M جمع آوری شده است، ارائه شده است. برای وضوح، در حالی که تعداد پست و کاربر را می توان بر اساس یک شناسه اعمال کرد ( مندتوسهr، مندپoستی، مختصات متمایز و روزهای کاربر با الحاق رشته ها اندازه گیری می شوند (به عنوان مثال، لآتیمنتیتودهپoستی∥لongمنتیتودهپoستیو مندتوسهr∥مندپoستی-پتوبلمنسساعت-دآتیه، به ترتیب). بنابراین، طول و عرض جغرافیایی، یا تاریخ، به عنوان رشته های کاراکتری در نظر گرفته می شود که به ترکیب با سایر شناسه ها، مانند شناسه های کاربر، اجازه می دهد تا معیارهای ترکیبی را تشکیل دهد. این الحاق قبل از مرحله هش رمزنگاری و تبدیل HLL اعمال می شود (برای فرآیند دقیق، به مواد تکمیلی، S1 مراجعه کنید ).
از آنجایی که HLL فقط امکان شمارش مقادیر متمایز را می دهد، واضح است که برخی اطلاعات به عنوان مرجع برای آنچه شمارش می شود مورد نیاز است. این معمولاً منجر به تنظیم دو جزئی می شود که در آن یک قسمت در متن واضح ذخیره می شود. در یک زمینه فضایی، این جزء متنی واضح، شناسه مکان خواهد بود که با مجموعه HLL مرتبط است. نتیجه این است که هر ارزیابی از خطرات حریم خصوصی مستلزم نگاه کردن به HLL و مؤلفه مکان است.

4.4. جزء دوم: مکان

در سناریویی برای نظارت بر الگوهای بازدید فضایی، همانطور که در بخش 3 تصور می‌شود، در نقطه‌ای تصمیم‌گیری می‌شود که در چه سطحی از جزئیات باید اطلاعات مکانی جمع‌آوری شود و در چه سطحی باید تجسم شود. فرض کنید، اگرچه بعید اما گویا، هدفی برای نظارت بر الگوهای بازدید در سراسر جهان، با دانه بندی بسیار درشت، مانند شبکه ای از سطل های زباله 100 کیلومتری. در مرحله اولیه پروژه، نمی توان به طور دقیق پیش بینی کرد که آیا 100 کیلومتر کافی است یا خیر. بنابراین، در یک معاوضه حریم خصوصی و ابزار، ممکن است تصمیم گرفته شود که داده ها با دقت کمی بالاتر جمع آوری شوند. اغلب، چنین مبادلاتی باینری نیستند، بلکه تدریجی خواهند بود و می‌توانند با استفاده از تعدادی معیار، مانند k-نزدیک‌ترین همسایه، t-closeness، L-تنوع، یا p-sensitive ارزیابی شوند.53 ].
از نظر k-ناشناس بودن، یک مکان (به عنوان مثال، نشان داده شده توسط یک جفت مختصات طول و عرض جغرافیایی) را می توان به عنوان مربوط به هر تعداد از ک≥1افراد (به عنوان مثال، [ 54 ]). ایده کلی این است که اگر یک مکان حداقل به یک مکان اشاره کند، داده ها k-ناشناس هستند ک-1افراد دیگر [ 55 ]. محمول k-anonymity معمولاً در حضور نقاط پرت (مکانی) به خطر می افتد [ 56 ]. برای حذف نقاط پرت، یک راه حل کاهش دانه بندی فضایی است. ما از یک تابع GeoHash ساده برای کاهش دانه بندی مختصات در مراحل گسسته از مثلاً 10 تا 1 استفاده می کنیم، مشابه اینکه Ruppel و Küpper [ 57 ] GeoHashes را با فیلترهای بلوم ترکیب می کنند. تابع GeoHash با نقاط “snapping” به یک شبکه قابل مقایسه است، با 10 و 1 که منجر به میانگین نرخ خطا به ترتیب از 60 سانتی متر تا 2500 کیلومتر می شود (همان، ص 420). بر اساس این تابع، درصد کلی حجم پرت را می توان برای کاهش سطوح دقت فضایی و برای معیارهای مورد استفاده در این مقاله ارزیابی کرد ( شکل 3) .).
منعکس شده در نمودار در شکل 3 یک ویژگی مشترک UGC است که اغلب به طور ناهموار توزیع می شود و دارای الگوهای دم سنگین است. به عنوان مثال، تعداد کل پرت های کاربر، در بالاترین دقت (10)، تقریباً 100٪ است، به این معنی که در هر مختصات فقط یک کاربر مشاهده می شود. در مقابل، حدود 80 درصد از مختصات به حداقل 2 پست اشاره دارد، به این معنی که حجم بیشتری از پست‌های متمایز در بالاترین سطح دقت مکان قرار دارند (همچنین به [54 ] مراجعه کنید ). این توزیع نابرابر در دانه بندی های درشت تر قابل توجه تر می شود. در سطح GeoHash 5، با اشاره به میانگین “فاصله گیر” 4 کیلومتر، تقریبا 80٪ از مختصات ” k” را برآورده می کند.− 1» یعنی حداقل 2 نفر حضور دارند. با این حال، ارزیابی های مختلفی از ریسک وجود دارد . روش دیگری که با خط قرمز نشان داده شده است (اشکال برون مختصات کاربر، شکل 3 ) بررسی تعداد کل کاربرانی است که با داشتن حداقل یک مختصات در مجموعه داده کل با k = 1 می تواند به خطر بیفتد. این منحنی فقط به 0% می رسد. با دقت GeoHash 1، که احتمالاً سطح بالایی از حریم خصوصی را نشان می دهد، اما همچنین منجر به اطلاعات مکانی می شود که ممکن است دیگر فایده ای نداشته باشد. بر اساس این ارزیابی، دقت GeoHash 5 ممکن است برای کاهش اولیه دانه بندی فضایی داده های ورودی قابل قبول به نظر برسد. توجه داشته باشید که این عدد کاملاً وابسته به زمینه است. در اینجا فقط برای اهداف نمایشی استفاده می شود.

5. مطالعه موردی: الکس، “ساندی” و “رابرت”

تنها راه برای مهاجم برای به دست آوردن اطلاعات در مورد محتویات یک مجموعه HLL از طریق حمله تقاطع است ( بخش 4.3 ). برای نشان دادن بهتر حملات تقاطع، و اینکه چگونه، و تحت چه شرایطی، حریم خصوصی یک کاربر می تواند در راه اندازی تحقیق دو جزئی ارائه شده به خطر بیفتد، به طور خلاصه دو مثال را معرفی می کنیم. الکس یک کاربر واقعی است که در مجموعه داده YFCC100M گنجانده شده است زیرا او 289 عکس را تحت مجوز Creative Commons بین سال‌های 2013 و 2014 در فلیکر منتشر کرده است. 120 مورد از این عکس ها دارای برچسب جغرافیایی هستند. الکس یکی از نویسندگان این مقاله است. با توجه به این اطلاعات، شناسایی مجدد الکس نسبتا آسان خواهد بود. «ساندی» و «رابرت»، در عوض، افراد خیالی هستند.
ما از سندی برای توصیف یک دشمن داخلی استفاده می کنیم. سندی می تواند شخصی باشد که در سرویس تحلیلی کار می کند و دسترسی کامل به پایگاه داده دارد. در مثال اول، اگر سندی بتواند سوء ظن خود را مبنی بر نبود الکس در محل کار خود در برلین در 9 مه 2012 افزایش دهد یا تأیید کند، حریم خصوصی الکس به خطر می افتد. از سوی دیگر، رابرت فردی است که نماینده یک دشمن خارجی است و فقط دسترسی دارد. به مجموعه داده منتشر شده در مثال دوم، حریم خصوصی الکس به خطر می افتد اگر رابرت بتواند سوء ظن خود را افزایش دهد یا تأیید کند که الکس واقعاً حداقل یک بار در یک مکان خاص بوده است، به عنوان مثال، برخلاف آنچه الکس ادعا می کند. در نهایت، الکس می‌تواند کسی باشد که داوطلبانه تصاویر خود را به AS ارائه می‌کند، یا عکس‌های Creative Commons را نوع دوستانه در فلیکر منتشر می‌کند.
در نظر بگیرید که در لحظه مشارکت، الکس ممکن است به عواقب حریم خصوصی خود فکر نکرده باشد، اما بعداً متوجه اشتباه خود شده است. با استفاده از داده‌های خام، حتی با حذف هر گونه داده به خطر انداخته از Flickr، این تغییر باید در هر مجموعه داده بعدی، مانند مجموعه داده‌های AS خیالی یا YFCC100M منعکس شود. این یا غیرعملی است یا غیرممکن. بنابراین، سؤال این است که آیا می‌توان جریان‌های کاری داده‌های خام را با یک خط لوله تجسم آگاه از حریم خصوصی جایگزین کرد، بدون اینکه به طور قابل توجهی از ابزار کاهش یابد. در ادامه، ابتدا با مقایسه فرآیند تجسم به صورت موازی برای داده‌های خام و HLL، چگونگی تأثیر انتخاب پارامترهای انجام‌شده تا کنون بر تجسم‌سازی و توانایی استفاده از نتایج را مورد بحث و بررسی قرار می‌دهیم. در بخش 6.3، به دو مثالی که در اینجا نشان داده شده است باز می گردیم و با استفاده از داده های HLL آگاه از حریم خصوصی ارزیابی می کنیم که آیا حریم خصوصی Alex می تواند از طریق یک حمله تقاطع به خطر بیفتد یا خیر.

6. نتایج

6.1. الگوهای بازدید در سراسر جهان

برای تولید گرافیکی از الگوهای بازدید فضایی در سراسر جهان، که در شبکه‌ای از سطل‌های 100 کیلومتری پیش‌بینی شده‌اند، به تجمیع فضایی داده‌ها نیاز است. ما از جستجوی دودویی برای اختصاص مختصات به bin های گسسته استفاده می کنیم. در یک تنظیم داده خام، همه شناسه‌های متمایز (شناسه کاربر، شناسه پست، تاریخ انتشار پست) ابتدا باید به‌طور کامل در هر سطل جمع‌آوری شوند، تا زمانی که همه داده‌ها در دسترس باشند. تنها پس از آن، تعداد عناصر متمایز در هر bin را می توان محاسبه کرد. در مقابل، در یک تنظیم داده HLL، تمام مراحل تبدیل (مراحل 1 تا 4، شکل 2 ، بخش 4.3)) را می توان بر اساس یک تکه اطلاعات اعمال کرد. به عبارت دیگر، تبدیل HLL می تواند بلافاصله پس از ورود هر عنصر جدید، به عنوان مثال، در زمینه های جریان اتفاق بیفتد. این همچنین به این معنی است که مجموعه‌های تک تک HLL برای PC، UC و PUC توسط اتحادیه افزایشی در هر bin ادغام می‌شوند تا زمانی که همه داده‌ها پردازش شوند. مواد تکمیلی (S2-S4) شامل کد رویه ای پایتون برای تولید گرافیک زیر به ترتیب از داده های خام و HLL است.
قبل از ارائه نتایج ملموس تر، به طور خلاصه تفاوت های ظاهری در بصری و گردش کار پردازش را خلاصه می کنیم. شکل 4 گرافیک های تولید شده را برای روزهای دقیق و تخمینی کاربر در هر سطل زباله 100 کیلومتری برای بخشی از اروپا مقایسه می کند. برای طبقه‌بندی، از الگوریتم شکست سر/دم استفاده می‌شود که طرحی را ارائه می‌دهد که به طور خاص برای داده‌هایی با توزیع دم سنگین مناسب است [ 58 ]. Head/tail breaks به طور خودکار تعداد کلاس ها را محاسبه می کند. برای داده‌های خام و HLL، شکست‌های سر/دم هفت کلاس تولید کردند. نرخ خطای 3 تا 5 درصدی HLL فقط در ورودی های افسانه ای قابل توجه است. در شکل 4، تعداد کل دو سطل سوئیچ کلاس (یعنی تغییر رنگ)، به دلیل موارد لبه در فرآیند طبقه بندی خودکار (برای مقایسه گرافیکی، به مواد تکمیلی، S7 مراجعه کنید ).
همه معیارها برای همه سطل ها را می توان به صورت تعاملی در یک رابط نقشه کاوش کرد ( شکل 5 و مواد تکمیلی، S8 را ببینید ). بدیهی است که مقادیر مشاهده شده در محدوده خطای مورد انتظار تخمین اصلی HLL قرار دارند ( بخش 4.3 ). در مجموع، تفاوت‌هایی که بر روی تصاویر تأثیر می‌گذارند تا حد زیادی نامحسوس هستند. علاوه بر این، تلاش مورد نیاز برای اصلاح فرآیند تجسم، برای سازگاری با محاسبات HLL، به استثنای برخی پشتیبانی های دست و پا گیر برای پایتون (مقایسه کنید نوت بوک های خام/HLL، مواد تکمیلی، S2-S3 ) بسیار کم بود.
برای یک مبنای اضافی برای مقایسه مبادلات بین پردازش داده خام و HLL، چندین معیار عملکرد در نوت‌بوک‌ها جمع‌آوری شده‌اند (خلاصه جدول 2 و کد را در مواد تکمیلی، S2-S3 ببینید ). حجم کل داده هایی که در ابتدا به فرآیند تجسم داده می شود 2.5 گیگابایت (خام) و 134 مگابایت (HLL، حالت پراکنده) است. به منظور مقایسه، تفاوت اندازه برای حالت صریح (281 مگابایت) و حالت کامل (3.3 گیگابایت) آورده شده است ( جدول 2)). اگر هر دو حالت صریح و پراکنده غیرفعال باشند، اندازه کل داده های HLL کمی بزرگتر از داده های خام است زیرا مجموعه های کوچک زیادی وجود دارد. برای داده‌های خام، زمان پردازش برای تولید نقشه جهان برای معیارهای مختلف متفاوت است، زیرا محاسبه تعداد موارد متمایز برای معیارهای پیچیده‌تر مانند روزهای کاربر گران‌تر می‌شود. در مقابل، زمان پردازش HLL برای اتحاد افزایشی همه مجموعه‌ها به سطل‌های 100 کیلومتری خطی باقی می‌ماند. پیک حافظه مشاهده شده برای تجمع خام و HLL تا حد زیادی به تنظیمات پارامتر بستگی دارد. برای اتحاد مجموعه‌های HLL، از هر chunk_size دلخواه می‌توان برای موازی کردن پردازش استفاده کرد. در مقابل، برای محاسبه تعداد آیتم‌های مجزا با داده‌های خام، ابتدا باید همه شناسه‌ها در هر سطل کاملاً در دسترس باشند و امکانات کاهش بار حافظه را محدود کنند.
در نهایت، شکل 6 همان شبکه را برای اروپا، برای تعداد پست ها و با پارامتر تغییر یافته grid_size = 50 (km) نشان می دهد. برای اینکه چنین تغییری در خط لوله تجسم در زمان بعدی امکان پذیر شود، لازم است که یک دانه بندی اولیه دقیق به اندازه کافی از اطلاعات مکانی در دسترس باشد. در حالی که مجموعه‌های HLL را می‌توان به صورت یکپارچه به روشی از پایین به بالا ادغام کرد، آستانه پایین‌تری که در زمان جمع‌آوری داده‌ها تعریف می‌شود، بر توانایی کاهش بعدی پارامتر اندازه شبکه تأثیر می‌گذارد. در نمایش ما، یک GeoHash از 5 (4 کیلومتر) شاید یک مبادله نسبتا محافظه کارانه، به سمت انعطاف پذیری تحلیلی بیشتر، اما خدمات کمتر – حفظ حریم جغرافیایی داخلی را نشان می دهد.

6.2. کاربرد داده های معیار منتشر شده

داده‌های معیار حاوی تمام مجموعه‌های HLL برای سطل‌های شبکه با تعداد کاربر ≥ 100 به‌عنوان مواد تکمیلی (S9) در دسترس قرار می‌گیرند ، که به همان اندازه منعکس‌کننده یک مبادله نسبتا محافظه کارانه به سمت آزادی تحلیلی بیشتر است. در مدل سیستم ما ( بخش 3.1 )، تصمیم گیرندگان می توانند از این داده ها برای مطالعه بیشتر الگوهای داده، به روشی محدود، از طریق قابلیت اتحاد و تقاطع HLL استفاده کنند. برای نشان دادن این استفاده بیشتر از داده های معیار HLL منتشر شده، به طور خلاصه یک مثال را در اینجا نشان می دهیم. اولاً، در نظر بگیرید که برای دو مجموعه A و B، اتحاد مجموعه ها به مجموع همه عناصری که در یکی از دو مجموعه ظاهر می شوند اشاره دارد. این عملیات اتحادیه را می توان به صورت بیان کرد آ∪ب. تقاطع، در مقابل، مجموع همه عناصری است که در هر دو مجموعه ظاهر می شوند و می توانند به صورت بیان شوند آ∩ب.بر اساس نظریه مجموعه ها [ 38 ]، اتحادیه ها می توانند برای محاسبه تقاطع استفاده شوند. با پیروی از اصل شمول – طرد (همان، ص 120)، رابطه بین تقاطع و اتحاد را می توان به طور رسمی به صورت بیان کرد. آ∪ب = آ + ب – آ ∩ ب، که می تواند به آ∩ب = آ + ب – آ ∪ ب. برای سه مجموعه A، B و C، فرمول را می توان به صورت نوشتاری نوشت آ ∩ ب ∩ سی = آ ∪ ب ∪ سی – آ – ب – سی + آ ∩ ب + آ ∩ سی + ب ∩ سی(همانجا). هر دو اتحاد و تقاطع امکان ارزیابی کمی روابط بین مجموعه های مختلف HLL مانند تعداد بازدید کاربر مشترک بین مناطق مختلف را فراهم می کنند.
در شکل 7 ، سلول های شبکه ابتدا بر اساس تقاطع مرکز-کشور برای فرانسه، آلمان و بریتانیا انتخاب شده و برای تولید سه مجموعه (تعداد کاربر) برای سه کشور ادغام شده اند. بر اساس اصل گنجاندن – حذف، تعداد کاربران مشترک برای چندین گروه مختلف تخمین زده می شود. میزان خطای نسبی در مقایسه با پردازش داده های خام به صورت درصدی ارائه شده است. کیفیت تقاطع خیلی قابل اعتماد نیست اگر مجموعه ها همپوشانی های بسیار کمی داشته باشند یا تفاوت زیادی در اندازه داشته باشند [ 59]]. در مثال ما، همه مجموعه‌ها تقریباً اندازه یکسانی دارند، با تعداد کل کاربران 24318 (DE)، 24947 (FR)، 31290 (بریتانیا) کاربر متمایز حداقل یک عکس از این کشورها را به اشتراک گذاشته‌اند. تنها تعداد کمی از 2778 کاربر تخمین زده شده یک عکس از هر سه کشور به اشتراک گذاشته اند.
بدیهی است که یک عامل محدودیت برای سودمندی قابلیت تقاطع، میزان خطای نسبی است. در شکل 7 ، میزان خطای بالایی تا 16 درصد مشاهده شده است. این اعداد حاصل ترکیب دو عامل است. اولاً، تقاطع مجموعه های HLL ممکن است به طور قابل توجهی مرزهای خطای مجموعه های HLL اصلی را تقویت کند (همان). ثانیا، دانه بندی داده های معیار با یک شبکه 100 کیلومتری فقط به طور محدود برای تلاقی با مرزهای دقیق کشور مناسب است. این نتیجه کار با داده های از پیش انباشته شده است و معمولاً به عنوان مسئله واحد منطقه ای قابل اصلاح نامیده می شود (MAUP، [ 60] را ببینید.]). MAUP، برای مثال، نرخ خطای بزرگ 12.6% بیش برآورد را برای آلمان توضیح می دهد، و همچنین برای فرانسه، جایی که هیچ سطلی برای کورس بر اساس تقاطع کشور-مرکز انتخاب نشده است، واضح است. در شکل A2 ، شکل 7 بر اساس یک پارامتر اندازه شبکه کاهش یافته 50 کیلومتری تولید شده است که به طور قابل توجهی نرخ خطا را از MAUP کاهش می دهد.

6.3. حریم خصوصی معامله کردن

قابلیت اتحاد-تقاطع HLL یک ابزار افزایش یافته از داده ها را باز می کند، اما در عین حال احتمال حملات تقاطع را معرفی می کند (به بخش 4.3 مراجعه کنید ). برای موفقیت آمیز بودن حملات تقاطع، عوامل متعددی باید همزمان باشند. اولا، یک طرف مقابل باید به مجموعه های HLL دسترسی داشته باشد. در مدل سیستم ما، این می تواند یک دشمن داخلی (“Sandy”)، با دسترسی مستقیم به پایگاه داده، یا یک دشمن خارجی (“Robert”) باشد که فقط به داده های معیار منتشر شده دسترسی داشته باشد (به بخش 5 مراجعه کنید) .). علاوه بر این، یک حریف باید بتواند یا هش را برای یک کاربر هدف مشخص محاسبه کند، یا به نحوی به مجموعه HLL محاسبه شده برای کاربر معین دسترسی پیدا کند. مورد اول تنها در صورتی امکان پذیر است که کلید مخفی به خطر بیفتد. در مثال ما، اگر حریف اطلاعات قبلی در مورد مکان‌های دیگر بازدید شده توسط کاربر هدف داشته باشد، و اگر مجموعه‌های HLL این مکان‌ها به طور ایده‌آل فقط شامل کاربر هدف یا چند کاربر دیگر باشد، مورد دوم قابل تصور است. در ادامه، ما این بدترین سناریو را بررسی می‌کنیم، جایی که هر دو «Sandy» و «Robert» (به مطالعات موردی، بخش 5 مراجعه کنید ) به‌نوعی مجموعه‌ای از HLL را که فقط حاوی هش‌های محاسبه‌شده الکس است، در اختیار گرفتند.
برای “Sandy”، این بدان معناست که برای آزمایش اینکه آیا الکس در 9 مه 2012 در برلین نبوده است، او یا به شناسه کاربر اصلی الکس و کلید مخفی برای ساخت روز-هش کاربر نیاز دارد یا مکان دیگری (مثلاً یک شبکه) پیدا کند. bin) که فقط در این تاریخ توسط الکس بازدید شده است. در این سناریوی بعید، نتیجه یک حمله تقاطع برای تمام سلول های شبکه در شکل 8 نشان داده شده است.. در شکل قابل مشاهده است که تعداد زیادی از سلول‌های شبکه دیگر برای تست تقاطع مثبت کاذب نشان می‌دهند، یعنی این مجموعه‌های HLL تغییری نکرده‌اند، حتی زمانی که با روز هش کاربر خاص برای Alex به‌روزرسانی می‌شوند. از آنجایی که HLL از وقوع منفی های کاذب جلوگیری می کند و سانفرانسیسکو واقعاً در میان این مکان ها قرار دارد، نتیجه شامل مکان واقعی الکس در 9 مه 2012 می شود. بسته به اندازه مجموعه هدفمند HLL، سندی ممکن است شک خود را تا حدودی افزایش دهد. در مورد سلول شبکه برای سانفرانسیسکو، با 209581 روز کاربر، این افزایش در دانش قبلی ممکن است ناچیز باشد. به عبارت دیگر، حتی اگر هیچ پستی از الکس در 9 مه 2012 وجود نداشته باشد، حمله تقاطع ممکن است همان نتیجه را ایجاد کرده باشد و یک موقعیت خصوصی متفاوت را ارائه دهد. در نتیجه، حتی در بدترین سناریو، سندی با داشتن دسترسی مستقیم به پایگاه داده و یک کلید مخفی به خطر افتاده، نمی‌توانست تأیید بیشتری به دست آورد. به طور مشابه، و به طور اتفاقی، سلول شبکه مثبت برای برلین واقعاً به دروغ نشان می دهد که الکس در برلین بوده است. با توجه به اینکه مجموعه های HLL بزرگتر احتمال بیشتری برای نشان دادن مثبت کاذب دارند، تعجب آور نیست و برلین مکانی بسیار پر رفت و آمد است. به عبارت دیگر، الکس از اثر حفظ حریم خصوصی HLL با “پنهان شدن در میان جمعیت” سود می برد.27 ] (ص 2).
در سناریوی دوم، موقعیتی را در نظر بگیرید که در آن «رابرت» ممکن است پیش از پیش مشکوک شود که الکس به کابو ورد رفته است. از سوی دیگر، الکس نمی خواهد رابرت بداند که بدون او موج سواری کرده است. رابرت می‌داند که الکس در طرح AS شرکت می‌کند و به نوعی به مجموعه HLL که حاوی تنها یک شناسه کاربر هش شده از Alex است، دسترسی پیدا می‌کند. نتایج حمله تقاطع برای تمام سلول های شبکه در شکل 9 نشان داده شده است. از آنجایی که تنها 56 کاربر در مجموعه داده YFCC100M به Cabo Verde رفته‌اند، سطل خاص در داده‌های معیار منتشر شده، که با حداقل آستانه 100 کاربر محدود شده است، گنجانده نشده است. با این حال، با دسترسی مستقیم به پایگاه داده، رابرت می تواند مشاهده کند که کابو ورد در میان مکان های فاش شده است. در این مورد، رابرت ممکن است به دلیل سوء ظن خود مبنی بر اینکه الکس در کابو ورد بوده است، تأیید شود. در عین حال، با توجه به تقریب غیرقابل برگشت ساختار HLL، پاسخ قطعی ممکن نخواهد بود. برای مثال، برای همان حمله تقاطع، برای اندازه‌های مجموعه زیر 56 کاربر، 14 سلول شبکه دیگر وجود دارد که مثبت کاذب را نشان می‌دهند، تا هشت کاربر (برای مقایسه این اعداد، به مواد تکمیلی، S6 مراجعه کنید .). به عبارت دیگر، حتی اگر این مجموعه‌های HLL هنگام آزمایش تغییر نمی‌کنند، Alex هرگز به این مکان‌ها نرفته است و نویز بیشتری به نتایج اضافه می‌کند.
در حالی که این دو سناریو پایه‌ای برای درک اینکه چگونه حملات تقاطع ممکن است در یک محیط فضایی اجرا شوند، فراهم می‌کنند، یک سوال معتبر این است که احتمال موفقیت حملات تقاطع در کل چقدر است. این امر تا حدی به مسائل امنیتی مانند حفاظت از کلید مخفی یا مدیریت دسترسی به پایگاه داده بستگی دارد که نمی توان به طور کامل در این کار پوشش داد. بخش دیگر به طور مستقیم به توزیع داده های جمع آوری شده و تعداد موارد پرت که در هر مرحله از پردازش داده ها وجود دارد، مرتبط است (به بخش 4.4 مراجعه کنید.). اگر داده‌ها خوشه‌بندی‌تر باشند، کاربران عموماً مزایای بیشتری از اثرات حفظ حریم خصوصی HLL دریافت خواهند کرد. این را می توان به طور کمی با مجموعه داده داده شده اثبات کرد. به عنوان مثال، در زمان جمع‌آوری داده‌ها، با Geohash 5، 226025 مکان وجود دارد که فقط یک شناسه کاربری دارند. در مقایسه با داده های خام، این تنها 1.77٪ از کل مکان های متمایز موجود در مجموعه داده YFCC100M را نشان می دهد. علاوه بر این، تنها 50358 کاربر (8.43 درصد) حداقل یک بار از یکی از این مکان‌ها بازدید کرده‌اند، که بر اساس یک پایگاه داده کاملاً در معرض خطر، حد بالایی برای احتمال حملات تقاطع ارائه می‌کند. خطرات حریم خصوصی با داده های جمع آوری شده در سطل های 100 کیلومتری کاهش می یابد. در مجموع 3354 سطل شبکه (26.64٪ از کل سطل های شبکه با داده) دارای یک کاردینالیته کاربر هستند. این سطل های شبکه فقط 1833 کاربر دارند، منعکس کننده اقلیت کوچکی از کاربران “ماجراجو” هستند که حداقل از یک سطل بازدید کرده اند که هیچ کاربر دیگری در آن حضور نداشته است. در موقعیت خصمانه یک پایگاه داده کاملاً در معرض خطر، این ماجراجویان مزایای کمی از اثرات حفظ حریم خصوصی HLL دریافت خواهند کرد. با این حال، این گروه همچنین تنها 0.31٪ از کل کاربران را در مجموعه داده YFCC100M نشان می دهد و مجموعه نتایج احتمالی که می توان از یک حمله موفقیت آمیز تقاطع گرفت به شدت محدود است. در نهایت، 41,582,251 پست در مجموعه‌های HLL سطل‌ها (100 کیلومتر) با تعداد پست‌های ≥ 10,000 گنجانده شده‌اند که دارای یک اثر قوی حفظ حریم خصوصی با توجه به [ این ماجراجویان مزایای کمی از اثرات حفظ حریم خصوصی HLL دریافت خواهند کرد. با این حال، این گروه همچنین تنها 0.31٪ از کل کاربران را در مجموعه داده YFCC100M نشان می دهد و مجموعه نتایج احتمالی که می توان از یک حمله موفقیت آمیز تقاطع گرفت به شدت محدود است. در نهایت، 41,582,251 پست در مجموعه‌های HLL سطل‌ها (100 کیلومتر) با تعداد پست‌های ≥ 10,000 گنجانده شده‌اند که دارای یک اثر قوی حفظ حریم خصوصی با توجه به [ این ماجراجویان مزایای کمی از اثرات حفظ حریم خصوصی HLL دریافت خواهند کرد. با این حال، این گروه همچنین تنها 0.31٪ از کل کاربران را در مجموعه داده YFCC100M نشان می دهد و مجموعه نتایج احتمالی که می توان از یک حمله موفقیت آمیز تقاطع گرفت به شدت محدود است. در نهایت، 41,582,251 پست در مجموعه‌های HLL سطل‌ها (100 کیلومتر) با تعداد پست‌های ≥ 10,000 گنجانده شده‌اند که دارای یک اثر قوی حفظ حریم خصوصی با توجه به [36 ]. این نشان دهنده 85.79٪ از تمام پست های دارای برچسب جغرافیایی در مجموعه داده YFCC100M است (برای محاسبات اعداد بالا، به مواد تکمیلی، S5 مراجعه کنید ).

7. بحث

در قطعه پازل مؤلفه‌های آگاه از حریم خصوصی و حفظ حریم خصوصی، موانع عملی پیاده‌سازی و هزینه سازگار کردن گردش‌های کاری موجود با حریم خصوصی همچنان مانع پذیرش گسترده‌تر می‌شوند [31 ] . این به ویژه در مناطقی که حفظ حریم خصوصی کاربر، اگرچه به عنوان مفید شناخته می شود، یک الزام اساسی نیست، مشکل ساز است. در اینجا، HLL ممکن است یک شکاف را با قابلیت‌های ad-hoc پر کند که می‌تواند به طور کلی جریان کار را بهبود بخشد، در حالی که هنوز هم امکان انعطاف پذیری تجزیه و تحلیل را فراهم می‌کند. با این حال، همانطور که توسط دیگران نشان داده شده است، اثر جانبی حفظ حریم خصوصی HLL می تواند در شرایط خاص ضعیف باشد. پزشکان می توانند به طور منطقی به نتایج متضادی در مورد اینکه آیا مزایا بر هزینه ها در زمینه های خاص برتری دارد یا خیر، برسند.
نتایج در این مقاله طیف وسیعی از معیارها را ارائه می‌کند، که به طور خاص برای ارزیابی معاوضه حریم خصوصی و ابزار مرتبط با استفاده از HLL در زمینه پردازش داده‌های مکانی مناسب است. در زمینه برنامه‌های پخش جریانی برای VGI و اطلاعات جغرافیایی جمع‌سپاری شده، یک مزیت بارز این است که داده‌های خام را می‌توان بلافاصله به قطعات اتمی آن، با ورود هر عنصر جدید تقسیم کرد. این اجازه می دهد تا ردپای کلی داده های تجزیه و تحلیل بصری در زمان جمع آوری داده ها کاهش یابد. به همین ترتیب، روابط مستقیم بین داده‌ها، مانند شناسه‌های کاربر، شناسه‌های پست یا روزهای کاربر، که از نظر حریم خصوصی یکی از مشکل‌سازترین ویژگی‌ها هستند، می‌توانند قبل از ذخیره داده‌ها منحل شوند. این تا حد زیادی احتمال استفاده مجدد از داده ها را فراتر از زمینه اصلی در نظر گرفته کاهش می دهد. در این صفحه، این برای محبوب‌ترین معیارها، تعداد کاربر، تعداد پست‌ها و روزهای کاربر، که در حال حاضر در تصمیم‌گیری برای تجزیه و تحلیل فعالیت‌های فضایی استفاده می‌شوند، نشان داده شده است. برخلاف داده‌های خام، ردیابی یک کاربر در چندین مکان با قطعیت مطلق با توجه به داده‌های HLL غیرممکن است.
در همان زمان، برخی از انعطاف‌پذیری‌ها برای کاوش بیشتر داده‌ها همچنان باز است. با استفاده از اصل طرد-شمول، الگوهای داده ها و روابط را می توان به صورت کمی ارزیابی کرد، همانطور که با شناسایی تعداد بازدیدکنندگان رایج برای آلمان، فرانسه و بریتانیا نشان داده شد ( بخش 6.2 ). اطلاعاتی مانند این ممکن است در تصمیم‌گیری، به‌عنوان یک نماینده آگاه از حریم خصوصی، برای تجزیه و تحلیل رفتار گردشگری یا ارتباطات فرهنگی مهم بین گروه‌هایی از افراد مختلف استفاده شود. اطلاعات مشابه به عنوان یک مبنای مهم برای ارزیابی نابرابری اجتماعی- فضایی [ 61] در نظر گرفته می شود.]. در مدیریت منابع طبیعی، به ویژه مکان‌های پر رفت و آمد ممکن است با استفاده از ساختار داده‌ای که در اینجا ارائه شده است، نظارت شوند و بینش‌هایی را در مورد رفتار کاربر بدون به خطر انداختن حریم خصوصی کاربر ارائه می‌دهد. تنها یک مثال کاربردی می تواند نظارت و کاهش تأثیر منفی بر نقاط برتری باشد که توسط فالوورهای اینستاگرام تحت تأثیر قرار می گیرند، در نتیجه تأثیرگذاران و گسترش جهانی اطلاعات [ 62 ]. از دیدگاه وسیع‌تر، رویکرد ارائه‌شده در اینجا می‌تواند برای سایر زمینه‌های حل مسئله فضایی، به عنوان مثال برای دلفی فضایی [63 ] ، به عنوان وسیله‌ای برای جستجوی هم‌گرایی نظرات متخصصان ناشناس استفاده شود.
ما به طور خاص و عمداً به رویکردی که در اینجا نشان داده شده است، به جای حفظ حریم خصوصی، به عنوان “آگاه از حریم خصوصی” اشاره می کنیم، زیرا ملاحظات اضافی و استراتژی های کاهش خطر برای دشوارتر کردن حملات تقاطع و کارایی کمتر در عمل مورد نیاز است. در میان موارد مورد بحث، محافظت از کلید مخفی که برای ایجاد هش استفاده می شود، شاید مهم ترین باشد. حفاظت از یک کلید مخفی با قابلیت موازی سازی و محاسبات محاسباتی مجموعه های HLL ساده می شود و به این دلیل که تحلیلگران برای اینکه بتوانند با داده ها کار کنند نیازی به دانستن کلید ندارند. به عنوان مثال، یک سرویس Sketching جداگانه می تواند برای ایجاد هش استفاده شود ( شکل 1 ، بخش 3.1 را ببینید.) که می تواند به طور جداگانه از سرویس تحلیلی مورد استفاده قرار گیرد. در سناریوهای همکاری فعال (به شکل 1 ، بخش 3.1 مراجعه کنید)، به نظر می‌رسد که بهبودهای بیشتر، مانند امضای هش‌ها در دستگاه‌های کاربر، با کلیدهایی که فقط برای خود کاربران شناخته می‌شوند، ممکن است. اقدامی برای جلوگیری موثر از حملات تقاطع، همانطور که توسط Desfontaines و همکاران پیشنهاد شده است. [ 36] (ص 15)، استفاده از کلیدهای مختلف برای مجموعه های مختلف HLL است. در مورد ما، هش‌ها برای هر Grid bin را می‌توان با یک کلید متفاوت ایجاد کرد، که حملات تقاطع را بسیار دشوارتر می‌کند. با این حال، این همچنین هرگونه توانایی برای استفاده از داده‌های فراتر از تخمین اصلی را حذف می‌کند. در نهایت، یک اقدام مهم برای کاهش تدریجی آسیب‌پذیری، به‌ویژه هنگام انتشار مجموعه‌های داده، محدود کردن مجموعه‌های HLL با یک آستانه پایین‌تر است. آستانه های بالاتر میانگین حریم خصوصی کاربران را افزایش می دهد، اما همچنین برنامه را به مجموعه داده های نسبتاً بزرگ محدود می کند.
از این منظر، HLL ممکن است به ویژه به عنوان اولین گام به سمت حفظ حریم خصوصی بیشتر کاربر مناسب باشد، که تأثیر مخربی بر کیفیت و سودمندی نتایج ندارد، از جمله وعده بهبود عملکرد. بر اساس این مزایا، HLL پتانسیل تا حد زیادی استفاده نشده را برای جایگزینی بسیاری از خطوط لوله پردازش داده که در حال حاضر هنوز از داده های خام استفاده می کنند، ارائه می دهد. معیارهای عملکرد جمع‌آوری‌شده در بخش 6 و کد نمونه منتشر شده ممکن است زیربنای این توسعه برای تجسم‌های فضایی باشد. در نهایت، تمام اقداماتی که در بالا توضیح داده شد مکمل یکدیگر هستند. آنها را می توان با راه حل های قوی تر، مانند اضافه کردن سر و صدا، برای ارضای مفاهیم سختگیرانه تر از حریم خصوصی تکمیل کرد.
علی‌رغم راه‌های زیادی که می‌توان از طریق آن تنظیمات تجسم ارائه شده را مورد استفاده و اعمال قرار داد، روشی که در اینجا توضیح داده شد یک رویکرد یکپارچه با در نظر گرفتن محدود روش‌های تجسم فضایی مرتبط است و تنها بر روی یک مجموعه داده خاص آزمایش شد. برخی از تکنیک‌های تجسم فضایی، مانند تکنیک ارائه شده در اینجا، ممکن است برای ترکیب با HLL مناسب‌تر از سایرین باشند. برای مثال، طبقه بندی تکنیک های تجسم بر اساس توانایی آنها در ترکیب با PDS جالب خواهد بود. جهت دیگر می تواند استفاده از روش های پیشرفته تر برای طبقه بندی خودکار حساسیت مجموعه های HLL در مراحل مختلف باشد، مانند آنچه توسط Reviriego و همکاران ارائه شده است. [ 64]، یا به طور رسمی تر، معاوضه حریم خصوصی- سودمندی را ارزیابی می کند، مانند موارد ارائه شده توسط Feyisetan و همکاران. [ 27 ] یا Desfontaines و همکاران. [ 36 ]. از منظر برنامه گرا، استفاده از تنظیمات HLL دو جزئی ارائه شده برای داده های فراتر از مکان ها، مانند اطلاعات موضعی و زمانی (به عنوان مثال، برچسب ها، تاریخ ها)، با توانایی مطالعه مجموعه گسترده تری از روابط، جالب خواهد بود. تقاطع.

8. نتیجه گیری

HLL و سایر PDS مسیر نسبتا جدیدی را برای تجزیه و تحلیل بصری باز می کنند، که به طور خاص برای کاوش در ترکیب با تکنیک های تجسم مناسب است که بر شناسایی الگوهای داده ها و زمینه هایی که در آن پاسخ های قطعی الزامی نیست تمرکز می کنند. این امر باعث می‌شود HLL برای مجموعه‌های داده‌های بزرگ، مانند آن‌هایی که اغلب با VGI و اطلاعات جغرافیایی جمع‌سپاری شده عمومی مواجه می‌شوند، مناسب باشد. به عنوان یک عارضه جانبی، HLL امکان افزایش حریم خصوصی داوطلبان را در زمان جمع‌آوری داده‌ها، با قابلیت تنظیم بیشتر و تدریجی خطرات در طول فرآیندهای تصمیم‌گیری چند مرحله‌ای و چند معیاره فراهم می‌کند. در یک سناریوی کاربردی محدود، این برای تجزیه و تحلیل فعالیت فضایی در مطالعه حاضر نشان داده شده است. از دیدگاه سودمندی، نتایج نشان می‌دهد که برای انتقال جریان‌های کاری، سازش‌های کمی یا بدون هیچ مصالحه‌ای لازم است. علاوه بر این، HLL مزایایی فراتر از افزایش حریم خصوصی کاربر مانند بهبود عملکرد، کاهش نیاز به ذخیره سازی، یا محصورسازی بهبود یافته خطوط لوله پردازش را فراهم می کند. نتایج نشان‌داده‌شده در این مقاله، پایه‌ای برای ارزیابی تعدادی از معاوضه‌های ابزار اضافی هنگام انتقال جریان‌های کاری، به‌ویژه برای تکنیک‌های پردازش داده‌های مکانی، فراهم می‌کند. دفترچه های ارائه شده می تواند به عنوان مبنایی برای سازگاری با سایر زمینه ها باشد. نتایج نشان‌داده‌شده در این مقاله، پایه‌ای برای ارزیابی تعدادی از معاوضه‌های ابزار اضافی هنگام انتقال جریان‌های کاری، به‌ویژه برای تکنیک‌های پردازش داده‌های مکانی، فراهم می‌کند. دفترچه های ارائه شده می تواند به عنوان مبنایی برای سازگاری با سایر زمینه ها باشد. نتایج نشان‌داده‌شده در این مقاله، پایه‌ای برای ارزیابی تعدادی از معاوضه‌های ابزار اضافی هنگام انتقال جریان‌های کاری، به‌ویژه برای تکنیک‌های پردازش داده‌های مکانی، فراهم می‌کند. دفترچه های ارائه شده می تواند به عنوان مبنایی برای سازگاری با سایر زمینه ها باشد.
محدودیت‌هایی برای زمینه‌های کاربردی اعمال می‌شود که به تضمین‌های دقیق برای حفظ حریم خصوصی نیاز دارند. در سناریوهای فضایی، مانند آنچه در اینجا ارائه شده است، اثر حفظ حریم خصوصی HLL می تواند در حضور پرت ضعیف باشد. در حالی که می‌توان با تکنیک‌های مختلف مقادیر پرت را کاهش داد، استراتژی‌های کاهش خطر اضافی برای سازگار کردن رویکرد با مفاهیم سخت‌گیرانه‌تر حریم خصوصی، مانند اضافه کردن نویز یا حذف داده‌ها، مورد نیاز است. چندین مورد از این استراتژی ها در این مقاله مورد بحث قرار گرفته است. اینکه آیا مزایا بر هزینه‌ها بیشتر است، به زمینه بستگی دارد و شاغلین تشویق می‌شوند تا ترکیبی از تکنیک‌ها را در نظر بگیرند، به جای تمرکز بر یک راه‌حل خاص، همانطور که برای اهداف جداسازی در این مقاله ارائه شده است.

پیوست اول

شکل A1. نقشه جهانی تعداد تخمینی کاربر (YFCC) در سطل شبکه 100 کیلومتری.
شکل A2. شکل 7 با پارامتر اندازه شبکه 50 کیلومتر و نرخ خطای مربوطه ایجاد شده است.

منابع

  1. ببینید، L. مونی، پی. فودی، جی. باستین، ال. کامبر، ا. استیما، ج. Rutzinger، M. Crowdsourcing، دانش شهروندی یا اطلاعات جغرافیایی داوطلبانه؟ وضعیت فعلی اطلاعات جغرافیایی جمع سپاری شده. ISPRS Int. J. Geo Inf. 2016 ، 5 ، 55. [ Google Scholar ] [ CrossRef ]
  2. هاروی، اف. داوطلب شدن یا ارائه اطلاعات مکانی؟ به سوی حقیقت در برچسب‌گذاری برای اطلاعات جغرافیایی جمع‌سپاری شده. در جمع سپاری دانش جغرافیایی: اطلاعات جغرافیایی داوطلبانه (VGI) در تئوری و عمل . Sui، DZ، Elwood، S.، Goodchild، MF، Eds. Springer: Dordrecht، هلند، 2013; صص 31-42. [ Google Scholar ]
  3. آلمانی، ع. سینکلر، ام. جمع سپاری غیرفعال رسانه های اجتماعی در تحقیقات محیطی: یک نقشه سیستماتیک. گلوب. محیط زیست چانگ. 2019 ، 55 ، 36-47. [ Google Scholar ] [ CrossRef ]
  4. مالهوترا، NK; کیم، اس اس؛ آگاروال، جی. نگرانی‌های مربوط به حریم خصوصی اطلاعات کاربران اینترنت (IUIPC): ساختار، مقیاس و یک مدل علی. Inf. سیستم Res. 2004 ، 15 ، 336-355. [ Google Scholar ] [ CrossRef ]
  5. لین، جی. استودن، وی. بندر، اس. Nissenbaum, H. Privacy, Big Data, and the Public Good: Frameworks for Engagement ; انتشارات دانشگاه کمبریج: کمبریج، بریتانیا، 2015. [ Google Scholar ] [ CrossRef ]
  6. متکالف، جی. کرافورد، ک. سوژه های انسانی در تحقیقات کلان داده کجا هستند؟ اخلاق در حال ظهور شکاف می کند. Big Data Soc. 2016 ، 3 ، 205395171665021. [ Google Scholar ] [ CrossRef ]
  7. دی گروت، آر.اس. آلکماد، آر. برات، ال. هاین، ال. چالش ها در ادغام مفهوم خدمات و ارزش های اکوسیستم در برنامه ریزی، مدیریت و تصمیم گیری منظر. Ecol. مجتمع. 2010 ، 7 ، 260-272. [ Google Scholar ]
  8. Hon، WK; میلارد، سی. والدن، آی. مشکل “داده های شخصی” در رایانش ابری: چه اطلاعاتی تنظیم می شود؟ – ابر نادانسته. بین المللی داده خصوصی قانون 2011 ، 1 ، 211-228. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  9. وانگ، کیو. ژانگ، ی. لو، ایکس. وانگ، ز. Qin، Z. Ren, K. انتشار داده‌های شبکه اجتماعی به‌منبع جمعیت در زمان واقعی و فضایی-زمانی با حریم خصوصی متفاوت. IEEE Trans. ایمن قابل اعتماد محاسبه کنید. 2018 ، 15 ، 591-606. [ Google Scholar ] [ CrossRef ]
  10. دوستدار، س. روزنبرگ، اف. نظرسنجی در مورد سیستم های آگاه از زمینه. Inf. سیستم 2007 ، 2 ، 263-277. [ Google Scholar ]
  11. پولیتو، ای. الپس، ای. پاتساکیس، سی. فراموش کردن داده های شخصی و لغو رضایت تحت GDPR: چالش ها و راه حل های پیشنهادی. J. Cybersecur. 2018 ، 1-20. [ Google Scholar ] [ CrossRef ]
  12. ویکتور، ن. لوپز، دی. Abawajy، JH مدل‌های حریم خصوصی برای داده‌های بزرگ: یک نظرسنجی. بین المللی J. هوش کلان داده. 2016 ، 3 ، 61. [ Google Scholar ] [ CrossRef ]
  13. D’Orazio، V. هوناکر، جی. کینگ، جی. حریم خصوصی متفاوت برای استنتاج علوم اجتماعی. الکترون SSRN. J. 2015 . [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  14. اوبرسکی، دی.ال. کروتر، اف. حریم خصوصی و علوم اجتماعی متفاوت: یک معمای فوری. هارو. اطلاعات علمی Rev. 2020 , 2 , 1-22. [ Google Scholar ] [ CrossRef ]
  15. Solove، DJ مقدمه: خود مدیریتی حریم خصوصی و معضل رضایت. هارو. Law Rev. 2013 , 126 , 1880-1903. [ Google Scholar ]
  16. فلاژولت، پی. Fusy، É. Gandouet، O. HyperLogLog: تجزیه و تحلیل یک الگوریتم تخمین کاردینالیتی نزدیک به بهینه. در مجموعه مقالات کنفرانس تحلیل الگوریتم ها، AofA 07، نیس، فرانسه، 17-22 ژوئن 2007. 2007; جلد 7، ص 127–146. [ Google Scholar ]
  17. عطایی، م. دگبلو، ا. کری، سی. سانتوس، وی. پیروی از قانون حفظ حریم خصوصی: از متن قانونی تا اجرای خدمات مبتنی بر مکان آگاه از حریم خصوصی. ISPRS Int. J. Geo Inf. 2018 ، 7 ، 442. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  18. مارتینز-بالست، آ. پرز مارتینز، پ. سولاناس، A. پیگیری حریم خصوصی شهروندان: یک شهر هوشمند آگاه از حریم خصوصی ممکن است. IEEE Commun. Mag. 2013 ، 51 ، 136-141. [ Google Scholar ] [ CrossRef ]
  19. سینگ، آ. گارگ، اس. کائور، آر. باترا، اس. کومار، ن. Zomaya، AY ساختارهای داده احتمالی برای تجزیه و تحلیل داده های بزرگ: یک بررسی جامع. بدانید. سیستم مبتنی بر 2020 , 188 . [ Google Scholar ] [ CrossRef ]
  20. کسلر، سی. McKenzie, G. مانیفست geoprivacy. ترانس. GIS 2018 ، 22 ، 3-19. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  21. Westin, AF Privacy and Freedom ; Atheneum: نیویورک، نیویورک، ایالات متحده آمریکا، 1967. [ Google Scholar ]
  22. آلتمن، I. محیط و رفتار اجتماعی: حریم خصوصی، فضای شخصی، قلمرو، ازدحام . بروکس / میخانه کول. شرکت: Monterey, CA, USA, 1975. [ Google Scholar ]
  23. یو، اس. حریم خصوصی بزرگ: چالش ها و فرصت های مطالعه حریم خصوصی در عصر داده های بزرگ. IEEE Access 2016 ، 4 ، 2751-2763. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  24. سامراتی، پ. Sweeney, L. حفاظت از حریم خصوصی هنگام افشای اطلاعات: K-Anonymity و اجرای آن از طریق تعمیم و سرکوب . گزارش فنی SRI-CSL-98-04; آزمایشگاه علوم کامپیوتر، SRI International: Menlo Park، CA، USA، 1998. [ Google Scholar ]
  25. آگاروال، سی سی در مورد k-ناشناس بودن و نفرین ابعاد. در مجموعه مقالات سی و یکمین کنفرانس بین المللی پایگاه های داده بسیار بزرگ، تروندهایم، نروژ، 30 اوت تا 2 سپتامبر 2005. صفحات 901–909، VLDB Endowment. [ Google Scholar ]
  26. کمپ، ام. کوپ، سی. ماک، م. بولی، ام. مه، M. حفظ حریم خصوصی نظارت بر تحرک با استفاده از طرح‌هایی از قرائت‌های حسگر ثابت. در یادگیری ماشین و کشف دانش در پایگاه های داده. ECML PKDD 2013. نکات سخنرانی در علوم کامپیوتر ; Springer: برلین/هایدلبرگ، آلمان، 2013. [ Google Scholar ]
  27. فییستان، او. دریک، تی. باله، بی. Diethe، T. یادگیری فعال حفظ حریم خصوصی در مورد داده های حساس برای طبقه بندی قصد کاربر. CEUR Workshop Proc. 2019 ، 2335 ، 3-12. [ Google Scholar ]
  28. جین، پی. گیانچندانی، م. Khare, N. حریم خصوصی داده های بزرگ: دیدگاه و بررسی تکنولوژیکی. J. Big Data 2016 , 3 . [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  29. دیورک، سی. مک شری، اف. نیسیم، ک. اسمیت، A. کالیبره کردن نویز به حساسیت در تجزیه و تحلیل داده های خصوصی. کنفرانس تئوری رمزنگاری ; Springer: برلین/هایدلبرگ، آلمان، 2006; صص 265-284. [ Google Scholar ]
  30. Dwork، C. حریم خصوصی متفاوت: بررسی نتایج. در نظریه و کاربردهای مدل‌های محاسبات: مجموعه مقالات پنجمین کنفرانس بین‌المللی، TAMC 2008، شیان، چین، 25-29 آوریل 2008 . یادداشت های سخنرانی Springer در علوم کامپیوتر; Springer: برلین/هایدلبرگ، آلمان، 2008; جلد 4978، ص 1-19. [ Google Scholar ]
  31. ماچاناواجهالا، ع. او، X. Hay, M. Differential privacy in the wild: آموزشی در مورد شیوه های فعلی و چالش های باز. قسمت F127746. Proc. ACM SIGMOD Int. Conf. مدیریت داده 2017 ، 1727-1730. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  32. فن، ال. Xiong، L. نظارت بر کل زمان واقعی با حریم خصوصی دیفرانسیل. ACM Int. Conf. Proc. سر. 2012 ، 2169-2173. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  33. دیورک، سی. ناور، م. پیتاسی، تی. Rothblum، GN Differential Privacy تحت نظارت مستمر. در مجموعه مقالات چهل و دومین سمپوزیوم ACM در تئوری محاسبات، STOC’10، کمبریج، MA، ایالات متحده آمریکا، 6-8 ژوئن 2010. ص 715-724. [ Google Scholar ]
  34. بیانچی، جی. براشیاله، ال. لورتی، ص. حریم خصوصی “بهتر از هیچ” با فیلترهای شکوفه: تا چه حد؟ در مجموعه مقالات کنفرانس بین‌المللی حریم خصوصی در پایگاه‌های داده آماری 2012، پالرمو، ایتالیا، 26-28 سپتامبر 2012. Springer: برلین/هایدلبرگ، آلمان، 2012; صص 348-363. [ Google Scholar ] [ CrossRef ]
  35. یو، یو.و. وبر، GM فدرال پرس و جو از مخازن داده های بالینی: تعادل دقت و حریم خصوصی. BioRxiv 2019 ، 841072. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  36. دزفونتینز، دی. لوچبیهلر، ا. Basin, D. Cardinality برآوردگرها حریم خصوصی را حفظ نمی کنند. Proc. خصوصی تقویت فناوری 2019 ، 2 ، 26–46. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  37. رایت، سی. اسکورتسوف، ای. کروتر، بی. Wang, Y. حفظ حریم خصوصی کاردینالیته ایمن و تخمین فرکانس . Google LLC: Mountain View، CA، USA، 2020؛ صص 1-20. [ Google Scholar ]
  38. آندریسکو، تی. Feng, Z. اصل شمول-حذف. در مسیری به ترکیبیات برای دانشجویان لیسانس ; Birkhäuser: بوستون، MA، ایالات متحده آمریکا، 2004. [ Google Scholar ]
  39. Baker, DN; Langmead، B. Dashing: فواصل ژنومی سریع و دقیق با HyperLogLog. ژنوم بیول. 2019 ، 20 ، 1-12. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
  40. گومز-بارون، جی پی. Manso-Callejo، M.Á. آلکاریا، آر. Iturrioz, T. طراحی سیستم اطلاعات جغرافیایی داوطلبانه: دستورالعمل های پروژه و مشارکت. ISPRS Int. J. Geo-Inf. 2016 ، 5 ، 108. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  41. مانیکس، EA؛ نیل، MA; Northcraft، GB Equity، Equality یا Need؟ تأثیر فرهنگ سازمانی بر تخصیص مزایا و بارها. عضو. رفتار هوم تصمیم می گیرد. روند. 1995 , 63 , 276. [ Google Scholar ] [ CrossRef ]
  42. دوان، ا. راماکریشنان، ر. سیستم های جمع سپاری Halevy، AY در وب جهانی. اشتراک. ACM 2011 ، 54 ، 86. [ Google Scholar ] [ CrossRef ]
  43. چن، ی. پارکینز، جی آر. شررن، ک. استفاده از پست‌های اینستاگرام با برچسب جغرافیایی برای آشکار کردن ارزش‌های چشم‌انداز اطراف سدهای برق آبی فعلی و پیشنهادی و مخازن آنها. Landsc. طرح شهری. 2017 170 . [ Google Scholar ] [ CrossRef ]
  44. کندی، ال. Naaman, M. ایجاد نتایج جستجوی تصویری متنوع و معرف برای مکان‌های دیدنی. در مجموعه مقالات هفدهمین کنفرانس بین المللی وب جهانی، WWW’08، پکن، چین، 21-25 آوریل 2008; ACM: نیویورک، نیویورک، ایالات متحده آمریکا، 2008; صص 297-306. [ Google Scholar ]
  45. چوب، SA; Guerry، AD; نقره، JM; Lacayo, M. استفاده از رسانه های اجتماعی برای تعیین کمیت گردشگری و تفریحات مبتنی بر طبیعت. علمی Rep. 2013 , 3 . [ Google Scholar ] [ CrossRef ] [ PubMed ]
  46. هایکینهایمو، وی. مینین ای دی تنکانن، اچ. هاسمن، ا. ارکونن، جی. Toivonen، T. اطلاعات جغرافیایی تولید شده توسط کاربر برای نظارت بر بازدیدکنندگان در پارک ملی: مقایسه داده های رسانه های اجتماعی و نظرسنجی بازدیدکنندگان. ISPRS Int. J. Geo-Inf. 2017 ، 6 ، 85. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  47. کیم، ی. کیم، سی. لی، DK; لی، اچ. آندرادا، RIT کمی کردن گردشگری مبتنی بر طبیعت در مناطق حفاظت شده در کشورهای در حال توسعه با استفاده از داده های بزرگ اجتماعی. تور. مدیریت 2019 ، 72 ، 249-256. [ Google Scholar ] [ CrossRef ]
  48. فیشر، دی.م. چوب، SA; سفید، EM; بلانا، دی جی; لانگ، اس. واینبرگ، ا. لیا، ای. استفاده تفریحی در زمین‌های عمومی پراکنده با استفاده از داده‌های رسانه‌های اجتماعی و شمارش در محل اندازه‌گیری شد. جی. محیط زیست. مدیریت 2018 ، 222 ، 465-474. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  49. شفر، م. شارتنر، پی. Rass, S. شناسه‌های منحصربه‌فرد جهانی: چگونه از منحصربه‌فرد بودن در حین محافظت از حریم خصوصی صادرکننده اطمینان حاصل کنیم. در مجموعه مقالات کنفرانس بین المللی امنیت و مدیریت 2007، SAM’07، لاس وگاس، NV، ایالات متحده آمریکا، 25-28 ژوئن 2007. ص 198-204. [ Google Scholar ]
  50. شی، ایکس. یو، ز. نیش، Q. ژو، کیو. یک رویکرد تحلیل بصری برای استنباط موقعیت‌های شغلی شخصی و مسکن بر اساس داده‌های عمومی دوچرخه. ISPRS Int. J. Geo-Inf. 2017 ، 6 ، 205. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
  51. تومی، بی. Shamma، DA; فریدلند، جی. الیزالد، بی. نی، ک. لهستان، دی. بورث، دی. لی، L. YFCC100M: داده های جدید در تحقیقات چند رسانه ای. اشتراک. ACM 2016 ، 59 ، 64-73. [ Google Scholar ] [ CrossRef ]
  52. دانکل، ا. لوشنر، ام. Burghardt, D. مواد تکمیلی (نسخه نسخه 0.1.0) برای تجسم اطلاعات جغرافیایی داوطلبانه (VGI) با آگاهی از حریم خصوصی برای تجزیه و تحلیل فعالیت فضایی: اجرای معیار. مخازن داده 2020 . [ Google Scholar ] [ CrossRef ]
  53. پریا، وی. ایلاواراسی، آ.ک. باما، اس. یک رویکرد داده کاوی حفظ حریم خصوصی برای مدیریت داده ها با موارد دور از دسترس. Adv. نات. Appl. علمی 2017 ، 11 ، 585-591. [ Google Scholar ]
  54. ژو، بی. پی، جی. رویکردهای k-anonymity و l-diversity برای حفظ حریم خصوصی در شبکه های اجتماعی در برابر حملات محله. بدانید. Inf. سیستم 2011 ، 28 ، 47-77. [ Google Scholar ] [ CrossRef ]
  55. گروتسر، م. Grunwald، D. استفاده ناشناس از خدمات مبتنی بر مکان از طریق پنهان کاری مکانی و زمانی. در مجموعه مقالات اولین کنفرانس بین المللی سیستم های تلفن همراه، برنامه ها و خدمات (MobiSys)، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 5 تا 8 مه 2003. [ Google Scholar ]
  56. وانگ، اچ. لیو، آر. پنهان کردن موارد پرت در میان جمعیت: انتشار داده‌های حفظ حریم خصوصی با موارد پرت. دانستن داده ها مهندس 2015 ، 100 ، 94-115. [ Google Scholar ] [ CrossRef ]
  57. روپل، پی. Küpper، A. Geocookie: یک نمایش فضای کارآمد از مجموعه موقعیت جغرافیایی. J. Inf. روند. 2014 ، 22 ، 418-424. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
  58. Jiang, B. Head/Tail Breaks: یک طرح طبقه بندی جدید برای داده ها با توزیع دم سنگین. پروفسور Geogr. 2013 ، 65 ، 482-494. [ Google Scholar ] [ CrossRef ]
  59. روش و سیستم Ertl، O. برای تخمین کاردینالیته مجموعه ها و مجموعه نتایج عملیات از طرح های HyperLogLog منفرد و چندگانه. درخواست ثبت اختراع ایالات متحده شماره 15/950,632، 11 آوریل 2018. [ Google Scholar ]
  60. De Andrade، SC; رسترپو-استرادا، سی. Nunes، LH; رودریگز، CAM; استرلا، جی سی. دلبم، ACB؛ پورتو دو آلبوکرک، جی. چارچوب بهینه‌سازی چند معیاره برای تعریف دانه‌بندی فضایی تحلیل رسانه‌های اجتماعی شهری. بین المللی جی. جئوگر. Inf. علمی 2020 ، 1-20. [ Google Scholar ] [ CrossRef ]
  61. شلتون، تی. پورتویس، ا. Zook, M. رسانه های اجتماعی و شهر: بازاندیشی نابرابری اجتماعی- فضایی شهری با استفاده از اطلاعات جغرافیایی تولید شده توسط کاربر. Landsc. طرح شهری. 2015 ، 142 ، 198-211. [ Google Scholar ] [ CrossRef ]
  62. اویان، اچ. فردمن، پی. سندل، ک. Sæþórsdóttir، AD; Tyrväinen، L. جنسن، FS گردشگری، طبیعت و پایداری: مروری بر ابزارهای سیاست در کشورهای شمال اروپا . شورای وزیران شمال اروپا: کپنهاگ، دانمارک، 2018. [ Google Scholar ] [ CrossRef ]
  63. دی زیو، اس. کاستیلو روزاس، جی.دی. Lamelza, L. Real Time Spatial Delphi: همگرایی سریع نظرات کارشناسان در مورد قلمرو. تکنولوژی پیش بینی. Soc. تغییر 2017 ، 115 ، 143-154. [ Google Scholar ] [ CrossRef ]
  64. Reviriego، P. Ting، D. امنیت HyperLogLog (HLL) برآورد کاردینالیتی: آسیب‌پذیری‌ها و حفاظت. IEEE Commun. Lett. 2020 ، 1 . [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
شکل 1. تصویری از مدل سیستم و دو مورد از دشمنان احتمالی مورد بحث در این کار.
شکل 2. مراحل تبدیل اعمال شده بر روی یک رشته کاراکتر منفرد، مانند شناسه کاربر، برای تولید مجموعه HyperLogLog (HLL) و تخمین نهایی کاردینالیته (مقادیر مثال با داده های واقعی تولید شده اند، اما مقادیر متفاوتی ممکن است بر اساس تنظیمات پارامترهای مختلف).
شکل 3. درصد حجم پرت فضایی جهانی (k = 1) در مجموعه داده 100 میلیونی یاهو فلیکر کریتیو کامانز (YFCC100M)، برای کاهش سطوح دقت (GeoHash) و معیارهای مختلف استفاده شده در این مقاله (برای بازتولید این گرافیک، به مواد تکمیلی مراجعه کنید . ، S5 ).
شکل 4. مقایسه طبقه بندی خودکار روزهای کاربر خام و HLL برای اروپا (شبکه 100 کیلومتر).
شکل 5. تصویری از نقشه برای تعداد کاربران در سطل شبکه 100 کیلومتری، که امکان مقایسه تعاملی مقادیر تخمینی (HLL) و شمارش دقیق (خام) را فراهم می کند ( شکل A1 را برای نمای ایستا و سراسری از نقشه، و مواد تکمیلی S8 را ببینید. نسخه تعاملی).
شکل 6. تعداد پست تخمینی با اندازه شبکه کاهش یافته 50 کیلومتر برای اروپا.
شکل 7. تجزیه و تحلیل روابط فضایی با تقاطع HLL، بر اساس اتحاد افزایشی مجموعه‌های کاربر از داده‌های معیار (شبکه 100 کیلومتر) برای فرانسه، آلمان و بریتانیا (سمت چپ ). نمودار ون ( سمت راست ) تخمین تعداد کاربران رایج برای گروه‌های مختلف و درصد خطا را در مقایسه با داده‌های خام نشان می‌دهد. همین گرافیک که برای اندازه شبکه 50 کیلومتری ایجاد شده است، در شکل A2 موجود است .
شکل 8. مطالعه موردی الکس، ارزیابی سناریوی سندی.
شکل 9. مطالعه موردی الکس، ارزیابی سناریوی “رابرت”.

بدون دیدگاه

دیدگاهتان را بنویسید