1. مقدمه
با توسعه اقتصادی و اجتماعی، سازمانهای اجتماعی چین به سرعت در حال توسعه هستند، با مشارکت در برنامهریزی و حکمرانی، خدمات حرفهای در زمینههای مختلف مانند مراقبتهای بهداشتی، امنیت اجتماعی و آموزش عمومی ارائه میکنند [ 1 ]. اگرچه سازمانهای اجتماعی اغلب با یا در کنار سازمانهای دولتی کار میکنند و حتی ممکن است بودجه یا کمیسیونهایی از دولت دریافت کنند، اما در واقع در بیشتر حوزهها، اشخاص ثالث مستقل خارج از دولت هستند.
زمانی که جمهوری خلق چین تأسیس شد، تنها حدود 100 سازمان اجتماعی ملی و 6000 سازمان اجتماعی محلی وجود داشت. اندکی پس از آغاز انقلاب فرهنگی در سال 1966، زمانی که وزارت کشور، که مسئولیت تمام سازمان های اجتماعی چین را بر عهده داشت، لغو شد، سازمان های اجتماعی تقریباً در سرزمین اصلی چین از بین رفتند. به لطف جو اجتماعی لیبرال فزاینده در چین پس از اصلاحات و گشایش، اعلام مقررات مربوط به ثبت سازمان های اجتماعی و اقدامات مدیریت صندوق، پایه قانونی محکمی را برای توسعه سازمان های اجتماعی ایجاد کرد که تعداد آنها در آینده تقریباً دو برابر شد. دهه
در دهه اول قرن بیست و یکم، سازمان های اجتماعی در چین جهش کردند. اما امروزه در مواجهه با بازار اشباع شده و سیاستها و سیستمهای حقوقی به طور مستمر به کمال میرسند، نرخ رشد کاهش یافته است ( شکل 1 ) که نشاندهنده تغییر فلسفه توسعه در چین، از پیگیری سرعت به دنبال کیفیت است.
سازمان های اجتماعی در چین را می توان به سه دسته تقسیم کرد: «بالا به پایین»، «پایین به بالا» و «واردات خارجی». سازمانها و بنیادهای دولتی، سازمانهای اجتماعی «بالا به پایین» هستند. در مقابل، سازمان اجتماعی «از پایین به بالا» شامل انواع انجمنهای صنعتی محلی و سازمانهای غیرانتفاعی خصوصی است. پس از الحاق چین به سازمان تجارت جهانی (WTO)، «واردات خارجی» که تأمین مالی، عملیات پروژه و حاکمیت آنها عمدتاً از سازمانهای اجتماعی خارجی نشأت میگیرد، نیرویی قابل محاسبه است که ایدهها و نوآوریهای جدیدی را در زمینههایی از این قبیل به ارمغان میآورد. به عنوان حفاظت از محیط زیست، فقرزدایی و حقوق زنان. قلمرو وسیع، توزیع نابرابر منابع طبیعی، اختلاط طبقات مختلف اجتماعی، توسعه نامتعادل و تنوع فرهنگی در چین به تفاوت های بزرگ در توسعه اجتماعی و همچنین ترکیب سازمان های اجتماعی از سراسر چین کمک کرده است. به طور کلی، موقعیت جغرافیایی، از جمله اقتصاد محلی، فرهنگ و سیاستها، عامل مهمی در رشد سازمانهای اجتماعی است و بررسی تأثیر ساختارهای انتزاعی تعبیهشده در اطلاعات جغرافیایی بر توسعه سازمانهای اجتماعی در چین بسیار حیاتی است.
شبکه اجتماعی ساختاری متشکل از موجودات اجتماعی مختلف است. آشناترین آنها بدون شک شبکه اجتماعی مبتنی بر اینترنت (به عنوان مثال، فیس بوک، لینکدین یا وی چت) است. با این حال، به جز افراد آنلاین، سازمان های اجتماعی نیز می توانند ترکیب مهمی از یک شبکه اجتماعی باشند [ 2 ]. این دیدگاه مجموعه ای از روش ها و نظریه ها را برای تجزیه و تحلیل ساختار موجودات اجتماعی به عنوان یک کل، و همچنین توضیح الگوهای مشاهده شده در این ساختارها ارائه می دهد [ 3 ]. تجزیه و تحلیل شبکه های اجتماعی (SNA) اخیراً به دلیل افزایش فناوری تکیه ماشین گراف [ 4 ، 5 ] به طور فزاینده ای محبوب شده است.]. از مفهوم ریاضی نمودارها، عملکرد ساده و سرراست نمودارها ما را قادر می سازد تصویر واضح تری از ساختار جامعه و تعاملات آنها به دست آوریم. با این حال، ادبیات قبلی توجه کمی به اکتشاف کمی و ساختاری شبکههای سازمانی داشت. در این مقاله، ساخت و تحلیل اکتشافی الگوریتمهای یادگیری ماشینی خاص و مدلهای نمودار را با ترکیب اطلاعات سیاسی و اقتصادی تعبیهشده در شبکه اجتماعی سازمانی (OGN) بر اساس دادههای دنیای واقعی انجام دادیم.
شکل 2 توزیع سازمان های اجتماعی در چین را با استفاده از پایگاه داده ساخته شده در این مقاله نشان می دهد و یک شبکه اجتماعی سازمانی سراسری (OGN) را نشان می دهد، که در آن نقاط نشان دهنده سازمان های اجتماعی هر واحد اداری و روشنایی هر نقطه نشان دهنده مرکزیت درجه آن است. تمرکز سازمان های اجتماعی با توزیع مناطق اقتصادی برجسته مانند دلتای رودخانه یانگ تسه و دلتای رودخانه مروارید مطابقت دارد. یک خط مورب فرضی در سراسر چین وجود دارد که خط هو نامیده می شود. خط هو اهمیت جمعیتی گسترده ای دارد و همچنین می تواند نشان دهنده توزیع سازمان های اجتماعی باشد: تعداد سازمان های اجتماعی در سمت غربی خط به طور قابل توجهی کمتر از آن ها در شرق است.
سهم اصلی این مقاله به شرح زیر است. در مرحله اول، ما از داده های منبع باز وزارت امور مدنی چین برای ایجاد یک پایگاه داده در مقیاس بزرگ پیشگام از سازمان های اجتماعی که سیاست های عمومی و اطلاعات جغرافیایی را در هم آمیخته است، استفاده کردیم، که طبق دانش ما، اولین پایگاه داده در مقیاس بزرگ سازمان های اجتماعی است. برای استفاده تحقیقاتی ثانیا، ما در استفاده از ساختار نمودار برای مدل سازی توسعه سازمان های اجتماعی که اطلاعات جغرافیایی و خط مشی عمومی را ادغام می کنند، پیشگام بودیم. آخرین، اما نه کماهمیت، بر اساس مکانیسم توجه نمودار، ما یک شبکه توجه گراف جدید را پیشنهاد میکنیم که اطلاعات متنی سازمانهای اجتماعی را یکپارچه میکند و آن را برای طبقهبندی شبکههای نموداری بر اساس اطلاعات جغرافیایی اعمال میکنیم و به نتیجه خوبی میرسیم.
ساختار این مقاله به شرح زیر سازماندهی شده است: بخش 1 مقدمه را با تاریخچه مختصری از سازمان های اجتماعی در سرزمین اصلی چین و ایده های پژوهشی اصلی مقاله ارائه می کند. بخش 2 چندین موضوع تحقیقاتی مرتبط با این تحقیق را معرفی می کند، از جمله شبکه های اجتماعی، سیستم های اطلاعات جغرافیایی، پردازش زبان طبیعی و مدل های شبکه عصبی نمودار. بخش 3 بر روند ساخت پایگاه داده جدید ما و برخی تحلیل های آماری توصیفی از داده های جمع آوری شده تمرکز دارد. در بخش 4 ، ما چهار نوع اساسی از شبکه های اجتماعی سازمانی را بر اساس نظریه نمودارهای همگن و ناهمگن، و تعبیه شبکه نسبت داده شده بر اساس BERT و CNN پیشنهاد می کنیم. که دربخش 5 ، شبکه اجتماعی سازمانی را با استفاده از مدلهای یادگیری ماشین نمودار بررسی میکنیم تا رابطه بین شبکه و مناطق جغرافیایی که به آن تعلق دارند را بررسی کنیم. در بخش 6 ، ما برای مقاله نتیجه گیری می کنیم.
2. موضوعات مرتبط
2.1. شبکه اجتماعی
از دهه 1990، شبکه های اجتماعی نه تنها در علوم اجتماعی، بلکه در علوم کامپیوتر و فیزیک نیز به یک موضوع تحقیقاتی محبوب تبدیل شده اند. شبکه های اجتماعی روابط بین موجودات اجتماعی و همچنین ساختارهای اجتماعی درونی را آشکار می کنند [ 6 ]. یک شبکه اجتماعی سنتی یک ساختار انتزاعی است که شامل روابط مختلف بین افراد، مانند دوستی، علایق مشترک و دانش مشترک است [ 7 ].
شبکه اجتماعی مبتنی بر مکان ( شکل 3 ) گونهای از شبکههای اجتماعی است که میتواند با علامتگذاری اطلاعات مکانی در شبکه، ارتباط بین شبکههای اجتماعی انتزاعی و محیط دنیای واقعی ایجاد کند. همانند شبکه Foursquare، کاربران می توانند در مورد رویدادها در مکان دقیقی که در آن رخ داده اند اظهار نظر کنند [ 8 ]. به عنوان مثال، در شبکه Twine، مسیرهای سفر با مسیرهای GPS ثبت می شود و تجربیات سفر در یک جامعه به اشتراک گذاشته می شود [ 9 ].
تجزیه و تحلیل شبکه های اجتماعی افراد یک شبکه مانند یک فرد، یک گروه یا یک سازمان را به عنوان گره ها با وابستگی ها و روابط مشارکتی خاصی در بین آنها در نظر می گیرد که می تواند با اتصالات بین نقاط نشان داده شود و شبکه از گره ها و آنها تشکیل شده است. روابط متقابل [ 10 ]. این روش رابطه ساختاری بین گرهها را به عنوان اصل راهنما در نظر میگیرد و در نظر میگیرد که هر اقدامی که یک فرد در شبکه انجام میدهد از موقعیت فرد در سیستم ساختار روابط اجتماعی ناشی میشود تا انگیزه فرد [ 11 ، 12 ، 13 ]، به عنوان مثال، موقعیت شبکه ای فرد، کنشگر را مجبور به انجام یک اقدام معین می کند [ 2]. تجزیه و تحلیل شبکه اجتماعی می تواند رابطه بین اعضای شبکه و ساختار شبکه را تجسم کند و اغلب برای کشف گره های کلیدی در رابطه شبکه استفاده می شود [ 14 ].
2.2. سیستم اطلاعات جغرافیایی (GIS)
GIS یک سیستم کامپیوتری است که جمعآوری، ذخیره، مدیریت، بازیابی، تجزیه و تحلیل و توصیف توزیع مکان اشیاء فضایی و دادههای مربوط به ویژگیهای آنها [ 15 ] است. کلمه “جغرافیایی” در GIS به معنای محدود به جغرافیا اشاره نمی کند، بلکه به داده های مکانی، داده های ویژگی و داده های مرتبط به دست آمده بر اساس سیستم مرجع مختصات جغرافیایی به معنای گسترده اشاره دارد.
دادههای مکانی معمولاً از سه نوع اطلاعات تشکیل شدهاند: مکان، روابط مکانی و ویژگیهای غیرمکانی [ 16 ].]. مکان، یعنی مختصات هندسی، برای تعیین موقعیت مکانی اجسام فضایی در سیستم مختصات جغرافیایی استفاده می شود. روابط فضایی پیوندهای فضایی بین اشیاء فضایی را توصیف می کند، که عمدتاً روابط متریک را پوشش می دهد، مانند فاصله بین اشیاء فضایی، روابط گسترش یا روابط جهت گیری، که جهت گیری بین اشیاء فضایی را نشان می دهد. روابط توپولوژیکی نشان دهنده رابطه بین اشیاء فضایی، مانند اتصال یا مجاورت است. ویژگیهای غیرمکانی ویژگیهایی هستند که به موقعیت هندسی مربوط نمیشوند. ایجاد و داده کاوی یک پایگاه داده مکانی یک جهت تحقیقاتی مهم در GIS است و شکل 4 ایده کاوش اطلاعات جغرافیایی برای سازمان های اجتماعی را در این مقاله به ما نشان می دهد [ 17 ].].
2.3. پردازش زبان طبیعی
زبانی که مردم برای برقراری ارتباط در زندگی روزمره از آن استفاده میکنند، زبان طبیعی است، و همچنین محتوای متنی در مجموعه دادهای که میسازیم. متن نسبتاً استاندارد است و اطلاعات دستوری و نحوی و ساختاری نسبتاً کاملی دارد. هدف پردازش زبان طبیعی (NLP) پر کردن شکاف بین زبان طبیعی و زبان ماشین [ 18 ]، با استفاده از قدرت محاسبه برای تجزیه و تحلیل ساختار و نحو زبان طبیعی و استخراج اطلاعات از محتوای متن است [ 19 ]. مقوله های اصلی درگیر در پردازش زبان طبیعی عبارتند از تقسیم کلمه، حاشیه نویسی واژگانی، تجزیه و تحلیل نحوی، تشخیص احساسات، ترجمه خودکار، خلاصه سازی متن [ 20 ]، نمودار دانش [ 21 ].] و غیره.
متن انگلیسی یک مزیت طبیعی دارد زیرا هر کلمه با یک فاصله از یکدیگر جدا می شود، در حالی که برای متن چینی، تقسیم بندی بین کلمات وجود ندارد. علاوه بر این، متن چینی باید تقسیم شود تا یک ترتیب کلمات جداگانه تشکیل شود [ 22 ]. ظهور ابزارهای تقسیم کلمه، آستانه تقسیم کلمات با کیفیت بالا را کاهش داده است. Jieba یک ابزار تقسیم کلمات با استفاده آسان برای متن چینی است [ 23 ].
ویژگیهای واژگانی به ویژگیهای اساسی کلمات اشاره دارد و حاشیهنویسی واژگانی فرآیند علامتگذاری کلمات با نام، حروف، صفت، قید یا سایر ویژگیهای واژگانی است. حاشیه نویسی واژگانی با یادگیری ماشین عمدتاً با استفاده از برخی مقادیر ویژگی استخراج شده از داده ها توسط شبکه های عصبی انجام می شود. در سال های اخیر، مدل های یادگیری عمیق مانند شبکه های عصبی کانولوشن و LSTM (شبکه حافظه کوتاه مدت بلندمدت) نیز برای حاشیه نویسی واژگانی استفاده شده است. ما مدل BERT را انتخاب می کنیم که در بالای ترانسفورماتور ساخته شده است و دارای نمایش قدرتمند زبان و قابلیت استخراج ویژگی است. برای یک پیکره متن معین، نمایش ورودی از یک بردار کلمه، یک بردار جاسازی قطعهبندی شده و یک جمع بردار جاسازی موقعیتی تشکیل شده است. که سپس از یک رمزگذار ترانسفورماتور دو طرفه عبور داده می شود تا خروجی بردار کلمه متنی مربوطه به دست آید. مدلهای توسعهیافته آن عمدتاً مبتنی بر معماری مدل آن برای طراحی وظایف یادگیری زبان جدید است، و سپس بر روی مجموعه متنی در مقیاس بزرگ دامنه خاص برای به دست آوردن مدلهای جدید آموزش داده شده است.
2.4. یادگیری ماشین گراف
از آنجایی که تحقیقات اخیر بر روی داده های ساختاریافته گراف متمرکز شده است، انواع الگوریتم های یادگیری ماشین برای یادگیری بازنمایی در نمودارها پیشنهاد شده است، که بر اساس اینکه آیا داده های برچسب گذاری شده در دسترس هستند، به طور کلی می توان آنها را به سه دسته اصلی تقسیم کرد [ 24 ]: شبکه. جاسازی (مانند رمزگذار خودکار گراف)، شبکه های عصبی منظم گراف، و شبکه های عصبی گراف ( شکل 5 ).
با شروع مستقیم از ساختار نمودارها، یک شبکه عصبی گراف (GNN) [ 25 ] مدل های انباشته و ترکیبی را با هدف یادگیری توابع قابل تمایز بر روی توپولوژی های گسسته با ساختار دلخواه پیشنهاد می کند [ 26 ].
بیشتر مدلهای اولیه شبکه عصبی نمودار [ 27 ] از ساختارهای عصبی مکرر برای انتشار اطلاعات در مورد همسایگان و انتخاب نسلها استفاده میکنند تا زمانی که به یک نقطه ثابت ثابت برای یادگیری نمایش گره هدف برسند. فرمول کلاسیک شبکه های عصبی گراف به شرح زیر است:
جایی که حالت گره u را در بازگشت t ام نشان می دهد. نشان دهنده تابع بازگشتی است. مجموعه ای از گره های مجاور گره u را در نمودار نشان می دهد. x نشان دهنده ویژگی است. حالت اولیه از یک مقدار تصادفی است و از ویژگی ها تشکیل شده است از خود گره u و ویژگی های لبه گره های همسایه v . ویژگی است از گره همسایه v ، و ، در زمان انتخاب نسل این مزیت را دارد که فرمول را میتوان به تمام گرههای گراف تعمیم داد، بدون محدودیتهای ناسازگاری در تعداد و ترتیب گرههای همسایه، و همچنین به شبکه عصبی گراف توانایی پردازش نمودارهای تکراری را میدهد. با این حال، این مطالعات از نظر محاسباتی گران هستند، و عدم تحرک مانع از تنوع توزیع گره ها می شود، که برای یادگیری کامل نمایش گره ها مساعد نیست.
2.4.1. گراف شبکه عصبی کانولوشنال
بعدها، بر اساس تجزیه و تحلیل طیفی محققانی که عملیات انحراف را بر روی نمودار [ 28 ] تعریف کردند، شبکه پیچیدگی گراف (GCN، شبکه پیچش گراف) به وجود آمد.
یک شبکه عصبی کانولوشن گراف (GCN) یک الگوریتم ترکیبی است که دادههای ساختار گراف را برای شبکههای عصبی کانولوشن سنتی اعمال میکند ( شکل 6 )، و به عنوان یک ابزار قدرتمند برای استخراج ویژگیها، میتواند به خوبی از نمودارهای همسایگی ساخته شده در یک KNN ساده استفاده کند. که نمایش ویژگی های آموخته شده شامل دو نوع مختلف اطلاعات است: اطلاعات ویژگی گره های نمونه و همسایگی های مرتبط با آنها.
یک شبکه عصبی عمیق نمودار مشترک شامل یک آبشار از لایههای پیچیدگی گراف چندگانه است که هر یک میتوانند به صورت نمایش داده شوند.
نشان دهنده ویژگی لایه ام، نشان دهنده ویژگی لایه k ام است. ماتریس نمودار مجاورت نرمال شده است، پارامترهای لایه k ام شبکه عصبی گراف را نشان می دهد و عملکرد فعال سازی را نشان می دهد. با فرض اینکه تابع فعال سازی در نظر گرفته نشده و ماتریس وزن نادیده گرفته شود، می توانیم به دست آوریم . این بدان معناست که H فقط به درجه گره ها بستگی دارد، که نشان می دهد با افزایش تعداد لایه ها، مدل اطلاعات متمایز ارائه شده توسط ویژگی های گره را از دست می دهد و بنابراین ویژگی ها بیش از حد هموار می شوند. بنابراین، هنگامی که تعداد لایههای شبکه عمیقتر میشود، ویژگیهای نهایی که توسط شبکه عصبی گراف یاد میشود، منحصربهفرد بودن نقاط نمونه را از دست میدهد که بر عملکرد خوشهبندی تأثیر میگذارد.
2.4.2. گراف شبکه عصبی توجه
یک شبکه توجه گراف (GAT) یک معماری شبکه عصبی گراف است که توسط Petar Veličković و همکارانش پیشنهاد شده است. [ 29 ]، که شبکه عصبی گراف کلاسیک را با ترکیب پیچیدگی نمودار و مکانیسم توجه بهبود می بخشد. ساختار اصلی GAT در شکل 7 نشان داده شده است . GAT امتیاز توجه را در نمودار ورودی محاسبه می کند، که نشان دهنده اهمیت نگاشت ورودی به حالت خروجی است. توجه به خود برای تعیین امتیاز توجه نمودار ورودی پیش پردازش شده توسط GCN معرفی شده است. هنگامی که هر گره خروجی لایه پنهان را به روز می کند، توجه به گره های مجاور آن محاسبه می شود. هر گره و گره های همسایه اش توجه را به صورت موازی محاسبه می کنند و می توانند وزن های دلخواه را به گره های همسایه اختصاص دهند.
شبکه های توجه گراف طیف وسیعی از کاربردها در علوم اجتماعی دارند. ویپینگ سونگ و همکاران [ 30 ] تعاملات اجتماعی بین عابران پیاده را با شبکه های توجه گراف مدل کرد تا مسیر حرکت آنها را پیش بینی کند. V. Kosaraju و همکاران. [ 31 ] شبکه های عصبی توجه گراف پویا را برای ساخت سیستم های توصیه جامعه آنلاین بر اساس رفتار کاربر پویا و تأثیرات اجتماعی مرتبط با محیط ساخت. جی پیائو و همکاران [ 32 ] روابط اجتماعی-اقتصادی بین مشتریان را با در نظر گرفتن جمعیت شناسی، رفتارهای گذشته و ساختار شبکه اجتماعی آنها پیش بینی کرد.
با توجه به تحقیقات قبلی در مورد شبکه های توجه گراف در علوم اجتماعی، این مقاله از شبکه های توجه گراف به عنوان لایه استخراج ویژگی ساختار شبکه سازمان اجتماعی برای یادگیری ویژگی های نمودار شبکه سازمان اجتماعی استفاده می کند.
3. پایگاه داده های جدید سازمان های اجتماعی در چین
در چین، دسترسی عمومی به اطلاعات مربوط به سازمانهای اجتماعی را میتوان از طریق پلتفرم عمومی اطلاعات اعتباری سازمان ملی اجتماعی (از این پس پلتفرم؛ https://xxgs.chinanpo.mca.gov.cn/gsxt/newList ) به صورت آنلاین مرور کرد. 17 مه 2022)، تحت نظارت وزارت امور عمرانی. پلتفرم تمام ورودی های اطلاعات اولیه هر سازمان را ذخیره می کند، شکل 8 یک مثال است.
با این حال، کاربران فقط می توانند با وارد کردن کلمات کلیدی یا کد اعتبار اجتماعی دقیق، اطلاعات مربوط به یک سازمان خاص را جستجو کنند و در هر زمان فقط می توانند یک سازمان را جستجو کنند، که به شدت میزان داده هایی را که محققان می توانند برای اهداف تحقیقاتی به آنها دسترسی داشته باشند محدود می کند. علاوه بر این، کاربران باید قبل از هر جستجو، عملیات تأیید انسان و ماشین را انجام دهند. در چین، جایی که سالانه دهها هزار سازمان اجتماعی تأسیس میشوند و پلتفرم تمام اطلاعات اولیه آنها را ذخیره میکند، اگر بخواهیم به صورت دستی تمام سازمانهای اجتماعی را به دست آوریم، میلیونها جستجو و بارگیری مورد نیاز است، که تخلیه عظیمی است. از نظر نیروی انسانی، پول و زمان، بنابراین نقش تجزیه و تحلیل کلان دادههای سازمانهای اجتماعی در چین را محدود یا حتی از آن جلوگیری میکند. از این رو،
3.1. طراحی و پیاده سازی خزنده های وب
در این مقاله یک خزنده وب با برنامه پردازش داده با استفاده از پایتون نوشته ایم. خزنده وب از طریق پروتکل انتقال ابرمتن (HTTP) به صفحات وب دسترسی پیدا می کند. خزنده وب به طور کلی مجموعه شروع URL های اولیه را در ابتدا تنظیم می کند و پس از برقراری ارتباط موفقیت آمیز با سرور URL seed، محتویات صفحات وب مربوطه را تجزیه می کند تا تمام URL هایی را که می توان از آنها پیوند داد [ 33 ] . سپس صفحه وب را جستجو می کند و داده های مورد نظر را دانلود می کند، همانطور که در شکل 8 نشان داده شده است، ممکن است در زبان نشانه گذاری فرامتن (HTML) کدگذاری شود یا از طریق پیوند به کدهای JS به دست آید. تعداد صفحات بازدید شده و جستجو شده بستگی به پارامترهای تنظیم شده در برنامه قبل از راه اندازی دارد. سپس URL های جدید به صف اضافه می شوند تا زمانی که شرایط پایان برآورده شود، خزیده شوند و سپس نتایج تجزیه شده ذخیره می شوند. خزنده ای که ما طراحی کردیم کاملاً با پروتکل ربات های تجویز شده مطابقت دارد و اطلاعات درخواست را برای درخواست های قانونی تنظیم می کند. مرحله آخر تبدیل داده ها و ادغام آنها به ساختاری مناسب برای تجزیه و تحلیل است و داده های به دست آمده در قالب Datafram به عنوان فایل CSV در ابر برای تماس های بعدی ذخیره می شوند.
همانطور که در جدول 1 مشاهده می شود ، هر صفحه وب حاوی جزئیات یک سازمان اجتماعی خاص است. پس از استفاده از عبارات منظم برای به دست آوردن اطلاعات بدنه، می توانیم به راحتی اطلاعات متن را بدست آوریم. با این حال، مشکلات در طراحی و نوشتن برنامه خزنده وب در نحوه شکستن رمزگذاری URL های وب ( شکل 9 )، نادیده گرفتن فرآیند تأیید و جستجوی انسان و ماشین، و به دست آوردن مستقیم آدرس وب هر نقطه سازمان اجتماعی است. -به نقطه
از طریق جمع آوری و تلفیق اجزای اساسی سازمان های اجتماعی که در جدول 1 نشان داده شده است ، پاکسازی داده ها برای ایجاد پایگاه داده سازمان اجتماعی انجام شد. از ژانویه 2022، ما در مجموع به 1.09 میلیون سازمان اجتماعی و اطلاعات مرتبط با آنها دسترسی داشته ایم. ما اعلام میکنیم که دادههای بهدستآمده در این مطالعه عمومی و فقط برای استفاده تحقیقاتی و بدون هیچ گونه رفتار تجاری و مخرب هستند. علاوه بر این، به دلایل قانونی، جزئیات فنی دقیق نحوه شکستن رمزگذاری را در وب سایت منتشر نمی کنیم.
3.2. پاکسازی داده ها و یکپارچه سازی اطلاعات جغرافیایی
کیفیت داده ها نقش کلیدی در نتایج داده کاوی دارد. پاکسازی داده ها معمولاً شامل برخورد با مقادیر از دست رفته و مقادیر اضافی و همچنین نویز می شود. متن جمعآوریشده توسط خزندههای وب عمدتاً دادههای بدون ساختار و حاوی نویز داده است. با مشاهده، متوجه شدیم که درصد مشخصی از نویز در داده های به دست آمده وجود دارد که هیچ کمکی به درک معنایی متن نمی کند. ما استنباط می کنیم که از آنجایی که پلتفرم وزارت امور عمرانی تنها به عنوان ابزاری برای یکپارچه سازی و انتشار اطلاعات عمل می کند و داده های دقیق توسط ادارات امور مدنی محلی تکمیل و بارگذاری می شود، ممکن است مشکلات و خطاهایی در طول فرآیند بارگذاری ایجاد شود، مانند نمادها یا برچسبهای بیمعنی، کدهای JS، نویسههای چینی سنتی یا رها شده، شکستگیهای خط، قالبهای زمانی مختلف و غیره،
پس از نرمال سازی داده های زمانی، مطالعه بعد زمانی می تواند انجام شود. برای مثال در شکل 10 از داده های زمان ثبت نام سازمان ها استفاده شده است. از بین سازمانهای اجتماعی تأسیسشده، 50774 تشکلهای اجتماعی کمتر از یک سال وجود داشتهاند، 152661 سازمان از یک تا سه سال فعالیت میکنند، 155881 سازمان بین سه تا پنج سال فعالیت میکنند، بیشترین نسبت سازمانهای اجتماعی بین پنج تا ده سال فعالیت میکنند. سال، و حتی بیش از 240000 بیش از 10 سال است که در حال اجرا هستند.
در این میان اطلاعات جغرافیایی سازمان های اجتماعی را می توان با دو روش مختلف به دست آورد. اولین مورد استفاده از اطلاعات آدرس ثبت شده موجود در پایگاه داده، با فراخوانی API برای جستجو و بدست آوردن مختصات طول و عرض جغرافیایی دقیق آن است که با این حال، نسبتا وقت گیر است و نمی توان آن را در مقیاس بزرگ اعمال کرد. روش دیگری وجود دارد که به نظر ما روش کارآمدتری برای طبقه بندی مکان ها به طور مستقیم بر اساس قوانین کدگذاری کد اعتبار اجتماعی یکپارچه است. همانطور که در جدول 2 نشان داده شده است، کد اعتبار اجتماعی یکپارچه، یک شماره ثبت ملی منحصر به فرد و 18 رقمی، از یک الگوی استاندارد پیروی می کند، به این معنی که می توانیم مستقیماً از کد منطقه 6 رقمی تعبیه شده در کد اعتبار اجتماعی یکپارچه برای مکان یابی سازمان های اجتماعی به میزان دقیق استفاده کنیم. تقسیم اداری شهرستانی که در آن واقع شده اند.
پس از به دست آوردن اطلاعات اولیه جغرافیایی سازمان های اجتماعی، می توان سازمان های اجتماعی را در بعد فضایی بررسی و مطالعه کرد. نقشه شکل 11 که در اینجا نشان داده شده است، نشان می دهد که چگونه تعداد سازمان های اجتماعی تازه تاسیس در استان ها متفاوت است. سایه استان با بزرگی نشانگر مطابقت دارد. هر چه سایه تیره تر باشد، مقدار آن بیشتر است.
3.3. تجزیه و تحلیل داده های متنی
از آنجایی که بیشتر اطلاعات موجود در پایگاه داده متن چینی است، نحوه به دست آوردن و تجزیه و تحلیل ویژگی ها و اطلاعات معنایی متن چینی برای مطالعه ما اهمیت زیادی دارد که جهت تحقیق را تعیین می کند. ما ابتدا یک فرآیند جداسازی کلمات اساسی را بر روی نام سازمان های اجتماعی و معرفی کسب و کار آنها در پایگاه داده انجام دادیم.
جدول 3 به وضوح فراوانی وقوع واژه های با بسامد بالا از فرهنگ لغات مختلف را به ما نشان می دهد، و ما را قادر می سازد تا حس شهودی تری از توسعه سازمان های اجتماعی در چین داشته باشیم. خط اول هر خانه ترجمه چینی کلمه است، خط دوم داخل پرانتز متن اصلی چینی است و خط سوم به صورت مورب تعداد دفعاتی است که کلمه ظاهر می شود. سایه سلول مطابق با بزرگی نشانگر است. هر چه سایه تیره تر باشد، مقدار آن بیشتر است. در دسته بندی های ذکر شده، به حروف اشاره دارد ، n به اسم، s به حرف اضافه اشاره دارد، اشاره به اصطلاح اسم، و به صفت اشاره دارد.
جدول 3نشان می دهد که اسامی در نتایج همه پسوند کلمات خاصی هستند. کلمات “مهدکودک” و “مدرسه” که بعد از “انجمن” ظاهر می شوند، بازتابی از رونق فعلی در بازار آموزش چین است. این با این واقعیت مطابقت دارد که آموزش خصوصی در چین به عنوان شکل اساسی نیروهای اجتماعی به سرعت توسعه یافته و تجربه مؤثری در انتشار دانش جمع آوری کرده است. توجه داشته باشید که اصطلاح «کاهش فقر» در وهله اول است، که استنباط می کند که دولت چین بر بهبود شرایط زندگی خانوارهای فقیر و کمک به مناطق فقیر برای توسعه تولید و تغییر چهره فقر تمرکز دارد، در حالی که سازمان های اجتماعی به عنوان سومین نیروی حزبی، مکمل اثر هم افزایی حاکمیت چند موضوعی است. به همین ترتیب متوجه میشویم که کلمه مستمری در رتبه دوم و خانه سالمندان در رتبه ششم قرار دارد.
4. مدل نمودار در شبکه های اجتماعی سازمانی
4.1. مروری بر ساختار نمودار
داده ها در اشکال و اندازه های مختلف وجود دارند، اما بیشتر آنها را می توان به دو نوع ارائه کرد: داده های ساختاریافته و داده های بدون ساختار ( شکل 12 ).
داده های ساختاریافته، به عنوان مثال، دما، نام ها، تاریخ ها، اطلاعات موجودی، مکان، و تصاویر، شامل انواع داده های مشخص شده با الگوهایی در قالب استاندارد شده است که آنها را قادر می سازد تا اطلاعات قابل جستجو را به طور موثر سازماندهی کنند. الگوریتم های مدرن یادگیری ماشین عملکرد شگفت انگیزی در پردازش داده های ساخت یافته به دست آورده اند (مانند AlphaGo [ 34 ]، ResNet [ 35 ] و غیره).
نمودار، یک داده بدون ساختار معمولی، در مقایسه با داده های ساختاریافته انعطاف پذیرتر و متغیرتر است، که در عین حال، انجام وظایف یادگیری ماشین بر روی داده های ساختار یافته نمودار را نسبتا دشوارتر می کند. با این حال، به دلیل کاربرد گسترده مدلهای گراف در جامعه بشری، مطالعه نمودار و الگوریتمهای یادگیری ماشین مربوطه از اهمیت بالایی برخوردار است. یکی از واضحترین کاربردهای دادههای ساختاریافته نمودار، مدلهای انتقال ویروس است که برای توصیف الگوی انتقال ویروسها در کشورهای ساخته شده در طول همهگیری COVID-19 [ 36 ] استفاده میشود، که نقش بزرگی در کنترل گسترش اپیدمیها داشت.
یک نمودار ، متشکل از دو مجموعه، گره V (که راس نیز نامیده می شود) و یال E (که کمان نیز نامیده می شود)، قادر است موجودیت ها و روابط آنها را در داده های ساختار یافته نمودار نشان دهد. یک لبه نشان دهنده یک لبه است که از به ، و گره های مجاور گره v به صورت تعریف می شوند . ماتریس مجاورت A یک ماتریس اندازه است ; n تعداد گره ها را در نمودار نشان می دهد. اگر گره های اتصال لبه وجود داشته باشد و ، سپس ، در غیر این صورت . یک گره در یک نمودار دارای ویژگی ها یا ویژگی هایی است که ماتریس ویژگی گره است یا ماتریس ویژگی گره نامیده می شود که در آن بردار ویژگی گره v را نشان می دهد . یک نمودار همچنین ممکن است دارای ویژگی های لبه باشد ، ماتریس ویژگی یال ها است که در آن بردار صفت لبه را نشان می دهد و c نشان دهنده بعد صفت است. صفات و ویژگی ها معانی یکسانی را نشان می دهند.
4.2. شبکه های همگن سازمان ها
شبکه های همگن که از یک معماری شبکه استفاده می کنند، دارای انواع گره و پیوند یکسان هستند. شبکه های همگن ساختارهای شبکه ای هستند که از همان نوع گره ها و انواع پیوندها تشکیل شده اند.
همانطور که در جدول 4 نشان داده شده است ، ما دو نوع شبکه همگن را معرفی می کنیم: شبکه های رقابت و همکاری، و شبکه های زنجیره تامین. هر یک از این انواع به طور بالقوه در مدل سازی سازمان های اجتماعی و روابط آنها مفید است.
4.3. شبکه های ناهمگن سازمان ها
شبکه های ناهمگن مجموعه متفاوتی از انواع گره و پیوند دارند. مزایای شبکه های ناهمگن توانایی نمایش و رمزگذاری اطلاعات و روابط از دیدگاه های مختلف است. در طول فرآیند توسعه سازمان های اجتماعی، انواع مختلفی از نهادهای اجتماعی، به عنوان مثال، دولت، سیاست گذاران، سیاست ها، خدمات، اعضای جامعه و البته سازمان های اجتماعی درگیر هستند. جدول 5 زیر دو نوع شبکه ناهمگن را برای مدل سازی روابط بین سازمان های اجتماعی و سایر نهادهای اجتماعی ارائه می دهد: شبکه های خط مشی و شبکه های خدماتی.
4.4. تعبیه شبکه نسبت داده شده با اطلاعات متنی
علاوه بر ویژگیهای ساختاری شبکه سازمانهای اجتماعی، محتوای متنی موجود در پایگاه داده مانند نام، دامنه کسبوکار، سرمایه ثبتشده و غیره نیاز به پردازش دارد تا اطلاعات اولیه سازمان اجتماعی را به دست آوریم. ورودی به مدل یادگیری ماشین ( شکل 13 ).
در این مقاله، طول محتوای متن به L محدود شده است . اگر طول محتوای متن از L بیشتر شود، قسمت اضافی کوتاه میشود، در حالی که اگر طول محتوای متن کمتر از L باشد ، از مکاننماها برای پر کردن متن استفاده میشود تا طول آن L شود. بردار کلمه j امین کلمه در متن را نشان می دهد ، بنابراین بردار متن را می توان به صورت بیان کرد جایی که ، بردار کلمه دوم در متن را نشان می دهد ، بردار کلمه دوم در متن را نشان می دهد ، و بردار کلمه L امین کلمه را در متن نشان می دهد ( شکل 14 ).
4.4.1. مکانیسم خودتوجهی چند سر
در مرحله بعد، یک مکانیسم خودتوجهی چند سر را برای به روز رسانی بردارهای کلمه در محتوای متنی هر سازمان اجتماعی در پایگاه داده اتخاذ می کنیم. مکانیسم خودتوجهی چند سر می تواند ارتباطات بین بردارهای کلمه را از منظرهای مختلف بررسی کند، بنابراین بیان بردارهای کلمه را بهبود می بخشد. h تعداد سرهای مکانیسم خودتوجهی را نشان می دهد. مکانیزم خودآگاهی با سرهای h را در نظر بگیرید. j عدد ترتیبی هد را نشان می دهد و سه ماتریس ورودی مکانیسم خودتوجهی برای سر j به عنوان ماتریس پرس و جو نشان داده می شود. ، ماتریس و ماتریس مقدار . گرفتن بردار تعبیه شده متن ،
به عنوان مثال: برای سادگی، از X برای نشان دادن استفاده می کنیم ، سپس داریم ، و ، جایی که ، نشان دهنده ماتریس پارامتر مربوط به ماتریس کلیدی سر j در مکانیسم خود توجه است، ماتریس پارامتر مربوط به ماتریس پرس و جوی j امین سر در مکانیزم خود توجه را نشان می دهد و نشان دهنده ماتریس پارامتر مربوط به ماتریس مقدار سر j در مکانیسم توجه است. خروجی سر j مکانیسم خودتوجهی به صورت نمایش داده می شود
جایی که . در این مقاله، خروجی مکانیسم h -headed self-attentive به صورت بیان شده است ، خروجی مکانیزم خود توجهی برای سر 1 است، خروجی مکانیزم خود توجهی سر 2 است و خروجی مکانیزم خودآگاهی سر h است، پس داریم
جایی که ، ، و نشاندهنده ماتریس پارامتر مکانیسم h -head خود توجه است.
4.4.2. شبکه های عصبی کانولوشن و عملیات ادغام
سپس، از CNN و عملیات ادغام برای به دست آوردن اطلاعات معنایی از محتوای متن در پایگاه داده استفاده می کنیم. برای انجام عملیات کانولوشن از هسته های کانولوشن استفاده می کنیم بر روی وکتور متن ، جایی که بردار e امین کلمه را به the نشان می دهد وکتور امین کلمه در محتوای متن ; و k نشان دهنده اندازه میدان ادراکی هسته است. برای همه بردارهای کلمه در ، عملیات پیچیدگی را می توان به صورت بیان کرد
جایی که ویژگی به دست آمده است، و * عملیات پیچیدگی را نشان می دهد، اصطلاح تعصب است، تابع فعال سازی است، مانند و e نشان دهنده عدد ترتیبی، یعنی بردار e امین کلمه در پیام است . در نهایت، با انحراف تمام پنجره های ممکن در بردار متن X با استفاده از هسته کانولوشن W ، نقشه ویژگی متن به عنوان به دست می آید و ، جایی که ویژگی های خروجی اولین پنجره کشویی در CNN را نشان می دهد، ویژگی های خروجی پنجره کشویی دوم را نشان می دهد و ویژگی های خروجی را نشان می دهد پنجره کشویی، پس از آن، نقشه ویژگی t با استفاده از حداکثر ادغام با اندازه مرحله پردازش می شود ، . در این مقاله، اندازههای میدان حسی را اعمال میکنیم . پس از حداکثر عملیات ادغام، سه بردار طول مشخص می شود به دست می آید، و سپس برای به دست آوردن متن به هم متصل می شوند و ویژگی محتوای متن نهایی ، که در نهایت با ویژگی ساختار گراف شبکه های سازمان های اجتماعی تلفیق می شود.
5. تحلیل اکتشافی شبکه جغرافیایی اجتماعی سازمانی با یادگیری ماشین گراف
5.1. محیط استقرار آزمایشی
در این مقاله، ما یکپارچه سازی داده های شبکه اجتماعی سازمانی، تجزیه و تحلیل و ساخت مدل یادگیری ماشین را بر اساس نسخه 3.8 پایتون تکمیل کردیم. نمایش ویژگی متن برای تعبیه شبکه با BERT. مدل یادگیری ماشین (RF، KNN، LR) ساخت و ارزیابی عملکرد مدل با Sklearn. ما از DGL [ 44 ] برای پارتیشن بندی مجموعه داده های شبکه، ساخت گراف، و ساخت مدل شبکه عصبی گراف (GAT، GCN، MPNN) و PyTorch برای آموزش و پیش بینی مدل یادگیری عمیق استفاده کردیم.
آزمایشها بر روی پلتفرم Google Colab با پردازنده گرافیکی Tesla P100 انجام شد. مدل BERT از پیش آموزش دیده دارای ابعاد 200 است و با نرخ یادگیری 2 × 10-5 به خوبی تنظیم شده است .
5.2. ساخت مجموعه داده برای کار طبقه بندی
تقسیمات اداری چین را می توان به طور تقریبی به سه سطح تقسیم کرد: سطح استانی، شهری و شهرستانی. با پایگاه داده خود، میتوانیم سازمانهای اجتماعی را مشخص کنیم و یک OGN در سطح شهرستان بسازیم. چین بهعنوان کشوری با قلمرو وسیع، هزاران بخش اداری شهرستانی دارد که پایگاه دادهای از هزاران داده ساختاریافته را تشکیل میدهد و به ما دادههای کافی برای آموزش و آزمایش مدلهای یادگیری ماشینی را تضمین میکند. شبکه سازمان های اجتماعی در جنوب جیانگسو در شکل 15 زیر، نوک کوه یخ پایگاه داده را به وضوح به ما نشان می دهد.
در این مقاله، ما سه منطقه نماینده در چین را انتخاب کردیم ( جدول 6): منطقه پکن-تیانجین-هبی، معروف به “حلقه اقتصادی پایتخت” چین، دلتای رودخانه یانگ تسه که در سال های اخیر توسعه اقتصادی سریعی را تجربه کرده است، و منطقه دلتای رودخانه مروارید، که اولین منطقه ای بود که اصلاحات را اجرا کرد. و باز شدن در چین. با توجه به اینکه سه منطقه ذکر شده در بالا به عنوان برچسبهای OGN در سطح شهرستان به آنها تعلق دارد، مدلهای یادگیری ماشین برای کار پیشبینی منطقه جغرافیایی-وابستگی در این شبکهها آموزش داده شدند. مناطق مختلف تحت تأثیر عوامل مختلفی مانند ویژگی های اقتصادی، اجتماعی، فرهنگی و جغرافیایی الگوهای توسعه متفاوتی دارند که توسعه سازمان های اجتماعی در آنها تعبیه شده است. اگر یادگیری ماشین گراف بتواند به طور موثر آنها را طبقه بندی کند،
5.3. نمودار ساخت مدل شبکه توجه
در این مقاله، ما از شبکه توجه گراف (GAT) برای ساخت یک لایه شبکه عصبی برای یادگیری بازنمایی بردار تعبیه شده ساختار OGN، با حداکثر تابع READOUT مبتنی بر تجمع برای تجمیع ویژگیهای گره شبکه استفاده میکنیم، سپس ورودی را وارد میکنیم. به نوبه خود به لایه شبکه عصبی خطی و تابع فعالسازی سیگموئید برای به دست آوردن احتمال طبقهبندی منجر میشود تا یک مدل پیشبینی طبقهبندی اقتصادی سازمان اجتماعی-منطقهای بر اساس GAT ایجاد شود.
در مورد فرآیند آموزش و پیشبینی، آنتروپی متقاطع باینری را به عنوان تابع ضرر، Adam را بهعنوان بهینهساز انتخاب کردیم، و پارامترها با Xavier مقداردهی اولیه میشوند: نرخ یادگیری 2 × 10-5 است، ضریب حذف روی 0.2 تنظیم شده است، دستهای. اندازه مورد استفاده برای آموزش 16، حداکثر تعداد تکرار 100، تعداد لایه های شبکه توجه گراف 2، ابعاد لایه پنهان 256 و ضریب ترم معمولی در طول فرآیند آموزش 1 × 10-3 است.
جایی که و نمایش های برداری l و هستند گره های لایه i ، به ترتیب؛ مجموعه گره های همسایه گره های i است. تعداد روابط متقابل توجه بین گره های i و j است. ماتریس پارامتر سطح l است. تابع فعال سازی غیر خطی است.
روش محاسبه از در معادله ( 8 ) نشان داده شده است.
جایی که نمایش برداری لبه گره های متصل i و j است.
پس از تکمیل به روز رسانی ویژگی گره ها توسط لایه استخراج ویژگی GAT، تجمع ویژگی گره و خروجی مدل در معادلات ( 9 ) و ( 10 ) نشان داده شده است.
5.4. معیارهای ارزیابی
در این مقاله از دقت (Acc)، امتیاز F1 و دقت به عنوان شاخص های ارزیابی استفاده شده است و محاسبه شاخص ها در معادلات ( 12 ) و ( 13 ) نشان داده شده است.
به معنای مورد مثبت واقعی است که نشان می دهد کلاس مثبت به درستی به عنوان کلاس مثبت پیش بینی شده است. به معنای مورد منفی واقعی است، به این معنی که کلاس منفی به درستی به عنوان تعداد کلاس های منفی پیش بینی شده است. در حالی که به معنای مورد مثبت کاذب است که نشان می دهد تعداد کلاس های منفی به اشتباه پیش بینی شده است که مثبت باشد. به معنی حالت منفی کاذب است، به این معنی که تعداد طبقات مثبت به اشتباه پیش بینی شده است که مثبت است.
5.5. مقایسه آزمایشها با مدلهای پایه
در کار پیشبینی منطقه جغرافیایی وابستگی، ما مدل پیشبینی مبتنی بر GAT را با سه مدل یادگیری ماشین سنتی (RF، KNN، LR) و دو مدل شبکه عصبی نمودار (GCN، MPNN) بهعنوان مدلهای پایه برای مقایسه ساختیم. امتیاز F1 و نتایج دقت شش مدل در شکل 16 در زیر نشان داده شده است.
5.5.1. مدل پایه یادگیری ماشین
ما الگوریتم جنگل تصادفی (RF)، k-نزدیکترین همسایه (KNN) و رگرسیون لجستیک (LR) را به عنوان مدلهای پایه یادگیری ماشین سنتی انتخاب کردیم. RF یک الگوریتم برای ساخت درخت تصمیم با استفاده از داده های آموزشی و انتخاب تصادفی ویژگی است. RF در مجموعه آموزشی نمونه برداری چندگانه را انجام می دهد و برای هر نتیجه نمونه گیری یک درخت تصمیم می سازد. KNN یک الگوریتم نزدیکترین همسایه برای وظایف طبقهبندی است [ 45 ] با یافتن K نمونههای نزدیکترین همسایه در فضای ویژگیهای نمونههایی که باید طبقهبندی شوند و سپس کلاس نمونهها را با توجه به وابستگی کلاس آنها تعیین میکند.
LR یک مدل تحلیل رگرسیون خطی تعمیم یافته است [ 46 ] که با برازش معادله خطی یک ابر صفحه خطی در فضای ویژگی نمونه می سازد. ، تقسیم منطقه فضای ویژگی به چندین زیر منطقه از دسته ها به طوری که هر دسته از داده ها متعلق به یک منطقه فرعی باشد، بنابراین کار طبقه بندی تکمیل می شود.
برای مدل های پایه یادگیری ماشین، نمایش ویژگی های شبکه ورودی برای آموزش مدل توسط Node2vec [ 47 ] ساخته شده است.
نتایج تجربی در شکل 16 نشان می دهد که مدل های یادگیری ماشین گراف حداقل 8 درصد بهبود عملکرد نسبت به مدل یادگیری ماشین سنتی دارند، عمدتاً به این دلیل که یادگیری ماشین سنتی یادگیری اطلاعات معنایی پیچیده را دشوار می کند، مدل RF در برخی طبقه بندی های ساده به خوبی عمل می کند. وظایف، اما زمانی که صحبت از ساختارهای داده پیچیده به میان می آید، مستعد بیش از حد برازش است. مدل LR تا حدودی مشکل را کاهش می دهد، اما بهبود عملکرد آن قابل توجه نیست زیرا توسط فضای طبقه بندی خطی محدود شده است. مدل KNN به نتایج نسبتاً خوبی دست می یابد، که همچنین اهمیت ساختار شبکه را از طرف دیگر منعکس می کند.
5.5.2. مدل پایه شبکه عصبی نمودار
ما از شبکه کانولوشن گراف (GCN) [ 29 ] و شبکه عصبی عبور دهنده پیام (MPNN) [ 48 ] برای ساخت یک مدل پایه از یک شبکه عصبی گراف برای وظیفه طبقهبندی شبکه اجتماعی سازمانی استفاده میکنیم. در مدل پایه شبکه عصبی نمودار، ساختارهای مدلهای پیشبینی تجمع و طبقهبندی با مدل پیشبینی مبتنی بر GAT مطابقت دارند به جز اینکه GCN و MPNN به ترتیب برای استخراج ویژگی ساختار شبکه استفاده میشوند.
GCN یک شبکه عصبی گراف کلاسیک است که ایده اصلی آن انتقال روش پردازش تصویر مبتنی بر شبکه عصبی کانولوشن (CNN) به دادههای ساختار گراف و یادگیری ارتباط ساختار گراف با تجمیع اطلاعات اطراف گرهها و مکانیسم بهروزرسانی آن است. در معادله ( 15 ) نشان داده شده است.
جایی که است . است که به ترتیب نشان دهنده ماتریس مجاورت نرمال شده و ماتریس درجه هستند.
MPNN یک چارچوب محاسباتی کلی از شبکه عصبی گراف است که از طریق ارسال پیام، بهروزرسانی گره و تجمیع ویژگیها را از نمودارها میآموزد و میتواند مستقل از همشکلی گراف باشد. مکانیسم به روز رسانی در معادله ( 16 ) نشان داده شده است.
جایی که، عملکرد به روز رسانی را نشان می دهد. تابع ارسال پیام را نشان می دهد.
نتیجه نشان داده شده در شکل 17 نشان می دهد که دقت GAT در حدود است در مقایسه با سایر مدل های یادگیری ماشین گراف در مجموعه داده OGN مقایسه شد. یادگیری ماشین گراف کلاسیک به دلیل این واقعیت که GCN و MPNN با محاسبه کامل گراف به روز می شوند و پارامترهای آموخته شده به پیچیدگی ساختار گراف مربوط می شوند، کمتر از GAT موثر است، در حالی که GAT از ضرایب توجه از محاسبه نقطه به نقطه بدون تکیه استفاده می کند. در ماتریس لاپلاس، که تطبیق پذیرتر است و توانایی استفاده بهتر از مکانیسم های توجه برای بهبود عملکرد مدل بر اساس وابستگی های نحوی را دارد، در مقایسه با GCN و MPNN، مدل مبتنی بر GAT از ضرایب توجه تطبیقی برای نمایش وزن یال ها بین گره ها استفاده می کند. ، به طوری که شبکه عصبی می تواند هنگام به روز رسانی گره ها به گره های مجاور با نفوذ بیشتر (یعنی وزن های بزرگتر) توجه کند.
واضح است که هر شش مدل یادگیری ماشین نتایج نسبتاً خوبی برای کار پیشبینی دارند که کمترین آن به دقت میرسد. که نشان می دهد هر دو روش مبتنی بر یادگیری عمیق و یادگیری مبتنی بر ماشین سنتی قادر به یادگیری ارتباط بین شبکه های اجتماعی سازمانی و عوامل جغرافیایی، اقتصادی و فرهنگی هستند. ما امیدواریم که بتوانیم مطالعات بعدی را با یادگیری ماشینی قابل تفسیر انجام دهیم و بنابراین در کشف پیوندهای خاص بین الگوهای توسعه و مناطق جغرافیایی بیشتر پیش برویم.
5.6. آزمایش ابلیشن
در زمینه هوش مصنوعی (AI)، به ویژه یادگیری ماشین (ML)، فرسایش به حذف بخشی از یک سیستم هوش مصنوعی اشاره دارد [ 49 ]. مطالعه فرسایش مستلزم آن است که سیستم تخریب برازنده ای را نشان دهد: حتی اگر یک جزء از بین برود یا ضعیف شود، سیستم به کار خود ادامه می دهد. در آزمایش فرسایش، ما انتخاب کردیم به عنوان شاخصی برای ارزیابی عملکرد مدل.
برای بررسی بیشتر عملکرد مدل، دو مجموعه آزمایش فرسایش بر روی مدل پیشنهادی روی مجموعه داده OGN انجام شد: آزمایش 1 از GloVe [ 50 ] با همان بعد 200 در لایه جاسازی کلمه استفاده کرد. آزمایش 2 به جای آن از مکانیسم توجه چند سر برای آموزش مدل در لایه رمزگذاری استفاده کرد. نتایج آزمایش های فرسایش در شکل 17 نشان داده شده استکه از آن مشاهده می شود که در آزمایش 1، لایه جاسازی از همان ابعاد مدل GloVe برای جاسازی کلمه استفاده کرده است و دقت آن به طور قابل توجهی با مدل از پیش آموزش دیده BERT متفاوت است. در مقایسه با GloVe، BERT دقیق تنظیم شده در گرفتن اطلاعات معنایی متن موثرتر است، یعنی استخراج دقیق اطلاعات معنایی نقش مهمی در بهبود عملکرد مدل ایفا می کند. در آزمایش 2، با پذیرش چند سر، دلیل اینکه اثر پس از مکانیسم توجه بهبود نیافته است این است که وقتی ساختار OGN شامل اهداف چندگانه باشد، مکانیسم توجه ممکن است تعبیه اجتماعی-اقتصادی را روی هدف جنبه اشتباه متمرکز کند. بیشتر نشان دهنده اهمیت اطلاعات ساختار شبکه به عنوان یک کل در کار طبقه بندی است.
6. نتیجه گیری
جامعه سیستم پیچیده ای است که توسعه آن از برخورد و همگرایی موجودات مختلف اجتماعی ناشی می شود. در این مقاله، ما یک پایگاه داده جدید از سازمانهای اجتماعی در چین با اطلاعات مرتبط، با استفاده از پلتفرم دادههای باز ارائهشده توسط وزارت امور مدنی جمهوری خلق چین، که طبق اطلاعات ما، یکی از معدود سازمانهای اجتماعی است، ایجاد میکنیم. پایگاههای دادهای که برای تحقیقات علوم اجتماعی محاسباتی استفاده شدهاند. ما بر این باوریم که ساخت این پایگاه داده می تواند کمک بیشتر و قوی تری به محققان برای کشف توسعه سازمان های اجتماعی چین و تغییرات کلان جامعه چین در آینده ارائه دهد.
با پایگاه داده، ساختار شبکه متشکل از سازمانهای اجتماعی و نهادهای اجتماعی مرتبط را بررسی کردیم. ما چهار نوع شبکه سازمان اجتماعی را بر اساس تئوری گراف پیشنهاد کردیم و سعی کردیم الگوهای توسعه سازمانهای اجتماعی را در مناطق مختلف ساختاری کنیم که با عوامل سیاست محلی، اقتصادی و فرهنگی مشخص میشوند. ما یک شبکه جغرافیایی سازمانی مبتنی بر مدل گراف (OGN) را با کمک فناوری پردازش زبان طبیعی (NLP) ایجاد می کنیم تا اطلاعات متنی را در شبکه جاسازی کنیم، که آن را قادر می سازد ابعاد بیشتری از اطلاعات را ترکیب کند، بنابراین ساختار و ساختار غنی تر را نشان می دهد. ویژگی های معنایی شبکه پیچیده
با استفاده از مدلهای یادگیری ماشین، تحقیقات اکتشافی در مورد رابطه بین الگوهای توسعه شبکههای اجتماعی سازمانی و مناطق جغرافیایی که به آن تعلق دارند، انجام دادیم. مدلهای یادگیری ماشینی ما نتایج نسبتاً خوبی در دادههای آموزشی با میانگین میزان دقت به دست آوردند . با این حال، مهم است که تأکید کنیم که هدف ما صرفاً دنبال کردن دقت یا ایجاد یک وضعیت جدید از هنر (SOTA) نیست، بلکه بررسی همبستگی بین دادههای شبکه ساختار یافته با نمودار و تفاوتهای اجتماعی-اقتصادی موجود در فضای جغرافیایی است. از طریق کار پیش بینی جغرافیایی-منطقه-وابستگی.
در تحقیقات آینده، ما امیدواریم که ساختارهای شبکه گراف بزرگتر و پیچیده تر را از دیدگاه چند بعدی بسازیم [ 51 ، 52 ]، و همچنین امیدواریم که نقش یادگیری ماشینی قابل تفسیر [ 53 ] را برای کاهش ماهیت جعبه سیاه یادگیری عمیق برجسته کنیم. به ما کمک می کند تا درک عمیقی از رابطه علی بین توسعه سازمان اجتماعی و عوامل سیاسی، اقتصادی و فرهنگی مرتبط به دست آوریم.
بدون دیدگاه