تجزیه و تحلیل تکامل تحقیقات در پاسخ به COVID-19

چکیده

به منظور درک چگونگی تکامل این مطالعات برای پاسخ به COVID-19 و تسهیل مهار COVID-19، این مقاله به طور دقیق اطلاعات مکانی و موضوعی را از فراداده مقالات مرتبط با COVID-19 با استفاده از تکنیک های متن کاوی استخراج کرد و با اطلاعات استخراج شده، سیر تحول پژوهش از منظر زمانی، مکانی و موضوعی مورد تجزیه و تحلیل قرار گرفت. از نظر زمانی، در سه ماه پس از ظهور کووید-19، تعداد مقالات منتشر شده روند رشد آشکاری را نشان می‌دهد و روند چرخه‌ای نسبتاً پایداری را در دوره بعدی نشان می‌دهد که اساساً با توسعه COVID-19 سازگار است. -19. از نظر فضایی، بیشتر نویسندگانی که در تحقیقات مرتبط شرکت کردند در ایالات متحده، چین، ایتالیا، بریتانیا، اسپانیا، هند و فرانسه متمرکز هستند. در عین حال، با گسترش مداوم COVID-19 در جهان، توزیع تعداد نویسندگان به تدریج گسترش یافته است و نشان می دهد که با شدت COVID-19 در مقیاس فضایی مرتبط است. از منظر موضوع، مرحله اولیه ظهور COVID-19، تحقیقات مرتبط عمدتاً بر روی منشا و شناسایی ژنی ویروس متمرکز شده است. پس از ظهور همه گیری، مطالعات مربوط به تشخیص و تجزیه و تحلیل سلامت روانی، امنیت شخصی و درگیری خشونت آمیز اضافه می شود. در همین حال، برخی از مقوله‌ها بیشترین ارتباط را با کنترل و پیشگیری از اپیدمی دارند، مانند تجزیه و تحلیل پاتولوژی، تشخیص و درمان. وضعیت اپیدمی و راهبردهای مقابله؛ و پیش بینی و ارزیابی وضعیت اپیدمی. در بیشتر دوره های زمانی، اکثر مطالعات بر روی این سه مقوله متمرکز بوده اند.

کلید واژه ها:

COVID-19 ؛ اوراق ؛ تکامل تحقیق ; همبستگی ; استخراج متن

1. مقدمه

ظهور COVID-19 (بیماری کروناویروس 2019) منجر به شوک قابل توجهی در سراسر جهان شده است و ده ها میلیون نفر از بیماری تنفسی ناشی از SARS-CoV-2 (سندرم حاد تنفسی شدید کروناویروس 2) رنج می برند. 1]. در مواجهه با چنین وضعیت اضطراری، دانشمندان در سراسر جهان تحقیقات گسترده‌ای را انجام داده‌اند و تعداد زیادی مقاله برای کمک به درک COVID-19 و حمایت از پیشگیری و کنترل همه‌گیری منتشر کرده‌اند. این یک سوال را ایجاد می کند که چگونه این مطالعات برای پاسخ به COVID-19 تکامل می یابند؟ این سؤال را می توان با سه سؤال دقیق تر از دیدگاه های مختلف بیشتر مورد بررسی قرار داد: (1) از نظر زمانی، چگونه تعداد مقالات در طول زمان با تکامل همه گیر افزایش یافته است؟ (2) از نظر فضایی، توزیع این مقالات بر اساس کشور نویسنده چگونه است؟ (3) از منظر موضوعی، چگونه موضوعات مربوطه با توسعه اپیدمی تغییر کرده است؟ پاسخ به این سؤالات تنها نمی تواند به درک چگونگی تسهیل تحقیقات علمی در مهار COVID-19 کمک کند. اما همچنین می تواند به دانشمندان کمک کند تا مشکلات و شکاف های علمی بیشتری را برای بهبود وضعیت اپیدمی کنونی یا مقابله با هر گونه مسائل احتمالی مانند مشکلات اجتماعی یا اقتصادی که به طور غیرمستقیم ناشی از این بیماری همه گیر است، شناسایی کنند. بنابراین، برای پاسخ به آن‌ها، باید با استفاده از تکنیک‌های متن کاوی، اطلاعات مکانی-زمانی و موضوعی را از مقالات استخراج کنیم و سپس سیر تحول پژوهش در پاسخ به کووید-19 را از سه منظر فوق‌الذکر تحلیل کنیم.

متن کاوی به فرآیند شناسایی و استخراج اطلاعات ناشناخته، قابل فهم، بالقوه و ارزشمند از متن بدون ساختار با استفاده از پردازش زبان طبیعی (NLP) و تکنیک های یادگیری ماشین اشاره دارد [ 2 ، 3 ]. در سال‌های اخیر با توسعه مداوم فناوری‌های مرتبط، قابلیت استخراج اطلاعات موضوعی و مکانی-زمانی و تحلیل و درک متن بهبود زیادی یافته است که در مطالعات مربوط به واکنش اضطراری و پشتیبانی تصمیم‌گیری از رویدادهای غیرمنتظره به خوبی به کار گرفته شده است. (به عنوان مثال، خطرات طبیعی محیطی [ 4 ، 5 ، 6 ] یا بیماری های عفونی [ 7 ، 8]). برای مثال، Cvetojevic و Hochmair از متن کاوی، روش‌های اکتشافی و مدل‌های رگرسیون برای تجزیه و تحلیل انتشار توییت‌ها در پاسخ به حملات تروریستی نوامبر ۲۰۱۵ پاریس استفاده کردند [ 9 ]. هان و همکاران نظرات عمومی را از داده‌های رسانه‌های اجتماعی با مدل تخصیص نهفته دیریکله (LDA) استخراج کرد و تفاوت‌های مکانی-زمانی این نظرات را در مراحل اولیه ظهور COVID-19 تجزیه و تحلیل کرد [ 11 ] . یه و همکاران کلمات موضوعی را از یک میکروبلاگ (یک رسانه اجتماعی مشابه توییتر در چین) مربوط به تب گوردون توسط مدل LDA استخراج کرد و الگوی تکامل تب گوردون در چین را در سال 2014 همراه با اطلاعات مکانی-زمانی تجزیه و تحلیل کرد [ 12 ]]. لیو و همکاران نگرانی‌های رسانه‌های خبری را در مراحل اولیه اضطراری COVID-19 در چین از طریق رویکرد مدل‌سازی موضوع تحلیل کرد [ 13 ].

برخی از مطالعات همچنین استخراج و تجزیه و تحلیل پیشرفت تحقیقات مرتبط در COVID-19 را انجام داده اند [ 14 ، 15 ، 16 ]. برای مثال، Älgå و همکاران. از مدل LDA برای استخراج موضوعات از مقالات مرتبط با COVID-19 استفاده کردند و بر اساس موضوعات، ضریب تأثیر و زمان انتشار، پیشرفت تحقیقات را در طول اولین عبارت همه‌گیری COVID-19 از دیدگاه کتاب‌سنجی تحلیل کردند [ 15 ]. ژانگ و همکاران موضوعات تحقیقاتی را از مقالات ویروس کرونا استخراج کرد، که از ژانویه 2009 تا آوریل 2020 منتشر شد، سپس از نظریه تاب آوری برای کشف چگونگی تاثیرگذاری مسیر تحقیقات کروناویروس توسط همه گیری COVID-19 استفاده کرد [ 16 ]]. مطالعات ذکر شده در بالا پایه خوبی برای استخراج و تجزیه و تحلیل موضوع و ویژگی مکانی-زمانی از مقالات مرتبط با COVID-19 در این کار ایجاد می کند.

این مطالعه با هدف تجزیه و تحلیل چگونگی تکامل تحقیقات مرتبط در پاسخ به COVID-19، روشی را برای استخراج اطلاعات موضوعی و مکانی-زمانی طراحی کرد و سپس به تجزیه و تحلیل جامع تکامل تحقیق پرداخت. سهم این مطالعه دو جنبه است: اول، یک فرآیند کلی برای استخراج کشور نویسندگان (اطلاعات مکانی) از اطلاعات سازمانی مقالات با تکنیک‌های شناسایی موجودیت نام‌گذاری شده (NER) و پایگاه‌های دانش خارجی طراحی و اجرا می‌شود. عناوین و چکیده مقالات با استفاده از مدل های موضوعی، و دسته بندی موضوعات استخراج شده به دسته های مختلف توسط الگوریتم های یادگیری ماشین. دوم، با استفاده از روش تحلیل همبستگی،

ادامه این مقاله به شرح زیر سازماندهی شده است. بخش 2 مجموعه داده ها و روش های استخراج اطلاعات مکانی، استخراج موضوع و طبقه بندی مورد استفاده در این مقاله را ارائه می دهد. بخش 3 ضرایب همبستگی رتبه اسپیرمن بین مقالات مرتبط و موارد تایید شده COVID-19 را محاسبه می کند و روندهای زمانی، توزیع مکانی و تنوع موضوعی این مقالات را تجزیه و تحلیل می کند. بخش 4 برخی از کمبودهای این مطالعه را مورد بحث قرار می دهد. در نهایت، بخش 5 این مقاله را پایان می دهد و کارهای آینده را مورد بحث قرار می دهد.

2. داده ها و روش ها

2.1. داده ها و پیش پردازش داده ها

در این تحقیق سه مجموعه داده را جمع آوری و استفاده کردیم. اولین مجموعه داده شامل فراداده مقالات مربوط به COVID-19 بود و از مجموعه داده تحقیقاتی باز COVID-19 (CORD-19) ( https://www.semanticscholar.org/cord19 ) به دست آمد.، قابل دسترسی در 1 مارس 2021) توسط Semantic Scholar، یک موتور جستجوی مبتنی بر هوش مصنوعی برای انتشارات دانشگاهی منتشر شده است. CORD-19 به طور مشترک توسط کتابخانه ملی پزشکی ایالات متحده منتشر شده است. موسسه آلن برای هوش مصنوعی، کاگل، دانشگاه جورج تاون؛ و دفتر سیاست علم و فناوری کاخ سفید. CORD-19 به صورت روزانه به روز می شود و از سه بخش متادیتای کاغذی، متن کامل JSON و جاسازی های SPECTER تشکیل شده است. ما این مجموعه داده را با نسخه «cord-19_2021-03-01» دانلود کردیم، که شامل 78125 مقاله مرتبط با کووید-19 بود که از 15 ژانویه 2020 تا 28 فوریه 2021 منتشر شد. از آنجایی که فراداده قبلاً شامل مؤلفه‌هایی بود که موضوع و زمانی را توصیف می‌کرد. اطلاعاتی مانند عنوان، چکیده و زمان انتشار، نیازی به استخراج آنها از متن کامل نیست. اما فقط با استفاده از “فراداده کاغذی”. چکیده و عنوان مقالات شامل برخی اطلاعات تداخلی مانند علائم نگارشی، نمادهای خاص، آدرس های اینترنتی و لینک ها بود که بر دقت و کارایی استخراج اطلاعات تأثیر می گذاشت. بنابراین، آنها از قبل با استفاده از عبارات منظم حذف شدند.

با توجه به کمبود اطلاعات سازمانی در بخش فراداده CORD-19 که برای استخراج کشور نویسندگان ضروری است، این اطلاعات را با خزیدن در وب سایت دانشگاهی مایکروسافت ( https://academic.microsoft.com/home ، قابل دسترسی در 1 مارس 2021) با عنوان مقالات با استفاده از فناوری خزنده وب. از آنجایی که بسیاری از مقالات حاوی بیش از یک قطعه اطلاعات سازمانی بودند، ما از عبارات منظم استفاده کردیم تا آنها را به یک تکه اطلاعات سازمانی جدا کنیم تا استخراج نام کشور و تجزیه و تحلیل داده‌ها راحت‌تر شود.

دومین مجموعه داده، داده های جهانی موارد کووید-19 ( https://covid19.who.int/table ، قابل دسترسی در 1 مارس 2021) بود که توسط سازمان بهداشت جهانی (WHO) منتشر شد، که به روز رسانی روزانه تعداد موارد تایید شده جدید را ارائه می کند. موارد و مرگ و میر بر اساس کشور، قلمرو، یا منطقه، و وضعیت جهانی همه گیری COVID-19 را نشان می دهد.

سومین مجموعه داده، علاقه جستجوی چندین کلمه کلیدی مرتبط با COVID-19 از Google Trends است ( https://trends.google.com ، در 1 مارس 2021 قابل دسترسی است). Google Trends یک ابزار تحلیلی است که با تجزیه و تحلیل میلیاردها نتیجه جستجوی گوگل در سراسر جهان می تواند فرکانس جستجو و آمار مربوط به یک کلمه کلیدی جستجو را در دوره های مختلف به کاربران بگوید [ 17 ] و به طور گسترده در تحقیقات علمی مختلف استفاده شده است [ 18 ، 19 ] ، 20 ].

2.2. مواد و روش ها

اطلاعات زمانی را می توان مستقیماً از مجموعه داده های مورد استفاده، یعنی زمان انتشار مقالات در بخش فراداده مجموعه داده CORD-19 به دست آورد، در حالی که اطلاعات مکانی و موضوعی لازم است از سایر اجزای مرتبط مقالات استخراج شود. در این قسمت به ترتیب روش های استخراج اطلاعات مکانی و استخراج موضوع و طبقه بندی را ارائه می کنیم. ما همچنین روش محاسبه همبستگی مورد استفاده در این مقاله را معرفی می کنیم.

2.2.1. استخراج اطلاعات مکانی

اطلاعات سازمانی را می توان به طور تقریبی به سه دسته تقسیم کرد: دسته اول اطلاعات کامل سازمانی را ارائه می دهد که از نام موسسه، نام کشور، نام شهر و غیره تشکیل شده است. به عنوان مثال، اطلاعات سازمانی “دانشگاه Tsinghua، پکن، چین» که در آن «دانشگاه تسینگ‌هوا» نام مؤسسه است و «پکن» و «چین» به ترتیب شهر و کشوری هستند که دانشگاه تسینگ‌هوا در آن واقع شده است. دسته دوم فقط شامل نام موسسه می شود، اما نامی در آن وجود دارد. به عنوان مثال، اطلاعات سازمانی “دانشگاه ووهان”، که در آن “ووهان” یک نام است. دسته سوم نیز فقط شامل نام موسسه است. اما هیچ نامی مانند اطلاعات سازمانی “دانشگاه هاروارد” در آن وجود ندارد.

در پاسخ به موقعیت‌های مختلف سه دسته اطلاعات سازمانی ذکر شده در بالا، ما یک فرآیند خودکار برای به دست آوردن کشور نویسندگان پیشنهاد می‌کنیم که تکنیک‌های NER و برخی پایگاه‌های دانش خارجی مانند روزنامه و کتابخانه دانشنامه را ترکیب می‌کند. این فرآیند از دو مرحله تشکیل شده است: (1) طبقه بندی اطلاعات نهادی، که اطلاعات نهادی ورودی را به یکی از سه دسته فوق الذکر طبقه بندی می کند، و (2) استخراج اطلاعات کشور، که بر اساس آن اطلاعات سازمانی به آن دسته تعلق دارد، متفاوت است. روش هایی برای استخراج اطلاعات کشور استفاده خواهد شد. فرآیند دقیق در شکل 1 نشان داده شده است .

مرحله اول با استفاده از تکنیک های NER و تطبیق روزنامه اجرا می شود. به طور خاص، ما از ابزار spaCy NER و GAMD ( https://gadm.org/ ، در تاریخ 1 مارس 2021) به عنوان روزنامه برای مطابقت استفاده می کنیم. در برخی از مطالعات قبلی ثابت شده است که spaCy از بسیاری جهات (مانند کارایی برچسب‌گذاری و تجزیه POS) نسبت به سایر کیت‌ها برتری دارد [ 21]. این مدل از شناسایی نهاد از انواع مختلف پشتیبانی می کند، که در میان آنها دسته بندی های مربوط به اطلاعات سازمانی شامل GPE (به عنوان مثال، کشورها، شهرها، یا ایالت ها) و ORG (به عنوان مثال، شرکت ها، آژانس ها، یا موسسات) است. بنابراین، ما ابتدا از ابزار spaCy NER بر روی اطلاعات سازمانی برای شناسایی موجودیت‌های احتمالاً حاوی نام استفاده می‌کنیم، زیرا موجودیت‌های شناسایی شده از دسته اول اطلاعات سازمانی به دو دسته طبقه‌بندی می‌شوند: ORG و GPE. با این حال، دو نوع دیگر از اطلاعات سازمانی تنها یک دسته در خروجی خود دارند، یعنی ORG. بنابراین با توجه به تعداد دسته های موجود در خروجی می توان تشخیص داد که اطلاعات نهادی ورودی متعلق به دسته اول است یا خیر. اگر اطلاعات نهادی ورودی متعلق به دسته اول نباشد، ما به تفکیک اینکه آیا به دسته دوم یا سوم تعلق دارد با تطبیق روزنامه ادامه خواهیم داد. ابتدا اطلاعات ورودی را با تقسیم بندی کلمه پردازش می کنیم و حذف کلمات را متوقف می کنیم و سپس نتایج پردازش شده را با ورودی های GAMD مطابقت می دهیم. اگر بتوان اطلاعات پردازش شده را با یک ورودی از روزنامه تطبیق داد، این اطلاعات سازمانی در دسته دوم طبقه بندی می شود. در غیر این صورت جزو دسته سوم خواهد بود. این اطلاعات سازمانی در دسته دوم طبقه بندی می شود. در غیر این صورت جزو دسته سوم خواهد بود. این اطلاعات سازمانی در دسته دوم طبقه بندی می شود. در غیر این صورت جزو دسته سوم خواهد بود.

با توجه به دسته بندی های مختلف اطلاعات سازمانی شناسایی شده در مرحله قبل، مرحله دوم از روش های مربوطه برای تکمیل استخراج نام کشور استفاده می کند. برای دسته اول اطلاعات سازمانی، ما مستقیماً موجودیت GPE شناسایی شده توسط مدل spaCy را در آخرین مرحله با روزنامه GAMD مطابقت دادیم. GAMD نام مکان ها را برای مناطق اداری همه کشورها در تمام سطوح زیربخش ارائه می کند. داده‌ها را بر اساس ردیف‌ها سازمان‌دهی می‌کند و هر ردیف در این مجموعه شامل چندین ستون است، مانند «NAME_0» که نشان‌دهنده نام کشوری است که منطقه اداری کنونی در آن قرار دارد، و «NAME_1»، «NAME_2»، یا «NAME_3»، نشان دهنده نام مکان های مناطق اداری چند سطحی است. بنابراین، هنگامی که موجودیت GPE با یک ردیف از این مجموعه داده تطبیق داده می شود، مقدار ستون “NAME_0” در این ردیف، نام کشور مورد نظر ما است. با توجه به دسته دوم اطلاعات سازمانی، از آنجایی که می‌تواند با یک ردیف روزنامه بعد از تقسیم‌بندی کلمه مطابقت داشته باشد و کلمات را متوقف کند، می‌توان نام کشور را از این دسته از اطلاعات با همان روشی که در دسته اول استفاده می‌کرد به دست آورد. با توجه به دسته سوم، نمی تواند با هیچ ردیفی از روزنامه مطابقت داشته باشد، زیرا در این دسته از اطلاعات نامی وجود ندارد. بنابراین، ما از روش دیگری برای به دست آوردن نام کشور استفاده می کنیم، یعنی استفاده از فناوری خزنده وب برای جستجوی خودکار نام موسسه در یک وب سایت دایره المعارف ( از آنجایی که می‌تواند با یک ردیف از روزنامه بعد از تقسیم‌بندی کلمه مطابقت داشته باشد و حذف کلمات را متوقف کند، می‌توانیم نام کشور را از این دسته اطلاعات با همان روشی که در دسته اول استفاده می‌شود به دست آوریم. با توجه به دسته سوم، نمی تواند با هیچ ردیفی از روزنامه مطابقت داشته باشد، زیرا در این دسته از اطلاعات نامی وجود ندارد. بنابراین، ما از روش دیگری برای به دست آوردن نام کشور استفاده می کنیم، یعنی استفاده از فناوری خزنده وب برای جستجوی خودکار نام موسسه در یک وب سایت دایره المعارف ( از آنجایی که می‌تواند با یک ردیف از روزنامه بعد از تقسیم‌بندی کلمه مطابقت داشته باشد و حذف کلمات را متوقف کند، می‌توانیم نام کشور را از این دسته اطلاعات با همان روشی که در دسته اول استفاده می‌شود به دست آوریم. با توجه به دسته سوم، نمی تواند با هیچ ردیفی از روزنامه مطابقت داشته باشد، زیرا در این دسته از اطلاعات نامی وجود ندارد. بنابراین، ما از روش دیگری برای به دست آوردن نام کشور استفاده می کنیم، یعنی استفاده از فناوری خزنده وب برای جستجوی خودکار نام موسسه در یک وب سایت دایره المعارف (https://www.thefreedictionary.com/dictionary.htm ، قابل دسترسی در 1 مارس 2021). از آنجایی که این وب‌سایت اطلاعات کشور مؤسسات را با یک برچسب html منحصر به فرد (مثلاً «<span class = ‘country-name’> چین </span>» حاشیه‌نویسی می‌کند)، می‌توانیم به سادگی نام کشور را با استخراج مقدار متن مربوط به آن به دست آوریم. این برچسب در صفحه وب

یک راه ساده‌تر برای استخراج نام کشور همه دسته‌های اطلاعات مؤسسه، تطبیق نام مؤسسه با صفحه وب مربوطه وب‌سایت دانشنامه است. با این حال، ما این کار را انجام نمی دهیم زیرا بسیاری از موسسات در وب سایت مذکور گنجانده نشده اند. در چنین مواردی نمی توان نام کشوری برای این موسسات به دست آورد. بنابراین، برای به دست آوردن نام کشور نویسندگان برای هر چه بیشتر مقالات، مانند دسته اول و دوم اطلاعات سازمانی، نام کشور را با تطبیق آن با روزنامه استخراج می کنیم، زیرا تقریباً همه مکان را در بر می گیرد. نام برای همه کشورها نام کشور دسته سوم اطلاعات سازمانی به دلیل نداشتن نام نامی تنها با استفاده از وب سایت دایره المعارف قابل دریافت است.

2.2.2. استخراج و طبقه بندی موضوع

از آنجایی که چکیده و عنوان معمولاً آموزنده‌ترین بخش‌هایی هستند که ایده اصلی یک مقاله را توصیف می‌کنند و به دلیل تعداد کلمات بسیار کمتری نسبت به متن کامل مقاله، استخراج اطلاعات از آنها آسان‌تر است، ما موضوع را از آنها استخراج می‌کنیم. در این مطالعه. پس از اتمام استخراج موضوع، موضوعات استخراج شده را بیشتر در دسته بندی های مختلف دسته بندی می کنیم. دو کار فوق به ترتیب با استفاده از مدل LDA و الگوریتم جنگل تصادفی انجام شده است. جنگل تصادفی یک الگوریتم یادگیری مجموعه ای است که چندین درخت تصمیم را ترکیب می کند [ 22 ]، که عملکرد عالی را در وظایف طبقه بندی متن، رگرسیون و غیره نشان می دهد [ 23 ، 24 ، 25 ]]. کل فرآیند شامل سه مرحله است: (1) تقسیم بندی کلمات و حذف کلمات توقف، (2) استخراج موضوع، و (3) طبقه بندی موضوع، همانطور که در شکل 2 نشان داده شده است.

مرحله 1. تقسیم بندی کلمات و توقف حذف کلمات. ابتدا برای هر مقاله با کنار هم قرار دادن عنوان و چکیده آن یک پیکره می سازیم. سپس بر روی پیکره ساخته شده از تقسیم بندی کلمات استفاده می شود و کلمات توقف از آن حذف می شوند. در نهایت، پیکره پردازش شده به عنوان یک لیست کلمات سازماندهی شده است.

مرحله 2. استخراج موضوع. این مطالعه استخراج موضوع را با فراخوانی مدل LDA اجرا می کند (LDA یک مدل مبحثی است که می تواند موضوعات یک سند ورودی را با توجه به توزیع احتمال کلمات در سند [ 10 ] خروجی دهد) با استفاده از Gensim ( https:// radimrehurek.com/gensim/، در 1 مارس 2021 قابل دسترسی است) بسته در پایتون، که یک لیست کلمات تودرتو را به عنوان ورودی می گیرد، که در آن هر فهرست فرعی نشان دهنده لیست کلمات یک سند است. به طور مشخص، هر زیر فهرست شامل فهرست کلمات عنوان و چکیده یک مقاله در این پژوهش است. همانطور که ما تغییر موضوعات تحقیق را به تفکیک ماه تجزیه و تحلیل خواهیم کرد، فهرست کلمات مجموعه ها (هر مجموعه شامل عنوان و چکیده یک مقاله است) مقالات منتشر شده در همان ماه را در یک لیست تودرتو ترکیب می کنیم (به عنوان مثال، [[“nCov -19، «ویروس»، «…»]، [«…»، «…»]])، و سپس آن را به مدل LDA برای استخراج موضوع وارد کنید. سه پارامتر مهم در مدل LDA وجود دارد: num_topics ، alpha و بتا ، که در میان آنها num_topicsنشان دهنده تعداد موضوعاتی است که باید استخراج شوند، آلفا بر پراکندگی موضوعات و بتا بر پراکندگی کلمات تأثیر می گذارد. در این تحقیق از مقادیر مختلف پارامتر num_topics برای استخراج موضوع در ماه های مختلف استفاده شده است. به طور خاص، ما این پارامتر را به عنوان 5 برای ژانویه 2020، 10 برای فوریه 2020، 15 برای مارس 2020، و 20 برای بقیه ماه ها تا فوریه 2021 برای اجرای مدل اختصاص دادیم. ما آلفا را به عنوان 1/num_topics و بتا را به عنوان 1/(10*num_topics) اختصاص دادیم، که از ادبیات قبلی گریفیث و استیورز [ 26 ] یاد گرفتیم.

مرحله 3. طبقه بندی موضوع. با توجه به واژگان موضوعی استخراج شده در مرحله قبل، چندین دسته برای مقالات مرتبط با COVID-19 تعریف کردیم و عناوین 20000 مقاله از 78125 مقاله را با دسته بندی های تعریف شده برچسب گذاری کردیم. از داده های برچسب گذاری شده، 14000 به عنوان داده های آموزشی و 6000 باقی مانده به عنوان داده های آزمایشی برای مدل جنگل های تصادفی استفاده می شود. ویژگی رگرسیون جنگل تصادفی در کتابخانه اسکیت یادگیری پایتون برای پیاده‌سازی مدل جنگل‌های تصادفی در این مقاله، که در آن n_estimators (تعداد درخت‌های تصمیم) و max_features استفاده می‌شود.(تعداد ویژگی) دو پارامتر مهم هستند. ما با تنظیم پارامتر آنها را به ترتیب به عنوان 197 و 240 اختصاص دادیم. مقالات باقی مانده به طور خودکار در دسته های از پیش تعریف شده بر اساس عناوین آنها با استفاده از مدل آموزش دیده طبقه بندی می شوند.

2.2.3. محاسبه همبستگی

معیارهای زیادی برای تحلیل همبستگی وجود دارد که در میان آنها معمولاً از ضریب همبستگی پیرسون، ضریب همبستگی رتبه تاو کندال و ضریب همبستگی رتبه اسپیرمن استفاده می شود. همانطور که روش اول مستلزم توزیع نرمال یا خطی متغیرها است [ 27 ] و روش دوم شاخصی است که همبستگی بین متغیرهای طبقه‌ای را منعکس می‌کند [ 28 ]]، هیچ یک از آنها برای مورد مطالعه ما مناسب نیستند. ضریب همبستگی رتبه اسپیرمن، همبستگی را با رتبه بندی عناصر در دو بردار یا مجموعه محاسبه می کند، که می تواند به طور موثر جهت و درجه تمایل تغییرات بین دو متغیر را نشان دهد. بنابراین، ما از این روش برای تجزیه و تحلیل همبستگی بالقوه بین توسعه همه‌گیری COVID-19 و مطالعات مرتبط استفاده می‌کنیم. ضریب همبستگی رتبه اسپیرمن ( R _S ) به عنوان معادله (1) محاسبه می شود، که در آن R ( Xi ) و R ( Y _i₎) رتبه بندی هر عنصر را در بردارها یا مجموعه های مربوطه نشان می دهد (به عنوان مثال، اگر دو مجموعه وجود دارد: X = [170,150,210,180,160]، Y = [180,160,190,169,172]، پس مجموعه رتبه بندی عناصر هر دو R(X) = [3,X) است. 1،5،4،2] و R(Y) = [4،1،5،2،3] R ( Xi ) و R ( Yi ) عنصر i در R ( X ) و R ( Y ) هستند. به ترتیب و N تعداد عناصر موجود در بردارها یا مجموعه ها است.

آرس=1-6×∑من=1ن|آر(ایکسمن)-آر(Yمن)|ن×(ن2-1)2

(1)

در این مطالعه، ما ضریب همبستگی رتبه اسپیرمن را با فراخوانی بسته Numpy در پایتون محاسبه کردیم. علاوه بر ضرایب Rs ، نتایج محاسبات شامل سطح معنی داری ( p) نیز خواهد بود که با آزمون t زوجی به دست می آید و برای تصمیم گیری در مورد همبستگی دو معیار استفاده می شود. هنگامی که p کمتر از 0.01 باشد، این دو معیار از نظر آماری همبستگی معنی‌داری در نظر گرفته می‌شوند.

2.2.4. ارزیابی نتایج

ما از Precision ( P )، Recall ( R ) و F1-Measure ( F1 ) [ 29 ] استفاده کردیم.] برای ارزیابی دقت استخراج و طبقه بندی اطلاعات در این کار، که معیارهایی هستند که معمولا در زمینه بازیابی اطلاعات مورد استفاده قرار می گیرند. دقت به نسبت اقلام به درستی استخراج شده (طبقه بندی شده) در همه موارد استخراج شده (طبقه بندی شده) اشاره دارد. یادآوری نسبت اقلام به درستی استخراج شده (طبقه بندی شده) در همه موارد است. بین دقت و فراخوانی یک معامله وجود دارد. بنابراین، لازم بود میانگین وزنی هارمونیک دقت و یادآوری، یعنی اندازه گیری F1 در نظر گرفته شود. هرچه اندازه F1 بالاتر باشد، روش های استخراج (طبقه بندی) موثرتر است. این سه معیار با معادلات (2) – (4)، که در آن تعریف شده است تیپنشان دهنده تعداد نام کشورها است که به درستی از اطلاعات سازمانی استخراج شده است، یا تعداد مقالاتی که به درستی طبقه بندی شده اند. افپنشان دهنده تعداد نام کشورها است که به اشتباه از اطلاعات سازمانی استخراج شده است، یا تعداد مقالاتی که به اشتباه طبقه بندی شده اند. و افnنشان دهنده تعداد کل نام کشورها است که به اشتباه و ناموفق استخراج شده اند، یا تعداد کل مقالاتی که به اشتباه و ناموفق طبقه بندی شده اند.

پ=تیپتیپ+افپ

(2)

آر=تیپتیپ+افn

(3)

اف1=2×پ×آرپ+آر

(4)

3. نتایج و تجزیه و تحلیل

در این بخش، ابتدا نتایج استخراج و طبقه‌بندی اطلاعات را ارزیابی می‌کنیم و سپس تحلیل جامعی از همبستگی‌های چند سطحی بین مقالات تحقیقاتی منتشر شده مرتبط با COVID-19 و توسعه این همه‌گیری انجام می‌دهیم.

3.1. نتایج

برای ارزیابی روش استخراج اطلاعات مکانی خود، ما به طور تصادفی 6000 قطعه از اطلاعات سازمانی را انتخاب کردیم و آنها را با نام صحیح شهرستان به عنوان حقیقت پایه برچسب گذاری کردیم. عملکردها در جدول 1 نشان داده شده است. ارزش های تیپ، افپ، و افnبه ترتیب 5599، 167 و 401 هستند. بنابراین، دقت محاسبه‌شده، یادآوری، و اندازه‌گیری F1 با استفاده از معادلات (2) – (4) به ترتیب 97.1٪، 93.3٪ و 95.2٪ است. در مورد طبقه بندی موضوع، عملکرد مدل جنگل های تصادفی بر روی داده های آزمایشی در جدول 2 نشان داده شده است . تیپ4883 است، افپ1117 است و افnهمچنین 1117 است، یعنی تعداد مقالات طبقه بندی شده ناموفق 0 است. بنابراین، معیارهای ارزیابی محاسبه شده همه 81.3٪ است. نتایج فوق نشان می‌دهد که روش پیشنهادی دقیق و امکان‌پذیر بوده است، بنابراین می‌توان از آن‌ها برای استخراج اطلاعات مکانی و استخراج اطلاعات موضوعی و طبقه‌بندی بر روی مقالات باقی‌مانده استفاده کرد و در نتیجه پایه‌ای برای تحلیل بیشتر در بخش‌های فرعی زیر ایجاد کرد.

3.2. تحلیل زمانی

به منظور تجزیه و تحلیل و درک بهتر همبستگی زمانی بین همه‌گیری COVID-19 و تکامل تحقیقات مرتبط، ما ضرایب همبستگی رتبه اسپیرمن بین تعداد موارد تایید شده و تعداد مقالات منتشر شده را محاسبه می‌کنیم و روند آنها را در طول زمان به طور کلی تجزیه و تحلیل می‌کنیم. ، به ترتیب سطح ماهانه و روزانه.

3.2.1. تحلیل زمانی در سطح کلی

ضریب همبستگی رتبه اسپیرمن بین تعداد تجمعی موارد تایید شده و تعداد تجمعی مقالات منتشر شده به تفکیک ماه در جدول 3 نشان داده شده است . سطح معنی داری که برابر با 0 و کمتر از 0.01 است، نشان می دهد که این دو متغیر از نظر آماری بسیار معنادار هستند. ضریب Rs برابر با 1 است که نشان می دهد همبستگی مثبت بسیار قوی بین این دو متغیر وجود دارد.

همانطور که در شکل 3 و جدول 3 نشان داده شده است ، تعداد تجمعی موارد تایید شده به سرعت از 9906 به 113,432,271 افزایش یافت، در حالی که تعداد تجمعی مقالات منتشر شده نیز از 37 به 78,125 در 14 ماه گذشته افزایش یافت. این دو منحنی روند بسیار مشابهی را نشان می دهند. با این حال، از نقطه نظر عملی، درجه خاصی از انحراف بین تعداد تجمعی مقالات و موارد تایید شده وجود دارد. به این دلیل که انتشار مقالات زمان معینی را می طلبد، در حالی که تعداد موارد تایید شده به دلیل پیشگیری و کنترل نابهنگام می تواند در مدت زمان کوتاهی به سرعت افزایش یابد.

3.2.2. تجزیه و تحلیل زمانی در سطح ماهانه

ضریب همبستگی محاسبه شده بین تعداد موارد تایید شده جدید و تعداد مقالات جدید منتشر شده در سطح ماهانه در جدول 4 نشان داده شده است . همانطور که مشاهده می شود، سطح معنی داری ( p = 2.5× ^10-5 ) که کوچکتر از 0.01 است، نشان می دهد که همبستگی بین این دو متغیر از نظر آماری معنادار است. ضریب Rs 0.89 بسیار بزرگتر از 0 و حتی بسیار بزرگتر از 0.5 است که نشان می دهد این دو متغیر دارای درجه بالایی از همبستگی هستند.

شکل 4 تغییرات تعداد موارد تایید شده جدید و تعداد مقالات جدید منتشر شده را به تفکیک ماه از ژانویه 2020 تا فوریه 2021 نشان می دهد. به طور کلی، هر دو متغیر یک روند صعودی همزمان آشکار و پیوسته را نشان می دهند که باز هم همبستگی بالای این دو را ثابت می کند. متغیرها اگرچه یک انحراف بزرگ در چند گره زمانی رخ می دهد (دلیل آن ممکن است مشابه موارد ذکر شده در بخش 3.2.1 باشد.)، همچنین در اکثر قسمت‌های منحنی‌ها، هماهنگی خوبی بین آن‌ها وجود دارد، که نشان می‌دهد تکامل تحقیقات ناشی از گسترش اپیدمی است. به طور خاص، تنها 37 مقاله مرتبط در ژانویه، زمان اضطراری COVID-19 منتشر شد. در فوریه، این تعداد شروع به افزایش کرد و به 404 رسید. تعداد مقالات با مجموع 1411 مقاله منتشر شده در ماه مارس، زمانی که COVID-19 شروع به گسترش در سراسر جهان کرد، همچنان افزایش یافت. در 11 مارس، WHO وضعیت اضطراری ویروس کرونا را به عنوان یک بیماری همه گیر اعلام کرد. پس از این، یک اوج کوچک 3375 در ماه آوریل رخ داد. در اردیبهشت و خرداد این روند ثابت ماند و تعداد مقالات (به ترتیب 2533 و 2788) تفاوت چندانی نداشت. در ماه جولای، تعداد مقالات به شدت افزایش یافت و با 9065 مقاله به بالاترین حد در هفت ماه گذشته رسید. 7829، 8935، 6467، 9244، 9147 وجود داشت،

3.2.3. تحلیل زمانی در سطح روزانه

ضریب همبستگی رتبه اسپیرمن بین تعداد موارد تایید شده جدید و تعداد مقالات جدید منتشر شده در سطح روزانه محاسبه شده است، همانطور که در جدول 5 نشان داده شده است. مقدار p بسیار کوچک نزدیک به 0 نشان می دهد که همبستگی بین این دو متغیر از نظر آماری بسیار معنادار است. این دو متغیر نیز با مقدار Rs 0.67 همبستگی مثبت معناداری دارند. در مقایسه با همبستگی این دو متغیر در سطح ماهانه، همبستگی در سطح روزانه کمتر مثبت است.

این همبستگی را می توان با نشان دادن تعداد موارد تایید شده جدید و تعداد مقالات جدید منتشر شده در سطح روزانه به عنوان منحنی پیدا کرد، همانطور که در شکل 5 نشان داده شده است.. در آغاز وضعیت اضطراری COVID-19، اولین مقاله دیرتر از زمانی که اولین مورد COVID-19 تأیید شد منتشر شد. در 24 ژانویه، نوسان تعداد مقالات به طور قابل توجهی بیشتر از موارد تایید شده بود، که ممکن است به دلیل تاخیر زمانی ناشی از انجام تحقیقات، نگارش مقالات، بررسی همتایان و غیره یک عدد تجمعی باشد. تعداد روزنامه ها همچنان رو به افزایش بود، اما در مقایسه با روند مشابه این دو متغیر در دی ماه، تفاوت زیادی بین آنها در بهمن ماه مشاهده شد. این به این دلیل است که اکثر موارد تایید شده در چین در این مدت گزارش شده است و برخی اقدامات پیشگیرانه به موقع و سختگیرانه توسط دولت انجام شده است (مانند ساخت بیمارستان کوهستانی هوشن و بیمارستان کوهستان ریتون، تحویل بسیاری از اعضای کادر پزشکی و تعداد زیادی تجهیزات پزشکی به ووهان و مسدود کردن ترافیک) و در نتیجه تعداد موارد تایید شده با سرعت پایین افزایش می یابد. این امر حاکی از اهمیت تخصیص منطقی منابع پزشکی و اقدامات پیشگیرانه به موقع برای مهار اپیدمی در مدت زمان کوتاه است. در همین حال، اپیدمی مورد توجه بسیاری از دانشمندان قرار گرفت. بنابراین، تعداد مقالات شروع به افزایش کرد. اپیدمی مورد توجه بسیاری از دانشمندان قرار گرفت. بنابراین، تعداد مقالات شروع به افزایش کرد. اپیدمی مورد توجه بسیاری از دانشمندان قرار گرفت. بنابراین، تعداد مقالات شروع به افزایش کرد.

متعاقباً، COVID-19 در ماه مارس در سراسر جهان گسترش یافت. دانشمندان بیشتری از کشورهای مختلف به طور متوالی تحقیقات مرتبط را انجام دادند و تعداد مقالات نیز به سرعت افزایش یافت. منحنی های این دو متغیر روند مشابهی را نشان دادند. از آوریل، اکثر کشورها به طور فعال اقدامات پیشگیری و کنترل را اجرا کردند، روند رشد تعداد موارد تایید شده روزانه جدید در چند ماه بعد نسبتاً ثابت به نظر می رسید. با این حال، این تعداد بیشتر و بیشتر شد. در این ماه‌ها، تعداد نشریات روزانه بیشتر از ماه‌های گذشته بود، زیرا پژوهشگران زمان بیشتری برای انتشار مقالات خود داشتند. یک نکته جالب که از این منحنی ها مشاهده می شود، کاهش دوره ای در هفته است، زیرا مقالات معمولاً در روزهای هفته منتشر می شوند و در نتیجه منجر به کاهش تعداد در آخر هفته می شود.

3.3. تحلیل فضایی

در این بخش ابتدا به تحلیل همبستگی و توزیع فضایی تعداد تجمعی موارد تایید شده و تعداد تجمعی نویسندگان بر اساس کشور می پردازیم و سپس توزیع فضایی تعداد موارد تایید شده جدید و تعداد نویسندگان را برای مقالات منتشر شده جدید ارائه می کنیم. در سطح ماهانه

3.3.1. تحلیل فضایی در سطح کلی

این مطالعه می تواند توزیع فضایی را به دو صورت تجزیه و تحلیل کند: روش اول شمارش تعداد نویسندگان مشترک هر مقاله بر اساس کشور است، این به ما کمک می کند تا متوجه شویم که دانشمندان در سراسر جهان تا چه اندازه به COVID-19 توجه می کنند و در آن مشارکت دارند. تحقیق مرتبط راه دوم این است که وزن‌های متفاوتی را برای نویسندگان مشترک در مقاله تعیین کنیم تا مشارکت‌های تحقیقاتی علمی کشورهای مختلف در مبارزه با کووید-19 را تحلیل کنیم. با این حال، راه دوم نه تنها دشوار است، زیرا سهم هر نویسنده در یک تحقیق متفاوت است، بلکه هدف کار ما نیز نیست. بنابراین، ما اولین راه را برای تجزیه و تحلیل توزیع فضایی انتخاب کردیم. در جدول 6، نتیجه محاسبه شده برای ضریب همبستگی بین تعداد تجمعی نویسندگان و موارد تایید شده فهرست شده است. همانطور که مشاهده می شود، Rs = 0.76 و p = 1.52 × ^10-43 ( p <0.01)، که نشان دهنده همبستگی مثبت قوی بین این دو متغیر است. این با نتایج تحلیل شده از منظر زمانی سازگار است.

جدول 7تعداد تجمعی نویسندگان بیش از 500 نفر را بر اساس کشور نشان می دهد. همانطور که مشاهده می شود، ایالات متحده با 58146 نویسنده بیشترین تعداد نویسنده را دارد. کشور دیگری که بیش از 20000 نویسنده در تحقیقات مرتبط شرکت کرده است، چین با مجموع 29011 نویسنده است. کشورهای زیر ایتالیا، بریتانیا، اسپانیا، هند و فرانسه به ترتیب با 18348، 17880، 11214، 11132 و 11130 نویسنده هستند. کشورهایی که بین 5000 تا 10000 نویسنده دارند آلمان، کانادا، ژاپن، برزیل و استرالیا هستند. این در حالی است که تقریباً 23 کشور بین 1000 تا 5000 نویسنده در تحقیقات مرتبط شرکت کرده اند و تعداد نویسندگان در کشورهای باقی مانده کمتر از 1000 است. ما نمی‌توانیم به سادگی نتیجه بگیریم که این کشورها دارای درجه بالاتری از نگرانی‌ها و مشارکت بیشتری در غلبه بر این ویروس هستند، زیرا همه کشورها دارای سطوح توسعه، مقیاس و ظرفیت‌های تحقیقاتی بسیار متفاوتی هستند. هر چه یک کشور توسعه یافته یا بزرگتر باشد، ظرفیت و توانایی بیشتری برای اختصاص منابع بیشتر به مطالعات مرتبط دارد. به همین دلیل است که بیشتر کشورهایی که در ده کشور اول قرار دارند، کشورهای توسعه یافته هستند، به جز چین و هند که دو کشور پرجمعیت هستند. ترکیب شده با که دو کشور پرجمعیت هستند. ترکیب شده با که دو کشور پرجمعیت هستند. ترکیب شده باشکل 6که توزیع فضایی تعداد تجمعی موارد تایید شده و تعداد تجمعی نویسندگان را نشان داد، می‌توان همبستگی خوبی بین این دو متغیر مشاهده کرد. این بدان معناست که سطح سرمایه‌گذاری تحقیقات علمی در COVID-19 نیز در واقع با شدت همه‌گیری برای هر کشور مرتبط است. با این حال، از آنجایی که کشورهای مختلف تحمل خطر متفاوتی دارند، این امر منجر به پاسخ تحقیقات علمی نامتناسب خواهد شد، مشروط بر اینکه تعداد موارد تایید شده در این کشورها مشابه باشد. به عنوان مثال، تفاوت کمی بین تعداد موارد تایید شده در چین (101878) و کنیا (105648) وجود دارد، اما تحمل خطر در چین قوی‌تر از کنیا است که منجر به تعداد نویسندگانی می‌شود که در تحقیقات مرتبط در چین شرکت می‌کنند. 29011) بسیار بیشتر از کنیا (<

3.3.2. تحلیل فضایی در سطح ماهانه

شکل 7توزیع فضایی تعداد موارد تایید شده جدید و تعداد نویسندگان مقالات منتشر شده جدید را از ژانویه 2020 تا فوریه 2021 نشان می دهد. فقط تعداد کمی از دانشمندان از چندین کشور در تحقیقات مرتبط شرکت کردند، از جمله چین، ایالات متحده، بریتانیا، فرانسه، هلند، استرالیا، بلژیک، برزیل، کانادا، سوئیس، ایتالیا و کره جنوبی. همانطور که مشاهده می شود، در ماه های ژانویه و فوریه، چین بیشترین تعداد را از نظر نویسندگان و موارد تایید شده داشت، در حالی که موارد ایالات متحده، ایتالیا و بریتانیا کمی کمتر از چین بودند. این با این واقعیت مطابقت دارد که اپیدمی در این دوره در چین متمرکز شده است. از ماه مارس، ویروس شروع به گسترش در سراسر جهان کرد. تعداد موارد تایید شده جدید در ایالات متحده از چین پیشی گرفت. و به طور فزاینده ای کشورهای بیشتری شروع به مشارکت در تحقیقات مرتبط کردند. با این حال، کشوری که بیشترین تعداد نویسندگان را دارد تا ماه آوریل چین باقی مانده است، که ممکن است به این دلیل باشد که انتشار مقالات زمان بیشتری می برد. در ماه آوریل، تعداد نویسندگان از ایالات متحده شروع به پیشی گرفتن از چین شد. در ده ماه آینده، ایالات متحده به طور مداوم کشوری بود که بیشترین تعداد نویسنده را داشت و همچنین بیشترین تعداد موارد تایید شده را داشت. تعداد نویسندگانی از چین، ایتالیا و بریتانیا به دنبال نویسندگان ایالات متحده است. به طور کلی، توزیع فضایی این دو متغیر در طول زمان به تدریج در سراسر جهان گسترش یافت. این نه تنها نشان دهنده همبستگی فضایی بین آنهاست،

3.4. تحلیل موضوع

3.4.1. تجزیه و تحلیل موضوعات استخراج شده به تفکیک ماه

شکل 8 موضوعات و واژگان مربوطه استخراج شده از عناوین و چکیده مقالات را به تفکیک ماه با استفاده از مدل موضوعی LDA نشان می دهد. همانطور که مشاهده می شود دایره های هر ماه با توجه به تعداد موضوعات استخراج شده به تعداد قسمت های مختلف با رنگ های مختلف تقسیم می شوند. متن خارج از دایره به واژگان استخراج شده مربوط به هر موضوع اشاره دارد. به عنوان مثال، هنگام استفاده از مدل LDA، پارامتر تعداد موضوعات در ژانویه به پنج اختصاص داده شد (که در بخش 2.2.3 قابل مشاهده است.) و متن عناوین و چکیده مقالات در دی ماه با استفاده از مدل LDA در پنج موضوع خلاصه شده است. بنابراین، دایره ژانویه نیز به پنج بخش تقسیم شد و واژگان مربوطه در خارج از دایره فهرست شده است. توجه داشته باشید که به دلیل محدودیت فضا، فقط برخی از موضوعات و واژگان ذکر شده است. به عنوان مثال، مدل LDA 20 موضوع را برای آوریل خروجی می دهد، اما تنها 10 مورد از آنها در شکل نشان داده شده است. از این شکل به وضوح می توان تغییر کانون های تحقیقاتی را با گسترش بیماری همه گیر مشاهده کرد. در ابتدای این اورژانس، COVID-19 برای دانشمندان ناشناخته بود. بنابراین، تحقیقات عمدتاً بر روی اکتشاف منشا، اصل و نسب و ساختار ژنومی این ویروس در ژانویه متمرکز شده است. از فوریه تعداد موارد تایید شده به تدریج افزایش یافت. و به منظور کنترل و تثبیت اپیدمی و نجات بیماران مبتلا، دانشمندان نه تنها به تجزیه و تحلیل وضعیت اپیدمی پرداختند و در مورد دستورالعمل ها و اقداماتی برای پیشگیری و کنترل همه گیر مانند انسداد ترافیک و قرنطینه بحث کردند، بلکه شروع به بررسی کردند. بررسی ویژگی های بالینی، روش درمانی و توصیه های دارویی. یک بیماری همه گیر جهانی توسط WHO در ماه مارس اعلام شد. در چهار ماه آینده علاوه بر برخی مطالعات رایج مرتبط با پزشکی مانند تشخیص و شناسایی این بیماری، پاتوژنز و واکنش های دارویی، بیماران بدون علامت، تحقیق و توسعه واکسن و اثرات درمانی داروهای موجود، برخی مطالعات در سایر زمینه‌های حاصل از COVID-19 مانند رفتار رسانه‌های اجتماعی، کیفیت هوا، سلامت روان، درگیری های خشونت آمیز، پزشکی از راه دور، مشکلات اجتماعی و غیره. موضوعات تحقیق از ژوئیه 2020 تا فوریه 2021 اساساً مشابه ماه های قبل است، با این تفاوت که از نوامبر سال گذشته، چند موضوع بیشتر ظاهر شده است، مانند موضوعات مرتبط. تحقیق در مورد واکسن و سلامت روان بنابراین، به طور کلی، موضوعات تحقیق از ژانویه تا آوریل بسیار تغییر کرد و تقریباً اکثر موضوعات را در طول 14 ماه کامل پوشش داد. از ماه می، تغییرات موضوع بسیار اندک بوده است. موضوعات تحقیق از ژانویه تا آوریل به شدت تغییر کرد و تقریباً اکثر موضوعات را در طول 14 ماه کامل پوشش داد. از ماه می، تغییرات موضوع بسیار اندک بوده است. موضوعات تحقیق از ژانویه تا آوریل به شدت تغییر کرد و تقریباً اکثر موضوعات را در طول 14 ماه کامل پوشش داد. از ماه می، تغییرات موضوع بسیار اندک بوده است.

علاوه بر این، از گرایش‌های Google، تمایل برخی از موضوعات پرطرفدار مرتبط با COVID-19 را در عرض 14 ماه به دست آوردیم، مانند “علائم COVID-19 چیست” (موضوع 1)، “واکسن COVID-19” (موضوع) 2) “خشونت خانگی و کرونا” (مبحث 3) و “سلامت روان و COVID-19” (مبحث 4) که در شکل 9 نشان داده شده است.. در مقایسه، می‌توانیم متوجه شویم که علاقه جستجوی مبحث 1 در شش ماه اول اضطراری COVID-19 زیاد بوده و سپس از بین رفته است. علاقه جستجوی موضوع 2 در مرحله اولیه اضطراری COVID-19 کم بود و از نوامبر به طور قابل توجهی افزایش یافت. روند توسعه این دو موضوع اساساً با تکامل تحقیقاتی COVID-19 سازگار است. علایق جستجوی مبحث 3 و مبحث 4 با این همه گیری آغاز شد. اگرچه در ماه های بعد کاهش یافت، اما به طور کامل از بین نرفت. مشاهده می‌شود که ممکن است تعداد معینی از موارد بهداشت روانی و خشونت خانگی در دنیای واقعی وجود داشته باشد، که این یافته‌های فوق را ثابت می‌کند که مقالات بیشتری در رابطه با سلامت روان و خشونت خانگی در مراحل بعدی کووید-۱۹ منتشر شده است. 19 همه گیری.

3.4.2. تحلیل فضایی موضوعات

با توجه به واژگان موضوع استخراج شده، ما هشت دسته را تعریف کردیم: تجزیه و تحلیل آسیب شناسی، تشخیص و درمان (دسته 1). شناسایی منشا و ژن ویروس (دسته 2)؛ وضعیت اپیدمی و راهبردهای مقابله ای (دسته 3)؛ امنیت شخصی و درگیری خشونت آمیز (دسته 4)؛ پیش بینی و ارزیابی وضعیت اپیدمی (دسته 5)؛ تجزیه و تحلیل رفتارهای رسانه های اجتماعی (دسته 6)؛ تشخیص و تجزیه و تحلیل سلامت روانی (دسته 7)؛ و تحقیق و توسعه داروها و واکسن ها (دسته 8). با استفاده از مدل جنگل‌های تصادفی آموزش‌دیده با داده‌های برچسب‌گذاری شده، مقالات به دسته‌های از پیش تعریف‌شده طبقه‌بندی شدند. شکل 10 تعداد و نسبت هر دسته از مقالات و شکل 11 را نشان می دهدتوزیع فضایی تعداد نویسندگان شرکت کننده در هر موضوع را ارائه می دهد که از بین تعداد شرکت کنندگان برای هر موضوع به ترتیب 127686، 4602، 89695، 756، 18217، 1436، 12904 و 7187 نفر می باشد.

همانطور که مشاهده می شود، تعداد کل مقالات متعلق به دسته های 1، 3 و 5 بیش از 90 درصد از کل مقالات را به خود اختصاص داده است و این سه دسته نیز بیشترین توزیع فضایی را نسبت به سایر دسته ها دارند. این نشان می دهد که این دسته از موضوعات تحقیقاتی بیشترین توجه دانشمندان را در سراسر جهان به خود جلب کرده است. این از نقطه نظر عملی قابل درک است زیرا این موضوعات بیشترین ارتباط را با اپیدمی واقعی دارند. قبل از واکسیناسیون عموم مردم، تجزیه و تحلیل پاتولوژیک، درمان بیماران، پیشگیری از بیماری همه گیر و اقدامات کنترلی همچنان از مهمترین نگرانی ها خواهد بود و نشریات مرتبط همچنان مفیدترین مطالعات در مبارزه با همه گیری خواهند بود. توزیع فضایی دسته های 2 و 8 نیز بسیار گسترده بود.30 ، 31]. راه اول تعیین منشاء این ویروس و مسدود کردن آن از منبع است که مستلزم بررسی های دسته 2 است. راه دوم مطالعه و تولید دارو یا واکسن علیه این ویروس است که تمرکز تحقیقاتی گروه 8 است. رده های 4 و 7 مربوط به دو نوع مطالعه به دست آمده از همه گیری کووید-19 است که به دو دلیل احتمالی توجه دانشمندان کشورهای مختلف را به خود جلب کرده است. اولاً، به دلیل شدت همه گیری، بسیاری از مردم مجبورند برای مدت طولانی در خانه بمانند، که ممکن است منجر به افسردگی، تحریک پذیری و حتی مشکلات روانی جدی شود که به طور بالقوه منجر به خشونت خانگی می شود. دوم، کادر پزشکی خط اول نزدیک‌ترین گروه به COVID-19 هستند، که ممکن است به دلیل خطر بالاتر عفونت، مانند ترس و اضطراب، مشکلات روانی ایجاد کند. این دو موضوع نه تنها بر اثر پیشگیری و کنترل بیماری همه گیر تأثیر می گذارد، بلکه در صورت نادیده گرفته شدن در طول همه گیری ممکن است به تهدیدی برای ثبات اجتماعی منجر شود. علاوه بر این، اگرچه تعداد مقالات در دسته 6 بسیار کم است و پوشش فضایی آن نیز کم بود، رسانه های اجتماعی (مانند توییتر، فیس بوک و Weibo) بستر ارزشمندی را برای عموم مردم فراهم می کند تا به روز رسانی های مربوط به همه گیری و همه گیری را دریافت کنند. آزادانه نظرات خود را بیان کنند. رسانه های اجتماعی همچنین گاهی اوقات می توانند اطلاعات بسیار مهمی را برای پیشگیری و کنترل همه گیر ارائه دهند. بنابراین، دسته 6 نیز قابل توجه است. از منظر کشور ( و پوشش فضایی آن نیز کم بود، رسانه‌های اجتماعی (مانند توییتر، فیس‌بوک و ویبو) بستر ارزشمندی را برای عموم مردم فراهم می‌کند تا به‌روزرسانی‌های مربوط به همه‌گیری را دریافت کنند و آزادانه نظرات خود را بیان کنند. رسانه های اجتماعی همچنین گاهی اوقات می توانند اطلاعات بسیار مهمی را برای پیشگیری و کنترل همه گیر ارائه دهند. بنابراین، دسته 6 نیز قابل توجه است. از منظر کشور ( و پوشش فضایی آن نیز کم بود، رسانه‌های اجتماعی (مانند توییتر، فیس‌بوک و ویبو) بستر ارزشمندی را برای عموم مردم فراهم می‌کند تا به‌روزرسانی‌های مربوط به همه‌گیری را دریافت کنند و آزادانه نظرات خود را بیان کنند. رسانه های اجتماعی همچنین گاهی اوقات می توانند اطلاعات بسیار مهمی را برای پیشگیری و کنترل همه گیر ارائه دهند. بنابراین، دسته 6 نیز قابل توجه است. از منظر کشور (شکل 11 )، ایالات متحده، برزیل، چین، استرالیا و برخی از کشورهای اروپایی در مطالعات هر دسته شرکت کردند که نشان می دهد این کشورها قابلیت های تحقیقاتی قوی تری دارند.

4. بحث

در این تحقیق روشی را برای استخراج اطلاعات موضوعی و مکانی پیشنهاد و اجرا کردیم و سیر تحول پژوهش را تحلیل کردیم، اما محدودیت هایی وجود دارد. از منظر روش شناختی، اولاً، اگرچه دقت استخراج اطلاعات مکانی (نام کشور) از اطلاعات سازمانی نسبتاً بالا است، اما همچنان برخی خطاها وجود دارد. یکی از انواع اصلی خطاها به دلیل تطبیق نادرست با روزنامه زمانی است که یک نام یا نام مشابه در بیش از یک کشور وجود دارد. به عنوان مثال، «دانشگاه آکسفورد» نام مؤسسه‌ای است که «آکسفورد» در آن یک نام نامی است، اما «آکسفورد» را می‌توان با نام‌های متعدد متعلق به کشورهای مختلف در روزنامه GAMD، مانند بریتانیا، ایالات متحده، تطبیق داد. ایالات و نیوزلند. ما سعی خواهیم کرد این مشکل را با استفاده از تکنیک های تفکیک نام مکان حل کنیم که می تواند به رفع ابهام نام مکان ها کمک کند و در نتیجه عملکرد استخراج اطلاعات مکانی را بهبود بخشد. دوم، استخراج موضوع از برخی منظرها قابل بهبود است. به عنوان مثال، ممکن است لازم باشد متن کامل مقالات را اضافه کنیم تا اندازه مجموعه مورد استفاده را افزایش دهیم، در نتیجه اطمینان حاصل کنیم که موضوعات استخراج شده کاملاً ایده کلیدی مقالات را منعکس می‌کنند، یا سعی کنیم مدل‌های پیشرفته‌تری مانند مبتنی بر تعبیه کلمه را معرفی کنیم. مدل های موضوعی و تکنیک موازی سازی، به منظور بهبود دقت و کارایی استخراج موضوع. سوم، مقالات پزشکی بخش بزرگی از تمام مقالات در مجموعه داده مورد استفاده را تشکیل می دهند. با این حال، ما در زمینه پزشکی متخصص نیستیم و دقیقاً دانش این حوزه را درک نمی کنیم. این ممکن است منجر به مشکلاتی در طبقه بندی ذهنی موضوعات استخراج شده در این مقاله شود، از جمله این طبقه بندی ممکن است بیش از حد کلی باشد. شاید لازم باشد به استانداردهای طبقه بندی موجود رشته های پزشکی مراجعه کنیم یا از متخصصان پزشکی کمک بخواهیم تا طبقه بندی دقیق تری انجام دهیم.

از نقطه نظر تجزیه و تحلیل داده ها، موقعیت های همه گیر می تواند تحت تأثیر عوامل متعددی از جمله اقدامات پیشگیری و کنترل اتخاذ شده، میزان تمرکز جمعیت، سطح توسعه اقتصادی منطقه ای و اقلیم منطقه باشد. تکامل پژوهش نیز با عوامل بسیاری مانند سطح تحصیلات و سطح توسعه اقتصادی ارتباط تنگاتنگی دارد. این عوامل ممکن است بر همبستگی بین توسعه همه‌گیری و مطالعات مربوط به COVID-19 تأثیر بگذارد. بنابراین، ما نیاز به بررسی بیشتر همبستگی های زمانی و مکانی با در نظر گرفتن عوامل بیشتر داریم. به عنوان مثال، به جای تجزیه و تحلیل همبستگی های زمانی و مکانی به سادگی با استفاده از تعداد مقالات و تعداد موارد تایید شده، می توانیم اقدامات بیشتری را محاسبه کنیم. مانند مقدار نرمال شده آن اعداد بر اساس جمعیت هر کشور. این ممکن است منجر به نتایج همبستگی متفاوتی شود. دوم، در این مقاله، ما فقط تعداد نویسندگان مشترک هر مقاله را بر اساس کشور شمارش کردیم، که به تجزیه و تحلیل توجه دانشمندان سراسر جهان به COVID-19 کمک می کند. ما می‌توانیم وزن‌های مختلفی را با توجه به ترتیب تألیف در مقاله برای نویسندگان مشترک تعیین کنیم و سپس مشارکت‌های تحقیقاتی علمی کشورهای مختلف در مبارزه با COVID-19 را تجزیه و تحلیل کنیم.

5. نتیجه گیری ها

در این تحقیق ابتدا روشی را برای استخراج اطلاعات موضوعی و مکانی از مقالات مرتبط با کووید-19 پیشنهاد و پیاده سازی کردیم، سپس بر اساس اطلاعات استخراج شده، سیر تحول پژوهش در پاسخ به کووید-19 را به طور جامع مورد تجزیه و تحلیل قرار دادیم و به نتایج زیر رسیدیم.

از منظر زمانی، در سه ماه پس از وضعیت اضطراری COVID-19، تعداد مقالات منتشر شده روند رشد آشکاری را نشان می‌دهد و روند چرخه‌ای نسبتاً پایداری را در دوره بعدی نشان می‌دهد که اساساً با توسعه COVID-19 سازگار است. -19. از نظر دیدگاه فضایی، بیشتر نویسندگانی که در تحقیقات مرتبط شرکت کردند در ایالات متحده، چین، ایتالیا، بریتانیا، اسپانیا، هند و فرانسه متمرکز هستند. در عین حال، با گسترش مداوم COVID-19 در سراسر جهان، توزیع تعداد نویسندگان به تدریج افزایش یافته است، که نشان می دهد تعداد نویسندگان با شدت COVID-19 در مقیاس فضایی همبستگی مثبت دارد. از منظر موضوع، مطالعات مربوط به COVID-19 را می توان به هشت دسته تقسیم کرد. در مراحل اولیه اورژانس COVID-19، تحقیقات مرتبط عمدتاً بر منشاء و شناسایی ژنی ویروس متمرکز بود. پس از اعلام وضعیت اضطراری بیماری همه گیر، برخی مطالعات مشتق شده مانند تشخیص و تجزیه و تحلیل سلامت روانی، امنیت شخصی و درگیری خشونت آمیز اضافه شد. این دو مقوله برای ارتقای قابلیت های پیشگیری و کنترل بسیار مهم هستند که پیشنهاد می شود به این موضوعات پژوهشی توجه بیشتری شود. از آنجا که برخی از مقوله ها بیشترین ارتباط را با کنترل و پیشگیری از اپیدمی دارند، مانند تجزیه و تحلیل پاتولوژی، تشخیص و درمان. وضعیت اپیدمی و راهبردهای مقابله؛ و پیش بینی و ارزیابی وضعیت اپیدمی. از این رو، در اکثر دوره های زمانی، اکثریت مطالعات بر روی این سه مقوله متمرکز بوده است.

در ادامه کار، از تکنیک های پیشرفته تری برای حل مشکلات موجود در روش خود استفاده خواهیم کرد، مانند ابهام زدایی از نام ها، استخراج موضوع با دقت و کارایی بالاتر و طبقه بندی موضوعات با دانه بندی دقیق تر. علاوه بر این، مجموعه داده‌های جدیدی را اضافه خواهیم کرد تا رابطه بین تکامل تحقیقات مرتبط و همه‌گیری را بیشتر بررسی کنیم.

منابع

که. داشبورد بیماری کرونا (COVID-19). 2020. در دسترس آنلاین: https://covid19.who.int/ (در 1 مارس 2021 قابل دسترسی است).
ژانگ، ی. چن، ام. لیو، ال. مروری بر متن کاوی. در مجموعه مقالات ششمین کنفرانس بین المللی IEEE در سال 2015 در زمینه مهندسی نرم افزار و علم خدمات (ICSESS)، پکن، چین، 23 تا 25 سپتامبر 2015. IEEE: نیویورک، نیویورک، ایالات متحده آمریکا، 2015؛ صص 681-685. [ Google Scholar ]
تان، A.-H. متن کاوی: وضعیت هنر و چالش ها. در مجموعه مقالات کارگاه آموزشی پاکد در مورد کشف دانش از پایگاه های داده پیشرفته، پکن، چین، 26 تا 28 آوریل 1999. [ Google Scholar ]
وانگ، ز. بله، X. Tsou، MH تجزیه و تحلیل فضایی، زمانی و محتوای توییتر برای خطرات آتش سوزی جنگلی. نات. خطرات 2016 ، 83 ، 523-540. [ Google Scholar ] [ CrossRef ]
یین، جی. لامپرت، ا. کامرون، ام. رابینسون، بی. Power, R. استفاده از رسانه های اجتماعی برای افزایش آگاهی از موقعیت های اضطراری. IEEE Intell. سیستم 2012 ، 27 ، 52-59. [ Google Scholar ] [ CrossRef ]
بلنفورد، جی. برنهارت، جی. ساولیف، آ. وونگ پارودی، جی. کارلتون، AM; Titley، DW; MacEachren، AM توییت و گردباد. در مجموعه مقالات یازدهمین کنفرانس بین المللی ISCRAM، دانشگاه پارک، PA، ایالات متحده آمریکا، 18-21 مه 2014. صص 319-323. [ Google Scholar ]
Fung، IC-H. فو، K.-W. یینگ، ی. Schaible، BJ; هائو، ی. چان، سی.-اچ. Tse، ZT-H. واکنش رسانه های اجتماعی چین به شیوع MERS-CoV و آنفولانزای پرندگان A(H7N9). آلوده کردن دیس Poverty 2013 , 2 , 31. [ Google Scholar ] [ CrossRef ] [ PubMed ][ نسخه سبز ]
جویدن، سی. آیزنباخ، جی. همه‌گیری‌ها در عصر توییتر: تحلیل محتوای توییت‌ها در طول شیوع H1N1 در سال 2009. PLoS ONE 2010 ، 5 ، e14118. [ Google Scholar ] [ CrossRef ] [ PubMed ]
Cvetojevic، S. Hochmair، HH در حال تجزیه و تحلیل انتشار توییت ها در پاسخ به حملات پاریس. محاسبه کنید. محیط زیست سیستم شهری 2018 ، 71 ، 14-26. [ Google Scholar ] [ CrossRef ]
Blei، DM; Ng، AY؛ جردن، MI نهفته دیریکله تخصیص. جی. ماخ. فرا گرفتن. Res. 2003 ، 3 ، 993-1022. [ Google Scholar ]
هان، ایکس. وانگ، جی. ژانگ، ام. وانگ، ایکس. استفاده از رسانه‌های اجتماعی برای استخراج و تحلیل افکار عمومی مرتبط با کووید-۱۹ در چین. بین المللی جی. محیط زیست. Res. بهداشت عمومی 2020 ، 17 ، 2788. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
بله، X. لی، اس. یانگ، ایکس. Qin, C. استفاده از رسانه های اجتماعی برای تشخیص و تجزیه و تحلیل بیماری های عفونی در چین. ISPRS Int. J. Geo Inf. 2016 ، 5 ، 156. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
لیو، کیو. ژنگ، ز. ژنگ، جی. چن، کیو. لیو، جی. چن، اس. چو، بی. زو، اچ. آکینونمی، بی. هوانگ، جی. و همکاران ارتباطات سلامت از طریق رسانه های خبری در مرحله اولیه شیوع COVID-19 در چین: رویکرد مدل سازی موضوع دیجیتال. جی. مد. Internet Res. 2020 ، 22 ، e19118. [ Google Scholar ] [ CrossRef ]
عبادی، ع. شی، پی. ترمبلی، اس. اسپنسر، بی. پال، آر. Wong, A. درک تکامل زمانی تحقیقات COVID-19 از طریق یادگیری ماشینی و پردازش زبان طبیعی. Scientometrics 2021 ، 126 ، 725-739. [ Google Scholar ] [ CrossRef ] [ PubMed ]
الگا، آ. اریکسون، او. نوردبرگ، ام. تجزیه و تحلیل انتشارات علمی در مرحله اولیه همه‌گیری COVID-19: مطالعه مدل‌سازی موضوعی. جی. مد. Internet Res. 2020 ، 22 ، e21559. [ Google Scholar ] [ CrossRef ] [ PubMed ]
ژانگ، ی. کای، ایکس. سرخ کردن، CV; وو، ام. واگنر، سی. تکامل موضوع، اختلال و انعطاف پذیری در تحقیقات اولیه COVID-19. الکترون SSRN. J. 2020 , 10 . [ Google Scholar ] [ CrossRef ]
فن، MH; چن، من؛ لیائو، EC یک رویکرد یادگیری عمیق برای پیش‌بینی بازار مالی: استفاده از روندها و کلمات کلیدی Google. گرانول. محاسبه کنید. 2021 ، 6 . [ Google Scholar ] [ CrossRef ]
وو، جی.-سی. تائو، اس.-اس. ژائو، سی.-ن. مائو، ی.-م. وو، کیو. دان، Y.-L. پان، H.-F. اصلاح: استفاده از Google Trends برای بررسی علاقه عمومی جهانی به آرتریت روماتوئید. روماتول. بین المللی 2019 ، 39 ، 1445. [ Google Scholar ] [ CrossRef ] [ نسخه سبز ]
ایوب زاده، س.م. زاهدی، ح. احمدی، م. کلهری، SRN پیش بینی بروز COVID-19 با استفاده از Google Trends و تکنیک های داده کاوی: یک مطالعه آزمایشی در ایران (پیش چاپ). JMIR Public Health 2020 , 6 . [ Google Scholar ] [ CrossRef ]
Ngoc، HN; کرینگسینیوس، دبلیو. تأثیرات همه‌گیری COVID-19 و قفل شدن آن بر رفتار جهانی خوردن: تحلیل روندهای Google. پیش چاپ 2020 . [ Google Scholar ] [ CrossRef ]
جادوگران فعال مقایسه 6 کتابخانه برتر Python NLP. 2018. در دسترس آنلاین: https://www.kdnuggets.com/2018/07/comparison-top-6-python-nlp-libraries.html (در 1 مارس 2021 قابل دسترسی است).
بریمن، ال. جنگل تصادفی. ماخ فرا گرفتن. 2001 ، 45 ، 5-32. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
پال، M. طبقه بندی جنگل تصادفی برای طبقه بندی سنجش از دور. بین المللی J. از راه دور. Sens. 2005 , 26 , 217-222. [ Google Scholar ] [ CrossRef ]
دونگ، ی. دو، بی. Zhang، L. تشخیص هدف بر اساس یادگیری متریک جنگل تصادفی. IEEE J. Sel. بالا. Appl. زمین Obs. Remote Sens. 2015 ، 8 ، 1830-1838. [ Google Scholar ] [ CrossRef ]
اسلام، MZ; لیو، جی. لی، جی. لیو، ال. Kang, W. A Semantics Aware Random Forest برای طبقه بندی متن. در مجموعه مقالات بیست و هشتمین کنفرانس بین المللی ACM، پکن، چین، 3 تا 7 نوامبر 2019. [ Google Scholar ]
گریفیث، TL; استیورز، ام. یافتن موضوعات علمی. Proc. Natl. آکادمی علمی ایالات متحده آمریکا 2004 ، 101 ، 5228-5235. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
بودا، ا. Jarynowski، A. زمان زندگی همبستگی ها و کاربردهای آن . ABRASCO—Associação Brasileira de Saúde Coletiva: ریودوژانیرو، برزیل، 2010; جلد 1. [ Google Scholar ]
کندال، ام. اندازه گیری جدید همبستگی رتبه. Biometrika 1938 ، 30 ، 81-89. [ Google Scholar ] [ CrossRef ]
Baezayates, R.; Ribeironeto, B. Modern Information Retrieval ; ACM Press: نیویورک، نیویورک، ایالات متحده آمریکا، 1999. [ Google Scholar ]
سوجین، ال. Trang، NM پیشرفت‌های اخیر کمک‌های واکسن برای بیماری‌های عفونی. شبکه ایمنی 2015 ، 15 ، 51-57. [ Google Scholar ] [ CrossRef ][ نسخه سبز ]
هایاشی، تی. یاگاشی، ن. کونیشی، دوره اول کووید-19، اثر پیشگیرانه عدم حضور در برابر عفونت همزمان ویروس آنفلوانزای فصلی و SARS-CoV-2. Medrxiv 2020 . [ Google Scholar ] [ CrossRef ]

شکل 1. فرآیند استخراج اطلاعات مکانی.

شکل 2. فرآیند استخراج و طبقه بندی موضوع.

شکل 3. منحنی های مقایسه بین تعداد تجمعی موارد تایید شده و تعداد تجمعی مقالات. علامت * در این شکل سال 2021 را نشان می دهد.

شکل 4. منحنی های مقایسه بین تعداد موارد تایید شده جدید و تعداد مقالات جدید منتشر شده در سطح ماهانه. علامت * در این شکل سال 2021 را نشان می دهد.

شکل 5. منحنی مقایسه بین تعداد موارد تایید شده جدید و تعداد مقالات جدید منتشر شده در سطح روزانه.

شکل 6. توزیع فضایی ( الف ) تعداد تجمعی نویسندگان و ( ب ) تعداد تجمعی موارد تایید شده.

شکل 7. مقایسه توزیع های مکانی در سطح ماهانه: ( الف ) تعداد نویسندگان و ( ب ) تعداد موارد تایید شده.

شکل 8. موضوعات استخراج شده از مقالات به تفکیک ماه (به دلیل فضای محدود، فقط برخی از موضوعات و واژگان ذکر شده است). علامت * در این شکل سال 2021 را نشان می دهد.

شکل 9. منحنی علاقه جستجو در طول زمان در Google Trends تغییر می کند.

شکل 10. نمودار دایره ای نسبت های هر دسته از مقالات.

شکل 11. توزیع فضایی تعداد نویسندگانی که در هر موضوع شرکت کردند.

مقالات داخلی و بین المللی

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

مشاورین هوش پیروزی

چکیده

کلید واژه ها:

1. مقدمه

2. داده ها و روش ها

2.1. داده ها و پیش پردازش داده ها

2.2. مواد و روش ها

2.2.1. استخراج اطلاعات مکانی

2.2.2. استخراج و طبقه بندی موضوع

2.2.3. محاسبه همبستگی

2.2.4. ارزیابی نتایج

3. نتایج و تجزیه و تحلیل

3.1. نتایج

3.2. تحلیل زمانی

3.2.1. تحلیل زمانی در سطح کلی

3.2.2. تجزیه و تحلیل زمانی در سطح ماهانه

3.2.3. تحلیل زمانی در سطح روزانه

3.3. تحلیل فضایی

3.3.1. تحلیل فضایی در سطح کلی

3.3.2. تحلیل فضایی در سطح ماهانه

3.4. تحلیل موضوع

3.4.1. تجزیه و تحلیل موضوعات استخراج شده به تفکیک ماه

3.4.2. تحلیل فضایی موضوعات

4. بحث

5. نتیجه گیری ها

منابع

قبلیبهبود پیش‌بینی بازده توت فرنگی با ادغام تصاویر سایه‌بان زمینی در رویکردهای مدل‌سازی

بعدیگردش کار کشاورزی دقیق، از جمع آوری داده ها تا مدیریت داده ها با استفاده از ابزارهای FOSS: یک برنامه کاربردی در تاکستان شمال ایتالیا

مطالب مرتبط ...

آموزش مقاله نویسی در رشته ادبیات فارسی

تأثیر همسایگی درونیابی DEM بر عوامل زمین

رگرسیون وزنی جغرافیایی تطبیقی ​​غیر منفی برای تخمین تراکم جمعیت بر اساس نور شب

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ

درباره سرزمین فناوری مکانی GISLAND

دسترسی سریع

اطلاعات

خبرنامه

خبرنامه

درباره سرزمین فناوری مکانی GISLAND

دسترسی سریع

اطلاعات

دسترسی سریع

رگرسیون وزنی جغرافیایی تطبیقی غیر منفی برای تخمین تراکم جمعیت بر اساس نور شب