فلسفه علم

کمّی کردنِ کیفیتِ پژوهش‌هایِ علمی: به بهانه «شبکه جهانی پایتون»

قانون اقتصاد گودهارت به ما هشدار می‌دهد که از لحظه‌ای که یک شاخص تبدیل به هدف می‌شود، دیگر شاخص مناسبی محسوب نمی شود. دلیل آن نیز این است که آنهایی که با معیار این شاخص برنده یا بازنده می‌شوند سریعاً با قربانی کردن اهداف مهم دیگر در مسیر خویش که قابل سنجش نیز نیستند متوسل به کلاه گذاشتن بر سر نظام مذکور می شوند تا به هدف خود دست یابند.

نخستین نشانۀ انقلاب شاخص‌ها با انتشار «شاخص‌های ارجاعات در علم» توسط یوجین گارفیلد در مجلۀ Science در سال ۱۹۵۵ ظهور کرد.

شکل جدید ضریب تأثیر یک مجله‌ی (و نه مقاله) فرضی برای سال ۱۴۰۱ اینگونه محاسبه می‌شود: ابتدا تعداد کل مقالاتی که در هر مجله‌ای در سال ۱۴۰۱ منتشر شده‌اند و به مقالات منتشر شده در مجله مذکور در دو سال گذشته (۱۴۰۰ و ۱۳۹۹) ارجاع داده‌اند محاسبه می‌شود. سپس تعداد کل مقالات مجله مذکور در همان دو سال (یعنی ۱۴۰۰ و ۱۳۹۹) محاسبه می‌شود و در نهایت نسبت عدد نخست به عدد دوم محاسبه می‌گردد و اینگونه شاخص ضریب تاثیر مجله محاسبه می‌شود. اما چرا سنجشِ ارزشِ کاریِ پژوهش‌گران بر مبنای شاخص تعداد ارجاعات در سطح مجله مشکل‌زاست؟ نگرانی نخست در ویژگی‌های آماری توزیع ارجاعات نهفته است.

بیشتر ارجاعات در مجلات توسط اقلیتی از مقالات تولید می‌شوند، پدیده ای که خود گارفیلد آن را«قانون ۲۰/۸۰» می نامد: در تمام حوزه‌های علمی، حدود ۸۰ درصد ارجاعات را ۲۰ درصد مقالات دریافت می‌کنند. همین مسأله منجر به چولگی راست توزیع ارجاعات می‌شود. در چنین حالتی بیشتر مقالات ارجاع اندکی دریافت کرده‌اند در حالی که اقلیتی پراکنده ارجاعات بسیاری دریافت کرده‌اند. بنابراین شاخص تاثیر مجله (Journal Impact Factor) شاخص ضعیفی از گرایش مرکزی است چرا که بازنمایندۀ تعداد اندکی از افراد در جمعیت است. این بدان معناست که انتشار مقاله در مجلات با ضریب تأثیر بالا هیچ تضمینی بر این نیست که مقاله منتشر شده در آن مجله لزوما ارجاعات بالایی دریافت کرده است همانطور که انتشار مقاله در مجلات کمتر شناخته شده به هیچ عنوان به این معنا نیست که مقاله محکوم به گمنامی است.

نکتۀ نگران کننده اما این است که ضریب تاثیر مجله با یک شاخص دیگر همبستگی مثبت دارد: میزان مقالات پس گرفته شده به دلیل تقلب یا شک به تقلب. به جای اینکه به مجلاتی همچون Nature و Science به عنوان مجلاتی با «ضریب تأثیر بالا» اشاره کنیم دقیق‌تر آن است که آنها را مجلاتی «با تعداد بالای مقالات پس گرفته شده» بنامیم.

مشکل بعدی این است که ضریب تاثیر مجله توسط سردبیران و ناشران به راحتی دستکاری می‌شود. یک راهبرد این است که مجله در اوایل سال مقالاتی را چاپ کند که پیش‌بینی می‌کند تعداد ارجاعات زیادی دریافت می‌کند (همچون مقالات مروری). اینگونه به این مقالات زمان بیشتری داده می‌شود تا در طول دو سالی که در محاسبۀ ضریب تاثیر مجله محسوب می شوند ارجاعات بیشتری جمع کنند. به همین دلیل، در مورد مجلات روانشناسی اصلاً بی‌سابقه نیست که به دلایل راهبردی انتشار مقالاتی که بالقوه «هدف‌زنندگان بزرگ» (heavy hitters) محسوب می‌شوند را تا آغاز سال بعد به تأخیر بیندازند.

راهبرد موذیانه‌تر عبارت است از انتشار سرمقالاتی از سوی مجله که بیش از حد به مقالات منتشر شده در همان مجله ارجاع می‌دهند یا اینکه سردبیران، مؤلفانی که به مجله مقاله ارسال کرده‌اند را تشویق به چنین کاری ‌کنند. چنین شیوه‌هایی به حق ناپسندیده انگاشته می‌شوند اما معمولا از تور بررسی‌های دقیق عبور می‌کنند.

حتی اگر خطاهای آماری و آسیبپذیری ضریب تاثیر مجله نسبت به دستکاری را به کناری نهیم کارآیی ضریب تاثیر مجله با در نظر گرفتن این واقعیت که به طور قراردادی و نه عینی تعریف و محاسبه می‌شود زیر سؤال می‌رود. مجلات می‌توانند با شرکتی که ضریب تاثیر مجله را تعیین می‌کند (تامس رویترز) لابی کنند تا در محاسبۀ ضریب تاثیر مجله تعداد مقالات قابل ارجاع را کاهش دهد و اینگونه ضریب تاثیر مجله را به طور مصنوعی افزایش دهد.

در سال ۲۰۰۶ ویراستاران PLOS Medicine مجموعه ملاقات‌های رودررو، تماس‌های تلفنی و ایمیل‌های قابل توجهی را توصیف کردند که نشان می‌داد برای تعیین ضریب تاثیر مجله در سال ۲۰۰۵ چانه زنی می‌کردند. بسته به اینکه چه مقالاتی قابل ارجاع تلقی می‌شدند ضریب تاثیر مجله محاسبه شده بین ۳ تا ۱۱ در نوسان بود دامنه‌ای که به جد رتبه‌بندی ضریب تاثیر مجلۀ منتشر شده را تحت تأثیر قرار می دهد.

سردبیران به شدت از فرایند مذکور که مبهم و دلخواه بود دلزده شده بودند و در نهایت چنین نتیجه‌گیری کردند که «علم در حال حاضر از رهگذر فرایندی که خود غیرعلمی، سلیقه‌ای و ناشفاف است رتبه‌بندی می‌شود.»^۹ علاوه بر این در سال ۲۰۱۳، بیورن برمبز، کیت باتن و مارکوس مونافو متوجه شدند که ضریب تاثیر مجلۀ Current Biology چگونه با جهش ۷۰ درصدی از ۷ در سال ۲۰۰۲ به ۹/۱۱ در سال ۲۰۰۳ افزایش پیدا کرد. دلیل این امر آن نبود که تعداد ارجاعات به طور معناداری افزایش پیدا کرده بود بلکه به خاطر آن بود که تعداد مقالات قابل ارجاع در سال ۲۰۰۱ مخفیانه از ۵۲۸ به ۳۰۰ کاهش پیدا کرده بود.

حتی اگر ضریب تاثیر مجله شاخص تعداد ارجاعات در سطح مقاله بود (که البته نیست) آیا پذیرفتن این فرض که تعداد ارجاعاتی که یک مقاله دریافت می‌کند بازتابی از ارزش مشارکت آن در علم است پذیرفتنی است؟ به عبارت دیگر، تا چه حد کیفیت علم در ارتباط با اقبالِ عمومیِ موقت است؟ در راستای آزمون این ایده که بازتولیدْ (reproducibility) با ضریب تاثیر مجله همبستگی دارد – و در نتیجه شأن و اعتبار مقاله دست کم پیش‌بینی‌کنندۀ یکی از مقیاس‌های کیفیت مطالعه است – بیورن برمبز و همکارانش رابطۀ بین ضریب تاثیر مجله و توان آماری را بررسی کردند.

نتایج پژوهش نشان داد که توان آماری ۶۵۰ مطالعه در علوم اعصاب هیچ رابطه‌ای با ضریب تاثیر مجلاتی که آن مقالات در آنها منتشر شده بودند نداشتند. این بخشی از مشکل وسواس دوره مدرن به کمی‌کردن همه چیز است. اینکه فلانی فلان قدر به مقاله‌اش ارجاع داده‌اند یا نداده‌اند دلیل بر کیفیت کارش نیست. اگر وقت بود بیش از اینها در مورد مشکلات جامعه علمی می‌نوشتم تا بلکه فتیش عده‌ای ناظر به چاپ مقاله (بله چاپ مقاله) آنهم در مجلات با ضریب تاثیر بالا اندکی فروکش کند (که البته نمی‌کند).

نه مقاله داشتن معیار دانش است و نه مقاله داشتن در مجلات با ضریب تاثیر بالا. عیوب شاخص‌های دیگر هم بماند برای بعد. برسانید به دست آنها که علاقمندند.

ترجمه و تلخیص از کتاب «هفت گناه مرگبار روانشناسی»، نوشته کریس چِیمبرز، استاد علوم اعصاب دانشگاه کاردیف

اگر پسندیدید؛ به‌اشتراک بگذارید!

نیما اورازانی

دکترای روانشناسی اجتماعی/سیاسی از دانشگاه ماساچوست-امهرست (آمریکا) و دانشگاه کارلتون (کانادا) هستم. هم‌اکنون در دانشگاه کارلتون به پژوهش و تدریس در همین زمینه مشغولم.

کمّی کردنِ کیفیتِ پژوهش‌هایِ علمی: به بهانه «شبکه جهانی پایتون»

اگر پسندیدید؛ به‌اشتراک بگذارید!

نیما اورازانی

دیدگاه‌ خود را بنویسید لغو پاسخ