مدل‌های زبان هوش مصنوعی در تشخیص موارد پیچیده از مدل‌های پزشکی بهتر عمل می‌کنند، به گفته دانشمندان

اورشلیم، ۱۳ مه ۲۰۲۵ (تی‌پی‌اس-ایل) — تیمی از پژوهشگران دانشگاه بن‌گوریون نقب، پایگاه داده جدیدی را برای سنجش توانایی مدل‌های زبان هوش مصنوعی در تشخیص موارد پیچیده پزشکی ابداع کرده‌اند. یافته‌های آن‌ها که در انجمن پیشبرد هوش مصنوعی در فیلادلفیا ارائه شد، نشان می‌دهد که مدل‌های عمومی، مانند GPT-4o، ممکن است مؤثرتر از مدل‌های طراحی‌شده به‌طور خاص برای پزشکی باشند.

به‌طور سنتی، مدل‌های زبان هوش مصنوعی بر روی موارد پزشکی ساده‌تر، مانند سؤالات امتحانی یا بیماری‌های رایج، آزمایش شده‌اند. با این حال، این مدل‌ها بر روی موارد پیچیده و واقعی که پزشکان اغلب با آن‌ها روبرو می‌شوند، ارزیابی نشده بودند. برای پر کردن این شکاف، پژوهشگران پایگاه داده‌ای شامل ۳,۵۶۲ گزارش موردی پزشکی از مجله BMC گزارش‌های موردی پزشکی را ساختند که شامل توصیفات دقیقی از موارد پزشکی غیرمعمول و تشخیص‌های آن‌ها بود. موارد با استفاده از سؤالات چندگزینه‌ای و تشریحی ارائه شدند که سناریوهای تشخیصی واقعی را تقلید می‌کرد.

نتایج شگفت‌آور بود. GPT-4o، یک مدل زبان عمومی، در تشخیص این موارد پیچیده، بهتر از مدل‌های پزشکی مانند Meditron-70B و MedLM-Large عمل کرد. GPT-4o در سؤالات چندگزینه‌ای به دقت ۸۷.۹ درصد و در سؤالات تشریحی به دقت ۷۶.۴ درصد دست یافت و از مدل‌های تخصصی پیشی گرفت.

اوفیر بن-شوهام، یکی از پژوهشگران، گفت: «ما از دیدن اینکه مدل‌های عمومی، مانند GPT-4o، بهتر از مدل‌های تطبیق‌یافته برای پزشکی عمل کردند، شگفت‌زده شدیم. ما نشان دادیم که مدل‌های زبان بزرگ می‌توانند برای تشخیص موارد پیچیده پزشکی مورد استفاده قرار گیرند.»

این پژوهش از آن جهت حائز اهمیت است که نشان می‌دهد مدل‌های هوش مصنوعی مانند GPT-4o می‌توانند به تشخیص کارآمدتر شرایط پزشکی چالش‌برانگیز کمک کنند. پایگاه داده CUPCase که این تیم ایجاد کرده است، می‌تواند به ابزاری ارزشمند برای آزمایش مدل‌های جدید هوش مصنوعی در آینده تبدیل شود. این پایگاه داده برای استفاده باز است و با افزودن موارد جدید با توسعه مدل‌های تازه، قابل گسترش است.

اوریل پرتس، دانشجوی دکترا، گفت: «هدف این بود که سیستمی ایجاد شود که بتواند ارزیابی کند مدل‌های زبان تا چه حد موارد پیچیده واقعی را تشخیص می‌دهند، نه فقط موارد رایج را.»

دکتر ناداو رپوپورت، یکی دیگر از اعضای تیم پژوهشی، توضیح داد که تشخیص موارد پیچیده می‌تواند فرآیندی طولانی و نامشخص باشد که منجر به تأخیر و هزینه‌های بالاتر برای بیماران می‌شود. پایگاه داده CUPCase با ارائه موارد واقعی و دقیق، می‌تواند به تسریع این فرآیند و بهبود مراقبت از بیمار کمک کند.

این پژوهش چندین کاربرد عملی در مراقبت‌های بهداشتی دارد، عمدتاً از طریق بهبود سرعت و دقت تشخیص‌های پزشکی. مدل‌های هوش مصنوعی مانند GPT-4o می‌توانند به پزشکان در تشخیص سریع‌تر موارد پیچیده پزشکی کمک کنند، تأخیر در تشخیص را کاهش داده و نتایج بیماران را بهبود بخشند. پایگاه داده CUPCase، با مجموعه‌ای از موارد واقعی، می‌تواند به عنوان یک ابزار پشتیبانی تصمیم‌گیری بالینی ارزشمند عمل کند و به پزشکان در تصمیم‌گیری‌های دقیق‌تر، به‌ویژه برای موارد دشوار یا نادر، کمک کند.

علاوه بر این، مدل هوش مصنوعی می‌تواند در آموزش متخصصان پزشکی با ارائه منبعی تعاملی برای یادگیری فرآیندهای تشخیصی پیچیده، یاری‌رسان باشد.

ابزارهای مبتنی بر هوش مصنوعی همچنین می‌توانند دسترسی به پشتیبانی تشخیصی در سطح تخصصی را در مناطق محروم که ممکن است متخصصان محدودی داشته باشند، گسترش دهند. در محیط‌های مراقبت‌های ویژه، مدل‌های هوش مصنوعی می‌توانند پشتیبانی تشخیصی بی‌درنگ ارائه دهند.