اورشلیم، ۱۳ مه ۲۰۲۵ (تیپیاس-ایل) — تیمی از پژوهشگران دانشگاه بنگوریون نقب، پایگاه داده جدیدی را برای سنجش توانایی مدلهای زبان هوش مصنوعی در تشخیص موارد پیچیده پزشکی ابداع کردهاند. یافتههای آنها که در انجمن پیشبرد هوش مصنوعی در فیلادلفیا ارائه شد، نشان میدهد که مدلهای عمومی، مانند GPT-4o، ممکن است مؤثرتر از مدلهای طراحیشده بهطور خاص برای پزشکی باشند.
بهطور سنتی، مدلهای زبان هوش مصنوعی بر روی موارد پزشکی سادهتر، مانند سؤالات امتحانی یا بیماریهای رایج، آزمایش شدهاند. با این حال، این مدلها بر روی موارد پیچیده و واقعی که پزشکان اغلب با آنها روبرو میشوند، ارزیابی نشده بودند. برای پر کردن این شکاف، پژوهشگران پایگاه دادهای شامل ۳,۵۶۲ گزارش موردی پزشکی از مجله BMC گزارشهای موردی پزشکی را ساختند که شامل توصیفات دقیقی از موارد پزشکی غیرمعمول و تشخیصهای آنها بود. موارد با استفاده از سؤالات چندگزینهای و تشریحی ارائه شدند که سناریوهای تشخیصی واقعی را تقلید میکرد.
نتایج شگفتآور بود. GPT-4o، یک مدل زبان عمومی، در تشخیص این موارد پیچیده، بهتر از مدلهای پزشکی مانند Meditron-70B و MedLM-Large عمل کرد. GPT-4o در سؤالات چندگزینهای به دقت ۸۷.۹ درصد و در سؤالات تشریحی به دقت ۷۶.۴ درصد دست یافت و از مدلهای تخصصی پیشی گرفت.
اوفیر بن-شوهام، یکی از پژوهشگران، گفت: «ما از دیدن اینکه مدلهای عمومی، مانند GPT-4o، بهتر از مدلهای تطبیقیافته برای پزشکی عمل کردند، شگفتزده شدیم. ما نشان دادیم که مدلهای زبان بزرگ میتوانند برای تشخیص موارد پیچیده پزشکی مورد استفاده قرار گیرند.»
این پژوهش از آن جهت حائز اهمیت است که نشان میدهد مدلهای هوش مصنوعی مانند GPT-4o میتوانند به تشخیص کارآمدتر شرایط پزشکی چالشبرانگیز کمک کنند. پایگاه داده CUPCase که این تیم ایجاد کرده است، میتواند به ابزاری ارزشمند برای آزمایش مدلهای جدید هوش مصنوعی در آینده تبدیل شود. این پایگاه داده برای استفاده باز است و با افزودن موارد جدید با توسعه مدلهای تازه، قابل گسترش است.
اوریل پرتس، دانشجوی دکترا، گفت: «هدف این بود که سیستمی ایجاد شود که بتواند ارزیابی کند مدلهای زبان تا چه حد موارد پیچیده واقعی را تشخیص میدهند، نه فقط موارد رایج را.»
دکتر ناداو رپوپورت، یکی دیگر از اعضای تیم پژوهشی، توضیح داد که تشخیص موارد پیچیده میتواند فرآیندی طولانی و نامشخص باشد که منجر به تأخیر و هزینههای بالاتر برای بیماران میشود. پایگاه داده CUPCase با ارائه موارد واقعی و دقیق، میتواند به تسریع این فرآیند و بهبود مراقبت از بیمار کمک کند.
این پژوهش چندین کاربرد عملی در مراقبتهای بهداشتی دارد، عمدتاً از طریق بهبود سرعت و دقت تشخیصهای پزشکی. مدلهای هوش مصنوعی مانند GPT-4o میتوانند به پزشکان در تشخیص سریعتر موارد پیچیده پزشکی کمک کنند، تأخیر در تشخیص را کاهش داده و نتایج بیماران را بهبود بخشند. پایگاه داده CUPCase، با مجموعهای از موارد واقعی، میتواند به عنوان یک ابزار پشتیبانی تصمیمگیری بالینی ارزشمند عمل کند و به پزشکان در تصمیمگیریهای دقیقتر، بهویژه برای موارد دشوار یا نادر، کمک کند.
علاوه بر این، مدل هوش مصنوعی میتواند در آموزش متخصصان پزشکی با ارائه منبعی تعاملی برای یادگیری فرآیندهای تشخیصی پیچیده، یاریرسان باشد.
ابزارهای مبتنی بر هوش مصنوعی همچنین میتوانند دسترسی به پشتیبانی تشخیصی در سطح تخصصی را در مناطق محروم که ممکن است متخصصان محدودی داشته باشند، گسترش دهند. در محیطهای مراقبتهای ویژه، مدلهای هوش مصنوعی میتوانند پشتیبانی تشخیصی بیدرنگ ارائه دهند.









