۴٫۲٫ آموزش الگوریتم
این آموزش به دو طبقهبندی میپردازد: اول، مشکل دوتایی برای تشخیص بافت طبیعی از بافت تومور که در آن درجههای متوسط و بالا در کنار هم قرار گرفتهاند و بهعنوان یک کلاس منحصربهفرد در برابر این کلاس که فقط نمونههایی از سرطان درجه پایین را شامل میشود، در نظر گرفته شده است، و دوم، مشکل سه طبقه سه طبقه بندی بافت ها به بافت نرمال، سرطان با درجه پایین و سرطان درجه بالا. از آنجایی که تمام رویکردهای قبلی از اعتبارسنجی متقابل تقسیم یکسان برای جلوگیری از نشت داده استفاده میکردند (یعنی وصلههای هر موضوع بدون استفاده از موضوع برای آموزش یا آزمایش در یک قسمت قرار داشتند)، ما از اعتبارسنجی متقاطع سهگانه برای مقایسه عادلانه رویکردهای موجود
برای جلوگیری از برازش بیش از حد، ما ۹۲ میدان دید را برای تا ۱، ۹۲ میدان دید را برای تا ۲، و ۸۹ میدان دید را برای تا ۳ تقسیم کردیم. از هر میدان دید، ۲۲۴ × ۲۲۴ پیکسل غیر همپوشانی با سایز ۱۶ وصله استخراج کردیم که با توجه به برچسب میدان بصری مربوطه یا پس زمینه برچسب گذاری شده است. سپس از اینها به عنوان ورودی برای استراتژیهای یادگیری ماشینی بعدی با اندازه دستهای ۱۶ استفاده شد.
جدول ۳. ما تقریباً ۱۱٪ از وصلههای نشاندهنده دخمهها یا lamina propria را به دلیل محتوای آموزنده نامربوط آنها از تجزیه و تحلیل بیشتر حذف کردیم. این دستههای پسزمینه دارای مقدار متوسط رادیومتری بالاتر از ۲۳۵ در کانالهای سه رنگ بودند و در تصاویر سفید به نظر میرسیدند.
معیارهای مورد استفاده برای ارزیابی عبارت بودند از دقت متوسط که به درصد طبقهبندی صحیح میدانهای دیداری اشاره دارد و دقت وزنی که مجموع دقتهای هر کلاس وزنشده با تعداد نمونههای آن کلاس است. برای هر برابر j در محدوده [۱,
k] (
ک = ۳ در آزمایشهای زیر)، میانگین دقت به صورت زیر محاسبه شد:
به طور مشابه، دقت وزنی به عنوان میانگین محاسبه شد
جایی که ج تعداد کلاس ها (۲ یا ۳) را نشان می دهد. تعداد عناصر کلاس است منو تعداد موارد مثبت واقعی برای کلاس است من. هنگامی که وصله ها با معماری های ResidualNet، DenseNet، Squeeze-and-ExcitationNet، و EfficientNet تجزیه و تحلیل شدند، ما آنها را با مجموعه Max-Voting ترکیب کردیم تا نتیجه پیش بینی را بهبود بخشیم.
در فرآیند آموزش، ابتدا طبقهبندی میانگین و وزنی مسائل سه کلاسه باینری و سه تایی و سپس واریانس امتیازهای تاشو روی مجموعه داده توسعهیافته CRC را تحلیل کردیم.
جدول ۴).
ResNet50 به عنوان یک ابزار PIVOT برای تأیید اجرای فرآیند پردازش داده ها استفاده شد. مدلهای EfficientNet-B2 و DenseNet121 بالاترین امتیازات دقت را برای مسائل سه کلاسه باینری و سه تایی نشان دادند. زمان آموزش برای EfficientNet-B2 477 دقیقه، برای DenseNet121 746 دقیقه، برای EfficientNet-B0 224 دقیقه، برای EfficientNet-B1 452 دقیقه، برای EfficientNet-B3 481 دقیقه، برای EfficientNet-B4 518 دقیقه، برای EfficientNet-B5 677 دقیقه، برای EfficientNet-B7 1188 دقیقه، برای ResidualNet50 276 دقیقه، برای ResidualNet152 493 دقیقه، و برای Squeeze-and-ExcitationNet-ResidualNet50 4496 دقیقه.
در مرحله بعد، ما طبقه بندی و درجه بندی را بر روی مجموعه داده توسعه یافته CRC آموزش دادیم (
جدول ۵). هنگامی که مدل های شبکه بهینه طراحی شده، RegNetY-4.0GF و RegNetY-6.4GF، مورد استفاده قرار گرفتند، زمان آموزش بهبود عملکرد را به ترتیب ۲۷۳ دقیقه و ۳۳۷ دقیقه نشان داد.
برای آموزش تصاویر و ماسک باینری شبکه ترانسفورماتور، از مجموعه داده های GLA تصاویر بافت شناسی استفاده کردیم. پس از آن، پیکربندی آموخته شده برای استخراج یک ماسک باینری برای مجموعه داده توسعه یافته CRC استفاده شد. سپس تکههای مربوط به نواحی غدهای پیشبینیشده بهعنوان ورودی برای درجهبندی بعدی سرطان کولون مبتنی بر CNN مورد استفاده قرار گرفتند.
شکل ۲).
ایستگاه کاری مورد استفاده برای آزمایشها دارای CPU Intel(R) Xeon(R) E5-1650 @ 3.20 گیگاهرتز، GPU GeForce GTX 1080 Ti، ۱۱ گیگابایت RAM-GPU و SO Ubuntu 16.04 Linux بود. همه CNN های بررسی شده با شروع از مدل های ImageNet از پیش آموزش دیده که با پیاده سازی های مرجع ارائه می شوند، بهینه شدند. در مرحله بعد، از تکنیکهای افزایش دادهها برای محدود کردن تعداد میدانهای بصری استفاده کردیم. به طور خاص، چرخش افقی و عمودی، و همچنین چرخش با استفاده از یک مقدار تصادفی، از لیست (۹۰-، -۴۵، ۴۵، ۹۰) انتخاب شد، در حالی که تصادفی ایکسبرش محوری بین -۲۰ تا ۲۰ درجه بود.
در نهایت، ما از نرخ یادگیری = ۰٫۰۰۱، تکانه = ۰٫۹، کاهش وزن = ۰٫۰۰۱، دسته = ۱۶ پارامتر، یک استراتژی توقف اولیه ۱۰ دوره در مجموعه اعتبارسنجی با حداکثر تعداد ۱۰۰ دوره آموزشی، و نزول گرادیان تصادفی (SGD) استفاده کردیم. ) بهینه ساز، و به دنبال آن پیکربندی آموزشی برای معماری ترانسفورماتور، که شامل بهینه ساز Adam، اندازه دسته ای ۴ و نرخ یادگیری ۰٫۰۰۱ بود. این شبکه برای ۴۰۰ دوره آموزش داده شد.
برای تجزیه و تحلیل و علامتگذاری پسزمینه از دستههای آزمایشی، ما در هر برابر و کلاس توزیع پچ را که از میدانهای بصری پایگاه داده توسعهیافته CRC استخراج شده بود، تجزیه و تحلیل کردیم.
جدول ۶). تجزیه و تحلیل تقریباً ۴۶٪ از (۱) مناطق نویز پراکنده و (۲) مناطقی که مرز دستههای آزمایشی را در منطقه مورد مطالعه اولیه مشخص میکنند، کاهش داد. در نتیجه، حجم کار مدل های CNN از ۸۹ درصد به ۴۰ درصد کاهش یافت. نکته مهم این است که کاهش تنها بر تعداد وصلههایی که به برچسبگذاری نهایی کمک میکنند تأثیر میگذارد، در حالی که تعداد (۳۰۰) فیلدهای بصری طبقهبندیشده در مجموعه داده توسعهیافته CRC یکسان باقی مانده است.
جدول تکمیلی S1).
نتایج به دست آمده از توزیع پچ با نتایج کمی تایید شد (
جدول تکمیلی S2) که داده های درجه بندی را با استفاده از شبکه های ترانسفورماتور برای دور انداختن مناطق متمایز نشان می دهد.
استفاده از شبکه ترانسفورماتور طبقه بندی CNN را برای همه مدل ها، به ویژه برای EfficientNet تایید کرد و عملکرد را بهبود بخشید. مدل EfficientNet-B1 بالاترین عملکرد را در طبقه بندی باینری نشان داد، در حالی که مدل EfficientNet-B2 کارآمدترین در حل مشکل سه کلاسه سه گانه بود. علاوه بر این، استفاده از شبکه ترانسفورماتور تعداد وصله های موجود در آنالیز را کاهش داد و در نتیجه زمان آموزش را کوتاه کرد. زمان آموزش T + EfficientNet-B1 و T + EfficientNet-B2 به ترتیب ۱۲۱ و ۱۳۳ دقیقه بود که نشان دهنده کاهش قابل توجه ۷۰ درصدی در مقایسه با آموزش بدون شبکه ترانسفورماتور بود. مجموعههای ساختهشده برای آزمایش مجموعه دادههای توسعهیافته CRC، عملکرد قوی در تحلیل میانگین و دقت وزنی مسئله سهکلاسی سهکلاسی نشان دادند.
جدول ۶آ).
استفاده اولیه از شبکه ترانسفورماتور امکان زنجیره تجزیه و تحلیل (
شکل ۱) برای استفاده از مجموعه شبکه ها برای به دست آوردن دقت افزایش یافته در درجه بندی سرطان کولون در مجموعه داده توسعه یافته CRC. مونتاژ به طور قابل توجهی امتیازات را در مقایسه با عملکرد معماری های تک شبکه افزایش داد (
جدول ۶ب)، برجسته ترین مونتاژ EfficientNet-B1، EfficientNet-B2، و RegNetY16GF E11 (
جدول ۶الف) که منجر به بالاترین عملکرد در مسائل طبقه بندی باینری و سه تایی شد.
در نهایت، ما یک مطالعه فرسایشی را برای ارزیابی سهم معماری ترانسفورماتور انجام دادیم. در همان خط لوله، یک مدل تقسیم بندی مبتنی بر CNN به جای ترانسفورماتور در مرحله اول خط لوله استفاده شد. برای این منظور، ما از معماری شبکه عصبی کانولوشنال مبتنی بر منطقه (fRCNN) سریعتر برای تقسیمبندی با ستون فقرات استخراج ویژگی ResNet-101 استفاده کردیم، همانطور که قبلا در گزارش شده است. [
۳۹]. شبکه بر روی مجموعه داده های GLAs آموزش داده شد و در CRC توسعه یافته اعتبار سنجی شد. سپس تکههای استخراجشده در چینها تقسیم شدند و به عنوان ورودی به گروه E11 داده شدند.
جدول ۶). نتایج طبقه بندی باینری (متوسط و وزنی) و سه تایی (متوسط و وزنی) به ترتیب ۰٫۳۵ ± ۹۷٫۲۱، ۳٫۴۱ ± ۹۶٫۳۲، ۳٫۴۵ ± ۸۸٫۹۵ و ۲٫۴۵ ± ۸۷٫۸۸ بود. دادهها نشان میدهند که با بهرهبرداری از تقسیمبندی مبتنی بر CNN، دقت طبقهبندی در مواردی که تبدیل پیشنهادی برای تقسیمبندی نواحی غدهای استفاده میشود، کاهش مییابد.
۴٫۳٫ تشخیص بیماران
شبکه های عصبی سرطان را با استفاده از تصاویر (با بزرگنمایی ۲۰×) تقسیم به تکه ها درجه بندی کردند. برای هر میدان بصری، خط لوله پیشنهادی نقشه ای ایجاد کرد که در آن درجه بندی کولون در هر وصله انتخاب شده توسط ترانسفورماتور مشخص می شد (به ترتیب سبز، آبی و قرمز برای درجه های ۰، ۱ و ۲) (
شکل ۳).
برای تأیید کمی روش یادگیری عمیق، شبکه توسعهیافته با استفاده از مجموعه داده بیماران مبتلا به سرطان کولون مورد آزمایش قرار گرفت. یک پاتولوژیست بیماران را بر اساس اطلاعات شخصی (جنس، سن، سابقه پزشکی)، اطلاعات جراحی، تجزیه و تحلیل ریزماهواره، انکوژن تشخیص داد.
EGFR،
NRAS،
کراس،
سوتینتجزیه و تحلیل جهش و اطلاعات بافت شناسی مانند ساختار غدد، جوانه زدن تومور، رنگ آمیزی سلول های التهابی، تهاجم و نفوذ موضعی، متاستاز به غدد لنفاوی/کبد، رنگ آمیزی پروتئین نامتناسب، و رنگ آمیزی نشانگر تمایز (
جدول ۷).
جدول ۸ مقایسه درجه بندی انجام شده توسط آسیب شناس و الگوریتم را نشان می دهد.
نمونه بیمار ۱ از متاستاز کبدی ناشی از آدنوکارسینوم کولون جدا شد. درجه بندی هیستوپاتولوژیک یک تومور با تمایز متوسط را پیشنهاد می کند، در حالی که AI درجه بندی ضعیف را پیش بینی می کند. اختلاف بین تشخیص هیستوپاتولوژیک و درجه بندی تومور بیمار ۱ توسط الگوریتم پیش بینی شده ممکن است نشان دهد که سرطان متاستاز تهاجمی قادر به حفظ وضعیت غددی نسبتاً تمایز یافته حتی در یک اندام دورتر بوده است اما سایر ویژگی های فنوتیپی سرطان تهاجمی را به دست آورده است. بیمار ۲ مبتلا به آدنوکارسینوم مرحله pT4 بود که به بافت ذهنی نفوذ کرده بود. مرحله پاتولوژیک و درجه بندی بافت شناسی، که تمایز ضعیفی داشتند، درجه بندی محاسبه شده توسط شبکه های ترانسفورماتور مجموعه را پشتیبانی می کند. بیمار ۳، با تشخیص سرطان مرحله pT1 بدون متاستاز، آدنوکارسینوم خوب تمایز یافته توسط پاتولوژیست و شبکه را نشان داد. دادههای بیمار ۳ نشان داد که الگوریتم ایجاد شده در مطالعه کنونی میتواند سرطانهای کاملاً تمایز یافته را از تومورهای مرحله پیشرفته جدا کند.
تشخیص درجه بندی بیمار ۴ که حاکی از آدنوکارسینوم pT3 با مرحله تمایز ضعیف است، با تشخیص پاتولوژیست و الگوریتم یکسان بود. بیمار مهاجرت سلول های سرطانی داخل توموری داشت که به لایه عضلانی و چربی اطراف رحم می رسید. تشخیص هیستوپاتولوژیک بیمار ۵، آدنوکارسینوم کولون با تمایز متوسط را پیشنهاد میکند، در حالی که آنالیز پیشبینیشده توسط شبکه ترانسفورماتور سرطان با تمایز ضعیف را پیشنهاد میکند. جالب توجه است، تشخیص پیشبینیشده یک مورد مرزی بود که در آن ۴۸ درصد از میدانهای پرقدرت تجزیهوتحلیلشده، تمایز متوسط و ۵۲ درصد درجه بندی ضعیف را پیشنهاد کردند. بیمار دارای ۱۹ غدد لنفاوی متاستاتیک و انفیلتراسیون داخل توموری سلولهای نئوپلاستیک به چربی اطراف رحم بود که نشاندهنده پیشرفت تومورزایی به سمت فاز تهاجمیتر است. علاوه بر این، تشخیص یک آدنوکارسینوم کلوئیدی نادر را پیشنهاد میکند که منجر به نرخ بقای ۵ ساله کمتر (۷۱٪) نسبت به نرخ بقای یک نوع معمول آدنوکارسینوم (۸۱٪) میشود. بنابراین، الگوریتم درجه بندی تمایز را پیش بینی کرد، که ممکن است ویژگی های مورفولوژیکی مشخصه سرطان پرخطر و کاهش بقا را شناسایی کند.
به طور مشابه، برای بیمار ۵، تمایز پیشبینیشده توسط الگوریتم بیمار ۶ بین درجههای با تمایز متوسط (۵۲٪) و با تمایز ضعیف (۴۸٪) تقسیم شد. تشخیص هیستوپاتولوژیک آدنوکارسینوم با تمایز متوسط بر اساس تهاجم سلول های نئوپلاستیک به لایه عضلانی و چربی احشایی و متاستاز در یک غدد لنفاوی بود. بنابراین، تشخیص پیشبینیشده توسط الگوریتم ممکن است نشان دهد که تومور از درجه متوسط به درجه تمایز ضعیف در حال گذار است. بیماران ۷، ۸ و ۹ همگی با آنالیز بافت شناسی و محاسبه شبکه ترانسفورماتور مبتلا به آدنوکارسینوم ضعیف تشخیص داده شدند.
درجه بندی آدنوکارسینوما در بیمار ۱۰ با تجزیه و تحلیل هیستوپاتولوژیک با تمایز متوسط تشخیص داده شد. با این حال، ناحیه نئوپلاستیک بیش از ده جوانه تومور داشت و سلولهای تبدیلشده به لایه عضلانی و چربی احشایی فیلتر شده بودند، در نتیجه خطر بالای متاستاز عروقی را پیشنهاد میکردند، اگرچه ارتشاح لنفاوی عروقی مشاهده نشد. الگوریتم درجه بندی و سطح تمایز ضعیف را پیش بینی کرد، بنابراین تشخیص بافت شناسی را به چالش می کشد، که ممکن است وجود ویژگی های مورفولوژیکی غیر از تغییرات در تشکیل غده را نشان دهد. بر اساس تجزیه و تحلیل درجه بندی بافت شناسی، بیمار ۱۱ دارای یک آدنوکارسینوم ضعیف تمایز یافته بود که به دو غدد لنفاوی مجاور و کبد متاستاز داده بود و مرحله پیشرفته بیماری بسیار تهاجمی را نشان می داد. تجزیه و تحلیل بافت شناسی نفوذ نئوپلاستیک به لایه عضلانی و چربی احشایی را تشخیص داد. با این حال، تقریباً تمام تصاویر، ۷۴ درصد، تشخیص داده شده توسط هوش مصنوعی، درجه بندی نسبتاً متفاوتی را برای تومور پیشنهاد می کنند.
جدول ۸).