ده سال در: یادگیری عمیق دید کامپیوتر را تغییر داد، اما عناصر کلاسیک هنوز پابرجا هستند

VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. شبکه و یادگیری با همتایان صنعت. بیشتر بدانید

بینایی کامپیوتر (CV) در سال‌های اخیر به سرعت تکامل یافته است و اکنون در بسیاری از بخش‌های زندگی روزمره ما نفوذ کرده است. برای یک فرد معمولی، ممکن است یک نوآوری جدید و هیجان انگیز به نظر برسد، اما اینطور نیست.

CV در واقع برای دهه‌ها در حال تکامل بوده است، با مطالعاتی که در دهه ۱۹۷۰ پایه‌های اولیه بسیاری از الگوریتم‌های مورد استفاده امروزی را تشکیل دادند. سپس، حدود ۱۰ سال پیش، تکنیک جدیدی که هنوز در حال توسعه تئوری است در صحنه ظاهر شد: یادگیری عمیق، نوعی از هوش مصنوعی که از آن استفاده می‌کند. شبکه های عصبی برای حل مشکلات فوق العاده پیچیده – اگر داده ها و قدرت محاسباتی برای آن دارید.

همانطور که یادگیری عمیق ادامه یافت، مشخص شد که می تواند برخی از مسائل CV را به خوبی حل کند. چالش هایی مانند تشخیص و طبقه بندی اشیا به ویژه برای درمان یادگیری عمیق آماده بودند. در این مرحله، تمایزی بین CV “کلاسیک” که بر توانایی مهندسان برای فرمول‌بندی و حل مسائل ریاضی متکی بود و CV مبتنی بر یادگیری عمیق شروع شد.

یادگیری عمیق CV کلاسیک را منسوخ نکرد. هر دو به تکامل خود ادامه دادند، و نور جدیدی را در مورد چالش هایی که از طریق کلان داده ها به بهترین شکل حل می شوند و آنچه که باید با الگوریتم های ریاضی و هندسی حل شوند، روشن می کنند.

رویداد

هوش مصنوعی آزاد شد

یک شب انحصاری فقط دعوت از بینش و شبکه، که برای مدیران ارشد سازمانی که بر پشته‌های داده و استراتژی‌ها نظارت دارند، طراحی شده است.

بیشتر بدانید

محدودیت‌های بینایی کامپیوتری کلاسیک

یادگیری عمیق می‌تواند CV را تغییر دهد، اما این جادو تنها زمانی اتفاق می‌افتد که داده‌های آموزشی مناسب در دسترس باشد یا زمانی که محدودیت‌های منطقی یا هندسی شناسایی شده می‌توانند شبکه را قادر به اجرای مستقل فرآیند یادگیری کنند.

در گذشته، CV کلاسیک برای تشخیص اشیا، شناسایی ویژگی‌هایی مانند لبه‌ها، گوشه‌ها و بافت‌ها (استخراج ویژگی) و حتی برچسب‌گذاری هر پیکسل در یک تصویر (بخش‌بندی معنایی) استفاده می‌شد. با این حال، این فرآیندها بسیار دشوار و خسته کننده بودند.

تشخیص اشیا مستلزم مهارت در پنجره های کشویی، تطبیق الگو و جستجوی جامع بود. استخراج و طبقه‌بندی ویژگی‌ها نیازمند مهندسین است تا متدولوژی‌های سفارشی را توسعه دهند. جداسازی طبقات مختلف اشیاء در سطح پیکسل مستلزم مقدار زیادی کار برای از بین بردن مناطق مختلف بود – و مهندسان CV با تجربه همیشه قادر به تشخیص صحیح بین هر پیکسل در تصویر نبودند.

یادگیری عمیق تبدیل شیء

در مقابل، یادگیری عمیق – به طور خاص شبکه های عصبی کانولوشنال (CNN) و CNN های مبتنی بر منطقه (R-CNN) – تشخیص اشیاء را به امری عادی تبدیل کرده است، به ویژه هنگامی که با پایگاه داده های عظیم تصویر برچسب گذاری شده غول هایی مانند گوگل و آمازون جفت شود. با یک شبکه به خوبی آموزش دیده، نیازی به قوانین صریح و دست ساز نیست و الگوریتم ها قادرند اشیاء را تحت شرایط مختلف بدون توجه به زاویه تشخیص دهند.

در استخراج ویژگی نیز، فرآیند یادگیری عمیق تنها به یک الگوریتم مناسب و داده‌های آموزشی متنوع نیاز دارد تا هم از تطبیق بیش از حد مدل جلوگیری کند و هم در هنگام ارائه داده‌های جدید پس از انتشار برای تولید، رتبه‌بندی دقت کافی را ایجاد کند. CNN ها به ویژه در این کار خوب هستند. علاوه بر این، هنگام استفاده از یادگیری عمیق برای بخش‌بندی معنایی، معماری U-net عملکرد استثنایی را نشان داده است و نیاز به فرآیندهای دستی پیچیده را از بین می‌برد.

بازگشت به کلاسیک

در حالی که یادگیری عمیق بدون شک این حوزه را متحول کرده است، وقتی صحبت از چالش‌های خاصی می‌شود که بوسیله محلی‌سازی و نقشه‌برداری همزمان (SLAM) و ساختار از الگوریتم‌های حرکت (SFM) پرداخته می‌شود، راه حل های CV کلاسیک هنوز از رویکردهای جدیدتر بهتر عمل می کند. این مفاهیم هر دو شامل استفاده از تصاویر برای درک و ترسیم ابعاد مناطق فیزیکی است.

SLAM بر ساختن و سپس به روز رسانی نقشه یک منطقه متمرکز است، همه اینها در عین پیگیری عامل (معمولاً نوعی ربات) و مکان آن در نقشه است. اینگونه بود که رانندگی خودکار و همچنین جاروبرقی رباتیک امکان پذیر شد.

SFM به طور مشابه بر ریاضیات و هندسه پیشرفته متکی است، اما هدف آن ایجاد یک بازسازی سه بعدی از یک شی با استفاده از نماهای متعدد است که می تواند از مجموعه ای نامرتب از تصاویر گرفته شود. زمانی مناسب است که نیازی به پاسخ های بلادرنگ و فوری نباشد.

در ابتدا تصور می شد که برای اجرای صحیح SLAM به قدرت محاسباتی عظیمی نیاز است. با این حال، با استفاده از تقریب های نزدیک، پیشینیان CV توانستند نیازهای محاسباتی را بسیار قابل مدیریت کنند.

SFM حتی ساده‌تر است: برخلاف SLAM که معمولاً شامل ترکیب حسگر است، این روش فقط از ویژگی‌های ذاتی دوربین و ویژگی‌های تصویر استفاده می‌کند. این یک روش مقرون به صرفه در مقایسه با اسکن لیزری است که در بسیاری از شرایط به دلیل محدودیت برد و وضوح امکان پذیر نیست. نتیجه یک نمایش قابل اعتماد و دقیق از یک شی است.

جاده پیش رو

هنوز مشکلاتی وجود دارد که یادگیری عمیق نیز نمی تواند آنها را حل کند CV کلاسیک، و مهندسان باید به استفاده از تکنیک های سنتی برای حل آنها ادامه دهند. هنگامی که ریاضیات پیچیده و مشاهدات مستقیم درگیر هستند و به دست آوردن مجموعه داده های آموزشی مناسب دشوار است، یادگیری عمیق برای ایجاد یک راه حل زیبا بسیار قدرتمند و سخت است. تشبیه گاو نر در فروشگاه چین در اینجا به ذهن متبادر می شود: به همان روشی که ChatGPT مطمئناً کارآمدترین (یا دقیق‌ترین ابزار) برای محاسبات پایه نیست، CV کلاسیک همچنان بر چالش‌های خاص تسلط خواهد داشت.

این انتقال جزئی از CV کلاسیک به CV مبتنی بر یادگیری عمیق، ما را با دو نکته اصلی مواجه می‌کند. اول، باید اذعان کنیم که جایگزینی عمده کهنه با جدید، هرچند ساده تر، اشتباه است. هنگامی که یک زمینه توسط فناوری‌های جدید مختل می‌شود، باید محتاط باشیم که به جزئیات توجه کنیم و مورد به مورد شناسایی کنیم که کدام مشکلات از تکنیک‌های جدید سود می‌برند و کدامیک هنوز برای رویکردهای قدیمی‌تر مناسب‌تر هستند.

دوم، اگرچه این گذار مقیاس پذیری را باز می کند، اما عنصر تلخی وجود دارد. روش‌های کلاسیک در واقع دستی‌تر بودند، اما این بدان معنا بود که آنها بخش‌های مساوی هنر و علم بودند. خلاقیت و نوآوری مورد نیاز برای از بین بردن ویژگی ها، اشیاء، لبه ها و عناصر کلیدی توسط یادگیری عمیق تقویت نشده است، بلکه توسط عمیق ایجاد شده است. فکر کردن.

با دور شدن از تکنیک های CV کلاسیک، مهندسانی مانند من، گاهی اوقات بیشتر شبیه یکپارچه ساز ابزار CV شده اند. در حالی که این “برای صنعت خوب است”، اما غم انگیز است که عناصر هنری و خلاقانه تر نقش را کنار بگذاریم. یک چالش پیش رو این خواهد بود که سعی کنیم این هنر را به روش های دیگر ترکیب کنیم.

درک جایگزین یادگیری

در طول دهه آینده، من پیش بینی می کنم که “درک” در نهایت جایگزین “یادگیری” به عنوان تمرکز اصلی در توسعه شبکه خواهد شد. دیگر تأکید بر این نیست که شبکه چقدر می‌تواند یاد بگیرد، بلکه تأکید بر این است که چگونه می‌تواند اطلاعات را عمیقاً درک کند و چگونه می‌توانیم این درک را بدون غرق شدن در داده‌های بیش از حد تسهیل کنیم. هدف ما باید این باشد که شبکه را قادر کنیم با کمترین مداخله به نتایج عمیق‌تری برسد.

ده سال آینده مطمئناً شگفتی هایی در فضای CV خواهد داشت. شاید CV کلاسیک در نهایت منسوخ شود. شاید یادگیری عمیق نیز با تکنیکی که هنوز شنیده نشده است، از بین برود. با این حال، حداقل در حال حاضر، این ابزارها بهترین گزینه برای نزدیک شدن به وظایف خاص هستند و پایه و اساس پیشرفت CV را در طول دهه آینده تشکیل خواهند داد. در هر صورت، باید کاملاً سفر باشد.

شلومی آمیتای رهبر تیم الگوریتم است فروشگاه.

DataDecisionMakers

به انجمن VentureBeat خوش آمدید!

DataDecisionMakers جایی است که کارشناسان، از جمله افراد فنی که کار داده را انجام می دهند، می توانند بینش ها و نوآوری های مرتبط با داده را به اشتراک بگذارند.

اگر می‌خواهید درباره ایده‌های پیشرفته و اطلاعات به‌روز، بهترین شیوه‌ها و آینده فناوری داده و داده مطالعه کنید، به ما در DataDecisionMakers بپیوندید.

حتی ممکن است در نظر بگیرید مشارکت در مقاله از خودت!

از DataDecisionMakers بیشتر بخوانید

منبع: https://venturebeat.com/ai/ten-years-in-deep-learning-changed-computer-vision-but-the-classical-elements-still-stand/