VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. شبکه و یادگیری با همتایان صنعت. بیشتر بدانید
بینایی کامپیوتر (CV) در سالهای اخیر به سرعت تکامل یافته است و اکنون در بسیاری از بخشهای زندگی روزمره ما نفوذ کرده است. برای یک فرد معمولی، ممکن است یک نوآوری جدید و هیجان انگیز به نظر برسد، اما اینطور نیست.
CV در واقع برای دههها در حال تکامل بوده است، با مطالعاتی که در دهه ۱۹۷۰ پایههای اولیه بسیاری از الگوریتمهای مورد استفاده امروزی را تشکیل دادند. سپس، حدود ۱۰ سال پیش، تکنیک جدیدی که هنوز در حال توسعه تئوری است در صحنه ظاهر شد: یادگیری عمیق، نوعی از هوش مصنوعی که از آن استفاده میکند. شبکه های عصبی برای حل مشکلات فوق العاده پیچیده – اگر داده ها و قدرت محاسباتی برای آن دارید.
همانطور که یادگیری عمیق ادامه یافت، مشخص شد که می تواند برخی از مسائل CV را به خوبی حل کند. چالش هایی مانند تشخیص و طبقه بندی اشیا به ویژه برای درمان یادگیری عمیق آماده بودند. در این مرحله، تمایزی بین CV “کلاسیک” که بر توانایی مهندسان برای فرمولبندی و حل مسائل ریاضی متکی بود و CV مبتنی بر یادگیری عمیق شروع شد.
یادگیری عمیق CV کلاسیک را منسوخ نکرد. هر دو به تکامل خود ادامه دادند، و نور جدیدی را در مورد چالش هایی که از طریق کلان داده ها به بهترین شکل حل می شوند و آنچه که باید با الگوریتم های ریاضی و هندسی حل شوند، روشن می کنند.
محدودیتهای بینایی کامپیوتری کلاسیک
یادگیری عمیق میتواند CV را تغییر دهد، اما این جادو تنها زمانی اتفاق میافتد که دادههای آموزشی مناسب در دسترس باشد یا زمانی که محدودیتهای منطقی یا هندسی شناسایی شده میتوانند شبکه را قادر به اجرای مستقل فرآیند یادگیری کنند.
در گذشته، CV کلاسیک برای تشخیص اشیا، شناسایی ویژگیهایی مانند لبهها، گوشهها و بافتها (استخراج ویژگی) و حتی برچسبگذاری هر پیکسل در یک تصویر (بخشبندی معنایی) استفاده میشد. با این حال، این فرآیندها بسیار دشوار و خسته کننده بودند.
تشخیص اشیا مستلزم مهارت در پنجره های کشویی، تطبیق الگو و جستجوی جامع بود. استخراج و طبقهبندی ویژگیها نیازمند مهندسین است تا متدولوژیهای سفارشی را توسعه دهند. جداسازی طبقات مختلف اشیاء در سطح پیکسل مستلزم مقدار زیادی کار برای از بین بردن مناطق مختلف بود – و مهندسان CV با تجربه همیشه قادر به تشخیص صحیح بین هر پیکسل در تصویر نبودند.
یادگیری عمیق تبدیل شیء
در مقابل، یادگیری عمیق – به طور خاص شبکه های عصبی کانولوشنال (CNN) و CNN های مبتنی بر منطقه (R-CNN) – تشخیص اشیاء را به امری عادی تبدیل کرده است، به ویژه هنگامی که با پایگاه داده های عظیم تصویر برچسب گذاری شده غول هایی مانند گوگل و آمازون جفت شود. با یک شبکه به خوبی آموزش دیده، نیازی به قوانین صریح و دست ساز نیست و الگوریتم ها قادرند اشیاء را تحت شرایط مختلف بدون توجه به زاویه تشخیص دهند.
در استخراج ویژگی نیز، فرآیند یادگیری عمیق تنها به یک الگوریتم مناسب و دادههای آموزشی متنوع نیاز دارد تا هم از تطبیق بیش از حد مدل جلوگیری کند و هم در هنگام ارائه دادههای جدید پس از انتشار برای تولید، رتبهبندی دقت کافی را ایجاد کند. CNN ها به ویژه در این کار خوب هستند. علاوه بر این، هنگام استفاده از یادگیری عمیق برای بخشبندی معنایی، معماری U-net عملکرد استثنایی را نشان داده است و نیاز به فرآیندهای دستی پیچیده را از بین میبرد.
بازگشت به کلاسیک
در حالی که یادگیری عمیق بدون شک این حوزه را متحول کرده است، وقتی صحبت از چالشهای خاصی میشود که بوسیله محلیسازی و نقشهبرداری همزمان (SLAM) و ساختار از الگوریتمهای حرکت (SFM) پرداخته میشود، راه حل های CV کلاسیک هنوز از رویکردهای جدیدتر بهتر عمل می کند. این مفاهیم هر دو شامل استفاده از تصاویر برای درک و ترسیم ابعاد مناطق فیزیکی است.
SLAM بر ساختن و سپس به روز رسانی نقشه یک منطقه متمرکز است، همه اینها در عین پیگیری عامل (معمولاً نوعی ربات) و مکان آن در نقشه است. اینگونه بود که رانندگی خودکار و همچنین جاروبرقی رباتیک امکان پذیر شد.
SFM به طور مشابه بر ریاضیات و هندسه پیشرفته متکی است، اما هدف آن ایجاد یک بازسازی سه بعدی از یک شی با استفاده از نماهای متعدد است که می تواند از مجموعه ای نامرتب از تصاویر گرفته شود. زمانی مناسب است که نیازی به پاسخ های بلادرنگ و فوری نباشد.
در ابتدا تصور می شد که برای اجرای صحیح SLAM به قدرت محاسباتی عظیمی نیاز است. با این حال، با استفاده از تقریب های نزدیک، پیشینیان CV توانستند نیازهای محاسباتی را بسیار قابل مدیریت کنند.
SFM حتی سادهتر است: برخلاف SLAM که معمولاً شامل ترکیب حسگر است، این روش فقط از ویژگیهای ذاتی دوربین و ویژگیهای تصویر استفاده میکند. این یک روش مقرون به صرفه در مقایسه با اسکن لیزری است که در بسیاری از شرایط به دلیل محدودیت برد و وضوح امکان پذیر نیست. نتیجه یک نمایش قابل اعتماد و دقیق از یک شی است.
جاده پیش رو
هنوز مشکلاتی وجود دارد که یادگیری عمیق نیز نمی تواند آنها را حل کند CV کلاسیک، و مهندسان باید به استفاده از تکنیک های سنتی برای حل آنها ادامه دهند. هنگامی که ریاضیات پیچیده و مشاهدات مستقیم درگیر هستند و به دست آوردن مجموعه داده های آموزشی مناسب دشوار است، یادگیری عمیق برای ایجاد یک راه حل زیبا بسیار قدرتمند و سخت است. تشبیه گاو نر در فروشگاه چین در اینجا به ذهن متبادر می شود: به همان روشی که ChatGPT مطمئناً کارآمدترین (یا دقیقترین ابزار) برای محاسبات پایه نیست، CV کلاسیک همچنان بر چالشهای خاص تسلط خواهد داشت.
این انتقال جزئی از CV کلاسیک به CV مبتنی بر یادگیری عمیق، ما را با دو نکته اصلی مواجه میکند. اول، باید اذعان کنیم که جایگزینی عمده کهنه با جدید، هرچند ساده تر، اشتباه است. هنگامی که یک زمینه توسط فناوریهای جدید مختل میشود، باید محتاط باشیم که به جزئیات توجه کنیم و مورد به مورد شناسایی کنیم که کدام مشکلات از تکنیکهای جدید سود میبرند و کدامیک هنوز برای رویکردهای قدیمیتر مناسبتر هستند.
دوم، اگرچه این گذار مقیاس پذیری را باز می کند، اما عنصر تلخی وجود دارد. روشهای کلاسیک در واقع دستیتر بودند، اما این بدان معنا بود که آنها بخشهای مساوی هنر و علم بودند. خلاقیت و نوآوری مورد نیاز برای از بین بردن ویژگی ها، اشیاء، لبه ها و عناصر کلیدی توسط یادگیری عمیق تقویت نشده است، بلکه توسط عمیق ایجاد شده است. فکر کردن.
با دور شدن از تکنیک های CV کلاسیک، مهندسانی مانند من، گاهی اوقات بیشتر شبیه یکپارچه ساز ابزار CV شده اند. در حالی که این “برای صنعت خوب است”، اما غم انگیز است که عناصر هنری و خلاقانه تر نقش را کنار بگذاریم. یک چالش پیش رو این خواهد بود که سعی کنیم این هنر را به روش های دیگر ترکیب کنیم.
درک جایگزین یادگیری
در طول دهه آینده، من پیش بینی می کنم که “درک” در نهایت جایگزین “یادگیری” به عنوان تمرکز اصلی در توسعه شبکه خواهد شد. دیگر تأکید بر این نیست که شبکه چقدر میتواند یاد بگیرد، بلکه تأکید بر این است که چگونه میتواند اطلاعات را عمیقاً درک کند و چگونه میتوانیم این درک را بدون غرق شدن در دادههای بیش از حد تسهیل کنیم. هدف ما باید این باشد که شبکه را قادر کنیم با کمترین مداخله به نتایج عمیقتری برسد.
ده سال آینده مطمئناً شگفتی هایی در فضای CV خواهد داشت. شاید CV کلاسیک در نهایت منسوخ شود. شاید یادگیری عمیق نیز با تکنیکی که هنوز شنیده نشده است، از بین برود. با این حال، حداقل در حال حاضر، این ابزارها بهترین گزینه برای نزدیک شدن به وظایف خاص هستند و پایه و اساس پیشرفت CV را در طول دهه آینده تشکیل خواهند داد. در هر صورت، باید کاملاً سفر باشد.
شلومی آمیتای رهبر تیم الگوریتم است فروشگاه.
DataDecisionMakers
به انجمن VentureBeat خوش آمدید!
DataDecisionMakers جایی است که کارشناسان، از جمله افراد فنی که کار داده را انجام می دهند، می توانند بینش ها و نوآوری های مرتبط با داده را به اشتراک بگذارند.
اگر میخواهید درباره ایدههای پیشرفته و اطلاعات بهروز، بهترین شیوهها و آینده فناوری داده و داده مطالعه کنید، به ما در DataDecisionMakers بپیوندید.
حتی ممکن است در نظر بگیرید مشارکت در مقاله از خودت!
منبع: https://venturebeat.com/ai/ten-years-in-deep-learning-changed-computer-vision-but-the-classical-elements-still-stand/