مقدمه
یادگیری عمیق حوزه‌های مختلف یادگیری ماشین که به صورت عام در رسانه‌ها به نام «هوش مصنوعی» شناخته می‌شود، را ارتقا بخشیده است. اما این مدل‌ها معمولا با داده‌های برچسب خورده کار می‌کنند، که یادگیری با ناظر نامیده می‌شود و افزایش حجم این داده‌ها، به افزایش کیفیت مدل یادگرفته شده ختم می‌شود. چیزی که در زمینه توسعه دادن یادگیری با ناظر در زمینه‌های مختلف مشکل‌ساز است، هزینه برچسب زدن داده‌هاست. این مشکل هزینه، بر روی مساله‌هایی که نیاز به یک متخصص برای برچسب گذاری دارند، تشدید هم می‌شود. برای مثال برچسب گذاری تصاویر پزشکی که وجود سرطان را مشخص کنند نیاز به نیروی متخصص حوزه پزشکی دارد، و تولید حجم بالای دادگان برچسب خورده پزشکی در زمان مناسب و حجم بالا امکان‌پذیر نیست. یادگیری نیمه‌نظارتی سعی می‌کند از دادگان بدون برچسب در کنار دادگان برچسب خورده، استفاده کرده و کیفیت نهایی مدل را افزایش دهد. در ادامه به بررسی مقاله FixMatch گوگل و نحوه رسیدن آن به کیفیت هیجان‌انگیز ۸۸ درصدی روی دیتاست CIFAR10 تنها با ۴۰ نمونه آموزشی می‌پردازیم.


نمونه تصاویر از کلاس‌های مختلف CIFAR-10

 

دیتاست تصاویر CIFAR10
این دیتاست شامل ۶۰۰۰۰ عکس ۳۲x۳۲ در ۱۰ کلاس مختلف است. هدف از ارایه اینچنین دیتاست‌هایی این است که یک استاندارد برای مدل‌های یادگیری ماشین تعریف شود تا تحقیقات بتوانند با یکدیگر مقایسه شوند. این دیتاست شامل ۶۰۰۰ عکس از هر یک از ۱۰ موضوع، هواپیما، اتومبیل، پرنده، گربه، گوزن، سگ، قورباغه، اسب،‌ کشتی، و کامیون می‌باشد. این تصاویر کوچک شده‌اند که به محققین اجازه آزمایش سریعتر ساختارهای مختلف شبکه‌عصبی را بدهد.

 

مقاله FixMatch گوگل و برخورد آن با مساله یادگیری نیمه‌نظارتی
یک از روش‌های مشهور یادگیری نیمه‌نظارتی، به این صورت است که یک برچسب مصنوعی (برچسب‌های واقعی برچسب‌هایی هستند که توسط انسان به تصاویر زده می‌شوند) به هر تصویر بدون برچسب داده شود و سپس مدل را طوری آموزش دهیم که این برچسب مصنوعی را به ازای عکسی که بدون برچسب بود خروجی دهد.
در این مقاله پژوهشی گوگل، ترکیبی از دو روش مطرح در این زمینه استفاده شده است. این دو روش عبارت هستند از consistency regularization و pseudo-labeling

روش consistency regularization به این صورت در این مدل استفاده شده است که به صورت جداگانه‌ای با تصاویر افزوده شده ضعیف و قوی برخورد شده است و هدف این است که مدل یاد بگیرد به ازای نسخه‌های مختلف یک تصویر، خروجی یکسان تولید کند. تصاویر افزوده‌شده یا به صورت کلی دادگان افزوده شده، روشی هست که با استفاده از تغییراتی که منجر به خراب شدن یا نامفهوم شدن تصویر نشوند، از روی یک تصویر، تصاویر بیشتری بسازیم. برای مثال چرخاندن یک عکس گربه باعث نمی‌شود که دیگر گربه‌ای در عکس وجود نداشته باشد. اما اضافه کردن همین نمونه چرخانده شده به دادگان آموزشی، می‌تواند منجر به کیفیت بالاتری شود. منظور از ضعیف و قوی، در اینجا تغییرات خفیف عکس مثل چرخاندن، در مقابل تغییرات بزرگتری مثل تغییر رنگ‌ها و برجسته کردن می‌باشد.
همچنین اینکه بخواهیم به دادگان بدون برچسب، برچسب اختصاص دهیم، Pseudo-labeling نامیده می‌شود. البته باید توجه شود که این موارد هریک دارای ظرافت‌هایی هستند که در نظر نگرفتن آنها می‌تواند حتی به بدتر شدن کیفیت مدل نیز ختم شود.

 

نقد
این مقاله در CIFAR100 که دارای ۱۰۰ کلاس بجای ۱۰ کلاس است، نتوانست نتایج قبلی را شکست دهد، در CIFAR100 کلاس‌های نزدیک بهم برای مثال جگوار و ببر وجود دارند که احتمالا کاربردهای واقعی هوش‌مصنوعی به این دیتاست که سخت‌تر است نزدیکتر باشد. البته ممکن است این نتیجه بد، بخاطر اینکه نمی‌خواستند از مدل‌های بزرگتر و پیچیده‌تر استفاده کنند باشد. همچنین نکته دیگری که وجود دارد دیتاست CIFAR10 متوازن یا به اصطلاح balance می‌باشد و تعداد نمونه‌های هر کلاس در آن برابر است. در واقعیت معمولا دیتاست‌ها به صورت نمونه‌های آنرمال با تعداد اندک، در مقابل نمونه‌های نرمال با تعداد بالا هستند که ممکن است در آن شرایط FixMatch به خوبی کار نکند. در هر صورت، رسیدن به کیفیت ۸۷ درصد با استفاده از تنها ۴۰ عکس، یعنی ۴ عکس به ازای هر کلاس، حرکتی امیدوارکننده و الهام‌بخش در تحقیقات بعدی می‌باشد.

 

خوراک بیشتر

مقاله FixMatch گوگل

گزارش Synced