مقدمه
یادگیری عمیق حوزههای مختلف یادگیری ماشین که به صورت عام در رسانهها به نام «هوش مصنوعی» شناخته میشود، را ارتقا بخشیده است. اما این مدلها معمولا با دادههای برچسب خورده کار میکنند، که یادگیری با ناظر نامیده میشود و افزایش حجم این دادهها، به افزایش کیفیت مدل یادگرفته شده ختم میشود. چیزی که در زمینه توسعه دادن یادگیری با ناظر در زمینههای مختلف مشکلساز است، هزینه برچسب زدن دادههاست. این مشکل هزینه، بر روی مسالههایی که نیاز به یک متخصص برای برچسب گذاری دارند، تشدید هم میشود. برای مثال برچسب گذاری تصاویر پزشکی که وجود سرطان را مشخص کنند نیاز به نیروی متخصص حوزه پزشکی دارد، و تولید حجم بالای دادگان برچسب خورده پزشکی در زمان مناسب و حجم بالا امکانپذیر نیست. یادگیری نیمهنظارتی سعی میکند از دادگان بدون برچسب در کنار دادگان برچسب خورده، استفاده کرده و کیفیت نهایی مدل را افزایش دهد. در ادامه به بررسی مقاله FixMatch گوگل و نحوه رسیدن آن به کیفیت هیجانانگیز ۸۸ درصدی روی دیتاست CIFAR10 تنها با ۴۰ نمونه آموزشی میپردازیم.
نمونه تصاویر از کلاسهای مختلف CIFAR-10
دیتاست تصاویر CIFAR10
این دیتاست شامل ۶۰۰۰۰ عکس ۳۲x۳۲ در ۱۰ کلاس مختلف است. هدف از ارایه اینچنین دیتاستهایی این است که یک استاندارد برای مدلهای یادگیری ماشین تعریف شود تا تحقیقات بتوانند با یکدیگر مقایسه شوند. این دیتاست شامل ۶۰۰۰ عکس از هر یک از ۱۰ موضوع، هواپیما، اتومبیل، پرنده، گربه، گوزن، سگ، قورباغه، اسب، کشتی، و کامیون میباشد. این تصاویر کوچک شدهاند که به محققین اجازه آزمایش سریعتر ساختارهای مختلف شبکهعصبی را بدهد.
مقاله FixMatch گوگل و برخورد آن با مساله یادگیری نیمهنظارتی
یک از روشهای مشهور یادگیری نیمهنظارتی، به این صورت است که یک برچسب مصنوعی (برچسبهای واقعی برچسبهایی هستند که توسط انسان به تصاویر زده میشوند) به هر تصویر بدون برچسب داده شود و سپس مدل را طوری آموزش دهیم که این برچسب مصنوعی را به ازای عکسی که بدون برچسب بود خروجی دهد.
در این مقاله پژوهشی گوگل، ترکیبی از دو روش مطرح در این زمینه استفاده شده است. این دو روش عبارت هستند از consistency regularization و pseudo-labeling
روش consistency regularization به این صورت در این مدل استفاده شده است که به صورت جداگانهای با تصاویر افزوده شده ضعیف و قوی برخورد شده است و هدف این است که مدل یاد بگیرد به ازای نسخههای مختلف یک تصویر، خروجی یکسان تولید کند. تصاویر افزودهشده یا به صورت کلی دادگان افزوده شده، روشی هست که با استفاده از تغییراتی که منجر به خراب شدن یا نامفهوم شدن تصویر نشوند، از روی یک تصویر، تصاویر بیشتری بسازیم. برای مثال چرخاندن یک عکس گربه باعث نمیشود که دیگر گربهای در عکس وجود نداشته باشد. اما اضافه کردن همین نمونه چرخانده شده به دادگان آموزشی، میتواند منجر به کیفیت بالاتری شود. منظور از ضعیف و قوی، در اینجا تغییرات خفیف عکس مثل چرخاندن، در مقابل تغییرات بزرگتری مثل تغییر رنگها و برجسته کردن میباشد.
همچنین اینکه بخواهیم به دادگان بدون برچسب، برچسب اختصاص دهیم، Pseudo-labeling نامیده میشود. البته باید توجه شود که این موارد هریک دارای ظرافتهایی هستند که در نظر نگرفتن آنها میتواند حتی به بدتر شدن کیفیت مدل نیز ختم شود.
نقد
این مقاله در CIFAR100 که دارای ۱۰۰ کلاس بجای ۱۰ کلاس است، نتوانست نتایج قبلی را شکست دهد، در CIFAR100 کلاسهای نزدیک بهم برای مثال جگوار و ببر وجود دارند که احتمالا کاربردهای واقعی هوشمصنوعی به این دیتاست که سختتر است نزدیکتر باشد. البته ممکن است این نتیجه بد، بخاطر اینکه نمیخواستند از مدلهای بزرگتر و پیچیدهتر استفاده کنند باشد. همچنین نکته دیگری که وجود دارد دیتاست CIFAR10 متوازن یا به اصطلاح balance میباشد و تعداد نمونههای هر کلاس در آن برابر است. در واقعیت معمولا دیتاستها به صورت نمونههای آنرمال با تعداد اندک، در مقابل نمونههای نرمال با تعداد بالا هستند که ممکن است در آن شرایط FixMatch به خوبی کار نکند. در هر صورت، رسیدن به کیفیت ۸۷ درصد با استفاده از تنها ۴۰ عکس، یعنی ۴ عکس به ازای هر کلاس، حرکتی امیدوارکننده و الهامبخش در تحقیقات بعدی میباشد.
خوراک بیشتر