یادگیری با ناظر (Supervised Learning) چیست؟

(بخش اول رگرسیون)

یادگیری با ناظر (Supervised Learning) از مشهورترین زیر مجموعه‌های یادگیری ماشین (Machine Learning) است. برای آشنایی با یادگیری ماشین می‌توانید به مقاله قبلی ما مراجعه کنید. در این مقاله قصد داریم به مفهوم یادگیری با ناظر بپردازیم.

آنچه در این مقاله خواهید آموخت:

یادگیری با ناظر چیست؟
یادگیری با ناظر کجا استفاده می شود؟
نحوه عملکرد یادگیری با ناظر
انواع شاخه های یادگیری با ناظر
معرفی رگرسیون: پیش بینی یک تارگت پیوسته
معرفی رگرسیون خطی
معرفی رگرسیون غیرخطی (Polynomial Regression)
مثالی از رگرسیون
مفهوم تعمیم در یادگیری ماشین
مفهوم بیش برازش (Overfitting)

یادگیری با ناظر چیست؟

در مسائل یادگیری با ناظر، ما با مجموعه داده‌ای شروع می‌کنیم که شامل نمونه‌های آموزشی با برچسب‌های صحیح می‌باشند. سپس ماشین را با استفاده از داده‌هایی که برچسب‌دارند، یعنی مشخص است که در کدام دسته یا کلاس قرار دارند، آموزش می‌دهیم تا درنهایت برای داده جدیدالورود ، پیش‌بینی درستی انجام دهد.

یادگیری با ناظر کجا استفاده می شود؟

یادگیری با ناظر معمولاً در پیش‌بینی و یافتن روابط بین داده‌های کمی استفاده می‌شود. این یکی از اولین تکنیک‌های یادگیری است که هنوز به طور گسترده مورد استفاده قرار می گیرد. مسائلی نظیر اینکه با صرف هزینه‌های بیشتر در تبلیغات چقدر درآمد بیشتری کسب خواهیم کرد؟… آیا این متقاضی وام، وام را پس می‌ذهد یا خیر؟….. فردا برای بورس چه اتفاقی می افتد؟

نحوه عملکرد یادگیری با ناظر:

برای نشان دادن نحوه عملکرد یادگیری با ناظر، فرض کنید می‌خواهید درآمد سالانه یک فرد را بر اساس تعداد سال‌های تحصیلات عالی که گذرانده است، پیش‌بینی کنید. در یادگیری با ناظر، ماشین تلاش می کند تا با اجرای داده های آموزشی برچسب گذاری شده، از طریق یک الگوریتم یادگیری، رابطه بین درآمد و تحصیلات را بیاموزد.

از لحاظ فرمولی ، می خواهیم مدلی بسازیم که رابطه زیر، بین تعداد سال‌های تحصیلات عالی X و درآمد سالانه مربوطه Y را تقریب بزند.

در این فرمول، (ϵ) نشان دهنده خطای کاهش ناپذیر در مدل است، که به دلیل نویز ذاتی در پدیده ها وجود دارد. پس از اینکه این تابع آموخته شد، آن را می‌توان برای تخمین درآمد Y افرادی استفاده کرد که سال‌های تحصیل X آنها را به عنوان ورودی داشته باشیم. به عبارت دیگر، می‌توانیم مدل خود را روی داده‌های تست بدون برچسب، برای تخمین Y اعمال کنیم. به طور کلی هدف از یادگیری با نظارت این است که در صورت ارائه مثال های جدید که در آن X شناخته شده و Y ناشناخته است، Y را تا حد امکان دقیق پیش‌بینی کنیم.

انواع شاخه های یادگیری با ناظر

یادگیری با ناظر را می توان بر اساس نوع خروجی به دو زیر مجموعه کلی تقسیم کرد: طبقه بندی(Classification) و رگرسیون(Regression).

نکته: در این مقاله صرفا درمورد رگرسیون صحبت میکنیم و در مقاله بعدی مفصلا درمورد طبقه بندی صحبت خواهد شد.

معرفی رگرسیون: پیش بینی یک تارگت پیوسته (Regression)

در رگرسیون متغیر هدف (Target variable) بصورت پیوسته است. متغیر هدف به معنای متغیر ناشناخته‌ای است که ما به پیش‌بینی آن اهمیت می‌دهیم، و پیوستگی به این معنی است که شکاف (ناپیوستگی) در مقداری که Y می‌تواند بگیرد وجود ندارد. به طور مثال قیمت، وزن و قد افراد، متغیرهای پیوسته هستند. از سوی دیگر، متغیرهای گسسته فقط می‌توانند تعداد محدودی از مقادیر را بگیرند برای مثال، تعداد بچه‌هایی که انسان دارد یک متغیر گسسته است.

تکنیک‌های رگرسیون از محبوب‌ترین تکنیک‌های آماری هستند که برای مدل‌سازی، پیش‌بینی و وظایف داده‌کاوی مورد استفاده قرار می‌گیرد. به طور متوسط، متخصصان تجزیه و تحلیل تنها 2-3 نوع رگرسیون را می شناسند که معمولاً در دنیای واقعی استفاده می شود. اما واقعیت این است که بیش از 10 نوع الگوریتم رگرسیون برای انواع مختلف تحلیل طراحی شده است که هر نوع اهمیت خاص خود را دارد. هر تحلیلگر باید بداند که بسته به نوع داده و توزیع از کدام شکل رگرسیون استفاده کند. هر تکنیک رگرسیون، دارای مفروضاتی است که قبل از اجرای تجزیه و تحلیل باید آنها را رعایت کنیم. این تکنیک‌ها از نظر نوع متغیرهای وابسته و مستقل و توزیع متفاوت هستند. معروفترین آنها شامل دو دسته است:

رگرسیون خطی (Linear regression)

رگرسیون غیر خطی (Polynomial Regression)

معرفی رگرسیون خطی

این ساده ترین شکل رگرسیون است. در این تکنیک متغیر وابسته ماهیت پیوسته دارد و رابطه بین متغیر وابسته و متغیرهای مستقل از نظر ماهیت خطی فرض می‌شود. در این نوع مدلسازی می‌توانیم مشاهده کنیم که یک رابطه خطی بین متغیرهای مستقل و و متغیرهای وابسته وجود دارد. خط سیاه در نمودار زیر، خط رگرسیون است.

معرفی رگرسیون غیر خطی (Polynomial regression)

رگرسیون غیرخطی روشی برای یافتن یک معادله غیرخطی بین متغیرهای مستقل و متغیر هدف است. در این روش از ترکیب توابع چند جمله‌ای غیرخطی استفاده می شود. در شکل زیر می بینید که منحنی قرمز بهتر از منحنی سبز با داده‌ها مطابقت دارد. بنابراین در شرایطی که رابطه بین متغیرهای وابسته و مستقل ، غیرخطی به نظر می رسد، می توانیم رگرسیون غیر خطی را به کار ببریم.

مثالی از رگرسیون

یک مسأله معروف رگرسیون کلاسیک، پیش بینی درآمد است. در این مساله، داده‌های ورودی X شامل تمام اطلاعات مرتبط در مورد افراد در مجموعه داده‌ها است که می‌توان از آن برای پیش‌بینی درآمد استفاده کرد. مانند سال‌های تحصیل، سالهای تجربه کاری، عنوان شغل یا کدپستی. این ویژگی‌ها features نامیده می‌شوند که می‌توانند عددی (Numerical) مثل سال‌های سابقه کار، یا طبقه‌ای (Categorical) مثل عنوان شغل یا رشته تحصیلی باشند.

هدف ما اینست که تا آنجا که ممکن است مشاهدات آموزشی مربوط به این ویژگی ها با خروجی Y را انجام دهیم تا مدل ما بتواند رابطه بین X و Y را یاد بگیرد. داده‌ها به مجموعه داده‌های آموزشی و مجموعه داده‌های تست تقسیم می شوند. مجموعه آموزشی دارای برچسب‌هایی است، بنابراین مدل شما می‌تواند از این نمونه‌های برچسب‌دار یاد بگیرد. مجموعه تست دارای برچسب نیست، یعنی شما هنوز مقداری را که می‌خواهید پیش‌بینی کنید، نمی‌دانید. مهم است که مدل شما بتواند به موقعیت هایی تعمیم دهد که قبلاً با آن مواجه نشده است تا بتواند در داده های تست عملکرد خوبی داشته باشد.

Y = f(X) + ϵ

where X = (x1, x2…xn)

Training: machine learns from labeled training data

Test: machine predicts Y from unlabeled testing data

توجه داشته باشید که X می تواند با هر تعداد بُعدی باشد. مثلا مجموعه 1 بعدی که یک بردار است و از یک ستون و چندین ردیف تشکیل شده است، مجموعه 2 بعدی که یک ماتریس است که از2ستون و چندین ردیف تشکیل شده است و ه همین صورت شما می توانید مجموعه با ابعاد 3 و4 و 5 یا بیشتر داشته باشید.

ما در اینجا میخواهیم مثال ساده دو بعدی را بررسی کنیم. دیتای ما می تواند به شکل یک فایل csv باشد که در آن هر ردیف شامل سطح تحصیلات و درآمد یک فرد است. اگر ستون ‌های بیشتری با ویژگی‌های بیشتر اضافه کنید یک مدل پیچیده‌تر، اما احتمالاً دقیق‌تر خواهید داشت.

حل مساله

در اینجا ما روی حل مسئله پیش‌بینی درآمد با رگرسیون خطی تمرکز می‌کنیم. ما مجموعه داده X، و مقادیر هدف متناظر Y را داریم. هدف از رگرسیون، یادگیری یک مدل خطی است که می‌توانیم از آن برای پیش‌بینی یک x جدید با توجه به x قبلاً دیده شده با کمترین خطای ممکن استفاده کنیم. ما می‌خواهیم حدس بزنیم که یک فرد بر اساس تعداد سالهایی که تحصیل کرده چقدر درآمد دارد.

تعیین میزان خطا

از نظر ریاضی، ما به تفاوت بین هر نقطه داده واقعی (y) و پیش‌بینی مدل خود (j’) نگاه می‌کنیم. این تفاوت ها را مربع کنید تا از اعداد منفی جلوگیری کنید و تفاوت های بزرگتر را جریمه کنید و سپس آنها را جمع کنید و میانگین را بگیرید. این معیاری است که نشان می دهد داده های ما چقدر با خط مطابقت دارند.

برای یک مسئله ساده مانند این، می‌توانیم با استفاده از حساب دیفرانسیل و انتگرال، پارامترهای بتا بهینه، که تابع ضرر ما را به حداقل می‌رسانند، بیابیم. اما با افزایش پیچیدگی یک تابع هزینه، یافتن یک راه حل با حساب دیفرانسیل و انتگرال دیگر امکان پذیر نیست.

مفهوم تعمیم در یادگیری ماشین (Generalization)

وقتی در مورد همه یا بیشتر افراد یا چیزها با هم اظهار نظر می کنید، یک تعمیم می دهید. به عنوان مثال: همه پرندگان بال دارند… بسیاری از کودکان برای صبحانه غلات می خورند… . در یادگیری ماشین قدرت تعمیم بدین معناست که مدل با آموخته های خود می‌تواند به خوبی داده های ندیده را تشخیص دهد و آنچه را آموخته، برای داده‌های ندیده تعمیم دهد. پس هرچقدر یک مدل قدرت تعمیم بیشتری داشته باشد مدل بهتری است.

مفهوم بیش برازش (Overfitting)

یک مشکل رایج در یادگیری ماشین، بیش برازش است. بیش برازش یا تطبیق بیش از حد، زمانی اتفاق می‌افتد که یک مدل جزئیات و نویز در داده‌های آموزشی را تا حدی بیاموزد که بر عملکرد مدل در داده‌های جدید تأثیر منفی بگذارد. این بدان معنی است که نویز یا نوسانات تصادفی در داده های آموزشی به عنوان مفاهیم توسط مدل انتخاب شده و یاد می شود. هرگاه یک مدل از داده‌های آموزشی بیش از حد یاد بگیرد تا جایی که شروع به انتخاب ویژگی‌های خاص می‌کند که نماینده الگوهای موجود در دنیای واقعی نیستند. به اصطلاح در بیش برازش، مدل در حال (حفظ کردن) می‌باشد.

این اتفاق به ویژه زمانی که مدل خود را پیچیده تر می کنید بوجود می آید. به زبان دیگر، برازش بیش از حد مفهومی در علم داده است که زمانی اتفاق می افتد که یک مدل آماری دقیقاً با داده های آموزشی آن مطابقت داشته باشد. وقتی این اتفاق می‌افتد، متأسفانه الگوریتم نمی‌تواند به درستی در برابر داده‌های دیده نشده عمل کند و قدرت تعمیم دهندگی (Generalization) در آن کاهش می یابد.