मशीन लर्निंग मॉडल में अतिसामान्यीकरण को समझना और उससे बचना

ओवरनॉर्मलाइज़ेशन एक ऐसी घटना है जो तब होती है जब किसी मॉडल को प्रशिक्षण डेटा पर बहुत अच्छी तरह से प्रशिक्षित किया जाता है, और परिणामस्वरूप, यह उस विशिष्ट डेटासेट के लिए अत्यधिक विशिष्ट हो जाता है। इससे मॉडल नए, अनदेखे डेटा पर खराब प्रदर्शन कर सकता है, क्योंकि इसने सामान्यीकरण योग्य विशेषताएं या पैटर्न नहीं सीखे हैं जो स्थितियों की एक विस्तृत श्रृंखला पर लागू होते हैं। दूसरे शब्दों में, अतिसामान्यीकरण तब होता है जब कोई मॉडल प्रशिक्षण डेटा के बहुत करीब फिट होता है , और यह डेटा से पर्याप्त सामान्यीकरण योग्य ज्ञान नहीं सीखता है। परिणामस्वरूप, मॉडल नए, अनदेखे डेटा को अच्छी तरह से सामान्यीकृत करने में सक्षम नहीं हो सकता है।

अति सामान्यीकरण कई कारकों के कारण हो सकता है, जिनमें शामिल हैं:

1. ओवरफिटिंग: यह तब होता है जब किसी मॉडल को प्रशिक्षण डेटा पर बहुत अच्छी तरह से प्रशिक्षित किया जाता है, और यह उस विशिष्ट डेटासेट के लिए अत्यधिक विशिष्ट हो जाता है।
2। डेटा रिसाव: यह तब होता है जब प्रशिक्षण डेटा डेटा के वास्तविक वितरण का प्रतिनिधि नहीं होता है, और मॉडल अंतर्निहित पैटर्न और रिश्तों के बजाय प्रशिक्षण डेटा के पूर्वाग्रहों और सीमाओं को सीखता है।
3. मॉडल जटिलता: यह तब होता है जब एक मॉडल बहुत जटिल होता है और उपलब्ध प्रशिक्षण डेटा की मात्रा के सापेक्ष बहुत सारे पैरामीटर होते हैं।
4। नियमितीकरण की कमी: यह तब होता है जब किसी मॉडल को जटिलता के लिए पर्याप्त रूप से दंडित नहीं किया जाता है, और इसे अंतर्निहित पैटर्न और रिश्तों के बजाय प्रशिक्षण डेटा में शोर को फिट करने की अनुमति दी जाती है।

अति सामान्यीकरण से बचने के लिए, कई तकनीकों का उपयोग किया जा सकता है, जैसे:

1 . नियमितीकरण: इसमें बड़े वजन या जटिल मॉडल को हतोत्साहित करने के लिए हानि फ़ंक्शन में दंड शब्द जोड़ना शामिल है।
2। प्रारंभिक रोक: इसमें मॉडल द्वारा प्रशिक्षण डेटा को ओवरफिट करने से पहले प्रशिक्षण प्रक्रिया को रोकना शामिल है।
3. डेटा संवर्द्धन: इसमें मौजूदा डेटा में रोटेशन, स्केलिंग और फ़्लिपिंग जैसे यादृच्छिक परिवर्तनों को लागू करके अतिरिक्त प्रशिक्षण डेटा उत्पन्न करना शामिल है।
4। संयोजन विधियाँ: इसमें सामान्यीकरण को बेहतर बनाने के लिए कई मॉडलों का संयोजन शामिल है, जैसे बैगिंग और बूस्टिंग।
5। क्रॉस-वैलिडेशन: इसमें डेटा को कई तहों में विभाजित करना और शेष तहों पर इसका मूल्यांकन करते हुए मॉडल को एक तह पर प्रशिक्षित करना शामिल है।