Разумевање и избегавање прекомерне нормализације у моделима машинског учења
Прекомерна нормализација је феномен који се јавља када је модел превише добро обучен на подацима за обуку, и као резултат тога, постаје превише специјализован за тај специфични скуп података. Ово може довести до лошег рада модела на новим, невидљивим подацима, јер није научио карактеристике или обрасце који се могу генерализовати који су применљиви на шири спектар ситуација.ӕӕ Другим речима, прекомерна нормализација се дешава када се модел превише уклапа у податке за обуку , и не учи довољно знања која се могу генерализовати из података. Као резултат тога, модел можда неће моћи да се генерализује добро на нове, невидљиве податке.ӕӕПретерану нормализацију може изазвати низ фактора, укључујући:ӕӕ1. Прекомерно прилагођавање: Ово се дешава када је модел превише добро обучен за податке о обуци и постане превише специјализован за тај специфични скуп података.ӕ2. Цурење података: Ово се дешава када подаци о обуци нису репрезентативни за праву дистрибуцију података, а модел учи пристрасности и ограничења података о обуци, а не основне обрасце и односе.ӕ3. Сложеност модела: Ово се дешава када је модел превише сложен и има превише параметара у односу на количину доступних података за обуку.ӕ4. Недостатак регуларизације: Ово се дешава када модел није довољно кажњен због сложености и дозвољено му је да уклопи шум у податке о обуци, а не у основне обрасце и односе.ӕӕДа би се избегла прекомерна нормализација, може се користити неколико техника, као што су:ӕӕ1 . Регуларизација: Ово укључује додавање казненог термина функцији губитка да би се обесхрабрили велики тежине или сложени модели.ӕ2. Рано заустављање: Ово укључује заустављање процеса обуке пре него што модел преклопи податке о обуци.ӕ3. Повећање података: Ово укључује генерисање додатних података за обуку применом случајних трансформација на постојеће податке, као што су ротација, скалирање и окретање.ӕ4. Методе ансамбла: Ово укључује комбиновање више модела да би се побољшала генерализација, као што су складиштење и појачавање.ӕ5. Унакрсна валидација: Ово укључује раздвајање података у више преклопа и обуку модела на једном прегибу док га процењујете на преосталим преклопима.



