Tasakaalustamata andmed on andmetüüp, mille puhul kaks või enam teabeklassi on ebavõrdselt esindatud. Seda tüüpi andmed on levinud masinõppe ja prognoosiva analüüsi valdkonnas. See esineb siis, kui ühe klassi andmepunktide kogus on oluliselt suurem kui kõigi teiste klasside kogus.

Ebaühtlased andmed võivad olla masinõppe algoritmidele probleemiks. Kui prooviandmed sisaldavad liiga palju või liiga vähe ühe klassi andmepunkte, ei pruugi algoritm olla võimeline mustreid õigesti tuvastama. Selle tulemusena võivad algoritmi tehtud ennustused olla ebatäpsed. Selleks, et mudel oleks täpsem, tuleb andmed tasakaalustada, et tagada kõigi klasside sarnane esindatus.

Andmete tasakaalustamiseks võib kasutada andmete valimi võtmise meetodeid, nagu üle- ja alamproovide võtmine (oversampling ja undersampling). Üleliigse proovivõtu puhul lisatakse valimisse rohkem andmepunkte vähem esindatud klassist. Teisest küljest on alamproovide võtmine protsess, mille käigus eemaldatakse andmepunkte klassist, kus on rohkem esindatust. Andmekogumi tasakaalustamisega saavad masinõppe algoritmid luua paremaid mudeleid ja teha täpsemaid prognoose.

Ebaühtlased andmed võivad avaldada sügavat mõju masinõppes kasutatavatele andmekogumitele. Seetõttu on oluline astuda samme, et tagada kasutatavate andmekogumite tasakaalustatus, et luua usaldusväärseid mudeleid ja saada täpseid tulemusi.

Vali ja osta proxy

Andmekeskuse proksid

Pöörlevad proksid

UDP Proxy'd

Usaldab üle 10 000 kliendi kogu maailmas

Puhverklient
Puhverklient
Puhverklient flowch.ai
Puhverklient
Puhverklient
Puhverklient