[Solomonov Seminar] 93. Solomonov seminar
Marko Grobelnik
marko.grobelnik@ijs.si
Mon, 21 Oct 2002 00:12:11 +0200
Vabim vas na 93. Solomonov seminar, ki bo v torek,
22. oktobra 2002 ob 13. uri v Oranzni predavalnici IJS/E8
(2. nadstropje glavne zgradbe IJS). Posnetki in materiali
preteklih seminarjev so dostopni na http://solomon.ijs.si/.
Tokrat nam bo Jure Leskovec predstavil delo, ki ga je opravil
skupaj z John Shawe-Taylorjem. Gre pa za analizo "cudnih"
podatkov, ki so izrazito neuravnotezeni kar se tice distribucij.
Po domace povedano - vprasanje je, kako opisati kaj razlikuje
eno "kapljico" v morju podatkov. Rezultati so zanimivi, pokazal
pa jih bo na primeru Reutersovih novic, kjer bo skusal karakterizirati
znacilnosti ene tematike v morju vseh ostalih.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Jure leskovec
Strojno ucenje na zelo neuravnotezenih porazdelitvah
V strojnem ucenju pri problemu klasifikacije v dva razreda
pogosto naletimo na problem, ko imamo opravka s podatki,
kjer mocno prevladuje eden od obeh razredov. Z vidika klasifikacijske
tocnosti bi bil najboljsi tak klasifikator, ki bi vse primerke uvrstil
v vecinski razred. Tega si obicajno ne zelimo, saj so za nas se
posebej dragoceni pravilno klasificirani primerki manjsinskega razreda.
Tako hocemo cim manj napacno klasificiranih primerkov manjsinskega
razreda, medtem ko smo do napacno klasificiranih primerkov
vecinskega razreda bolj strpni.
Problema sem se lotil z uporabo 'boostinga'; to je postopka, ki s
kombininacijo sibkih klasifikacijskih pravil sestavi eno ucinkovito pravilo.
Ogledali si bomo 4 razlicne metode boostinga: od klasicnegega AdaBoost
do bolj naprednih, ki resujejo problem linearnega programiranja in tako
hitreje konvergirajo ter dosegajo boljse rezultate. Z vpeljavo linearnega
programiranja pridobimo nekaj lepih lastnosti, ki jih AdaBoost sam po
sebi nima. Pokazal bom se nekaj obetavnih rezultatov, ki sem jih dobil
pri klasifikaciji besedil z uporabo korpusa casopisnih clankov
Reuters-21578, kjer sem se osredotocil na male kategorije.