[Solomonov Seminar] 93. Solomonov seminar

Marko Grobelnik marko.grobelnik@ijs.si
Mon, 21 Oct 2002 00:12:11 +0200


Vabim vas na 93. Solomonov seminar, ki bo v torek, 
22. oktobra 2002 ob 13. uri v Oranzni predavalnici IJS/E8
(2. nadstropje glavne zgradbe IJS). Posnetki in materiali 
preteklih seminarjev so dostopni na http://solomon.ijs.si/.

Tokrat nam bo Jure Leskovec predstavil delo, ki ga je opravil
skupaj z John Shawe-Taylorjem. Gre pa za analizo "cudnih"
podatkov, ki so izrazito neuravnotezeni kar se tice distribucij.
Po domace povedano - vprasanje je, kako opisati kaj razlikuje 
eno "kapljico" v morju podatkov. Rezultati so zanimivi, pokazal
pa jih bo na primeru Reutersovih novic, kjer bo skusal karakterizirati
znacilnosti ene tematike v morju vseh ostalih.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Jure leskovec
       Strojno ucenje na zelo neuravnotezenih porazdelitvah

V strojnem ucenju pri problemu klasifikacije v dva razreda 

pogosto naletimo na problem, ko imamo opravka s podatki, 

kjer mocno prevladuje eden od obeh razredov. Z vidika klasifikacijske 

tocnosti bi bil najboljsi tak klasifikator, ki bi vse primerke uvrstil 

v vecinski razred. Tega si obicajno ne zelimo, saj so za nas se 

posebej dragoceni pravilno klasificirani primerki manjsinskega razreda. 

Tako hocemo cim manj napacno klasificiranih primerkov manjsinskega 

razreda, medtem ko smo do napacno klasificiranih primerkov 

vecinskega razreda bolj strpni.

 

Problema sem se lotil z uporabo 'boostinga'; to je postopka, ki s 

kombininacijo sibkih klasifikacijskih pravil sestavi eno ucinkovito pravilo. 

Ogledali si bomo 4 razlicne metode boostinga: od klasicnegega AdaBoost 

do bolj naprednih, ki resujejo problem linearnega programiranja in tako 

hitreje konvergirajo ter dosegajo boljse rezultate. Z vpeljavo linearnega 

programiranja pridobimo nekaj lepih lastnosti, ki jih AdaBoost sam po 

sebi nima. Pokazal bom se nekaj obetavnih rezultatov, ki sem jih dobil 

pri klasifikaciji besedil z uporabo korpusa casopisnih clankov 

Reuters-21578, kjer sem se osredotocil na male kategorije.