[Solomonov Seminar] 67. Solomonov seminar

Marko Grobelnik marko.grobelnik@ijs.si
Mon, 21 Jan 2002 00:43:41 +0100


Vabim vas na 67. Solomonov seminar, ki bo
v torek, 22.1.2001 ob 13.uri v veliki predavalnici IJS.

O tematikah, ki se ukvarjajo z analizo besedil (text-mining) smo ze nekajkrat govorili - 
tokrat si bomo ogledali dve temi s katerimi se je ukvarjala Dunja Mladenic 
med svojim postdoc obiskom na Carnegie Mellon University v Pittsburghu.
Prva tema govori o tem kako avtomatsko izdelati postopek za normalizacijo 
besed (stemming) - torej, kako besedo iz sklona ali spregatve spravimo
v normlizirano obliko. V drugi temi pa bo predstavila sistem Corpus-Builder,
ki se sprehaja po webu in zbira dokumente na doloceno tematiko.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Dunja Mladenic:
      Avtomatska lematizacija in avtomatska gradnja korpusov

Pri obdelavi besedil sodi med osnovne prijeme tudi postopek, ki ga 
imenujemo v anglescini "stemming" - po slovensko pa mu recemo krnjenje 
ali pa v svoji bolj bogati obliki lematizacija. Vecji jeziki (pa so to ne vsi) 
tak postopek ze imajo. Problem seveda nastopi, ce obdelujemo neangleske 
jezike,  ki takih postopkov se nimajo izdelanih. Z nasim pristopom tak postopek 
zgradimo avtomatsko z metodami strojnega ucenja. Na predavanju bomo 
prikazali uvodne eksperimente na primeru slovenskega jezika, ki so precej obetavni.

V drugem delu seminarja si bomo ogledali postopek za avtomatsko
konstrukcijo korpusa za doloceno tematiko. Na kratko povedano,
gre za postopek, ki s pomocjo javnih iskalnikov zbere mnozico 
dokumentov, ki imajo neko skupno lastnost - npr. tematsko,
ali jezikovno.