[Solomonov Seminar] 67. Solomonov seminar
Marko Grobelnik
marko.grobelnik@ijs.si
Mon, 21 Jan 2002 00:43:41 +0100
Vabim vas na 67. Solomonov seminar, ki bo
v torek, 22.1.2001 ob 13.uri v veliki predavalnici IJS.
O tematikah, ki se ukvarjajo z analizo besedil (text-mining) smo ze nekajkrat govorili -
tokrat si bomo ogledali dve temi s katerimi se je ukvarjala Dunja Mladenic
med svojim postdoc obiskom na Carnegie Mellon University v Pittsburghu.
Prva tema govori o tem kako avtomatsko izdelati postopek za normalizacijo
besed (stemming) - torej, kako besedo iz sklona ali spregatve spravimo
v normlizirano obliko. V drugi temi pa bo predstavila sistem Corpus-Builder,
ki se sprehaja po webu in zbira dokumente na doloceno tematiko.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Dunja Mladenic:
Avtomatska lematizacija in avtomatska gradnja korpusov
Pri obdelavi besedil sodi med osnovne prijeme tudi postopek, ki ga
imenujemo v anglescini "stemming" - po slovensko pa mu recemo krnjenje
ali pa v svoji bolj bogati obliki lematizacija. Vecji jeziki (pa so to ne vsi)
tak postopek ze imajo. Problem seveda nastopi, ce obdelujemo neangleske
jezike, ki takih postopkov se nimajo izdelanih. Z nasim pristopom tak postopek
zgradimo avtomatsko z metodami strojnega ucenja. Na predavanju bomo
prikazali uvodne eksperimente na primeru slovenskega jezika, ki so precej obetavni.
V drugem delu seminarja si bomo ogledali postopek za avtomatsko
konstrukcijo korpusa za doloceno tematiko. Na kratko povedano,
gre za postopek, ki s pomocjo javnih iskalnikov zbere mnozico
dokumentov, ki imajo neko skupno lastnost - npr. tematsko,
ali jezikovno.