[SlovLit] Fw: besedni zaklad slov. maturantov

Aleš Bjelčevič aleksander.bjelcevic na guest.arnes.si
Sob Feb 3 08:21:01 CET 2001


Pred kakim tednom je izšla knjiga Jureta Zupana s Prešernovimi konkordancami
("Kaj je Prešeren rekel o --- : konkordance samostalnikov v Prešernovih
poezijah"). Čestitam in obenem izkoriščam za repliko k njegovemu
decemberskemu prispevku o besednih zakladih (tekst je spodaj pod mojim). Če
ga prav razumem, je nizek besedni zaklad nekaj slabega. Po mojem pa ni
važno, koliko govoriš, ampak kaj poveš. (Zupan omenja še dva druga članka,
ki  govorita o stavkih in večjih besedilih, ne le o besedah. Pomembne reči
se res dogajajo šele na tem nivoju. Žal teh sestavkov nisem bral, zato bom
govoril le o besedah.)

Pri merjenju besednih zakladov in pri interpretaciji teh rezultatov se mi
zdijo pomembne tele reči:
1. Razlikovati je treba med besedami, ki jih poznaš oz. razumeš (branje
tujih besedil, pasivno) in med besedami ki jih uporabljaš (ustvarjanje
svojih besedil, aktivno). Razmerje je menda 11:1.
2. Število različnih besed (leksemov) je odvisno od velikosti besedila. Z
večanjem besedila je prirastek novih leksemov manjši (na grafu nimamo ravne
črte, ampak krivuljo, ki pada).
Obstaja razlika med žanri: strokovno besedilo ima relativno manj leksemov
kot leposlovno.
3. Kvaliteta besedila ni odvisna od števila uporabljenih leksemov, naše
znanje pa ne od števila besed, ki jih razumemo.
4. Nikoli ne moremo meriti vsega besednega zaklada. Pri aktivnem lahko
merimo le trenutnega, ki je spremenljiv. Pred desetimi leti sem kot športni
novinar uporabljal vsaj sto leksemov, ki jih zadnja leta ne rabim več. In
nasprotno. V enem mescu pa uporabim manj leksemov kot v desetih letih.

ad 2) Razpolagam z omejenimi meritvami (slovaškimi, Suhadolnikovimi in
mojimi), pa vendar: V besedilu s 7000 besedami (Zupanova kvota) bo od 1000
do 2000 leksemov (naši novinarji s 1900 so se torej dobro odrezali);
količnik med besedami B in leksemi L je torej med 7 in 3.5; nižji količniki
so bolj pogosti. Ta količnik pove, kolikokrat se ena beseda ponovi (v
povprečju, seveda). Besedilo z ok. 40 000 besedami pa ima približno 4000 do
6000 leksemov. Količnik približno med 6 in 11. V večjih besedilih je
količnik večji, kar pomeni, da se v večjem besedilu ista beseda ponovi
večkrat. Primerjajo se torej le enako veliki teksti in le teksti iste vrste
(ne moremo primerjati recimo strokovnega z leposlovnim). V poeziji, kjer
imamo opravka s kratkimi teksti, bomo imeli na splošno manjši količnik (manj
ponovitev), kot v dolgih romanih: v Prešernovih Poezijah je količnik 6, v
enako velikem Cankarjevem Potepuhu Marku pa 13.
Pri strokovnih besedilih je več ponavljanj leksemov, pri umetnostnih manj.
Enako velik korpus z enako dolgimi teksti je dal količnika 7.5 in 5.6
(slovaški rezultati).
(Še nekaj k opazki o novinarjih: Zupan pravi, da je pri njih prirastek
leksemov po 3000 uporabljenih besedah začel padati. Jaz sem meril
Stritarjeev eseje  in tega upada pri njem res ni bilo. Imam pa premalo
rezultatov da bi vedel, kje se krivulja začne spuščati.)

ad 3) Znotraj besedila se posamezne besede ponovijo različnokrat. Vezniki,
predlogi in druge nepolnopomenske besede se ponovijo 100-krat, 200-krat,
nekatere pa nastopajo pa le po enkrat. Teh, ki se ponovijo malokrat, je več
(krivulja ima kratko glavo in zelo dolg rep). Ravno ti so tisti, ki
prispevajo h bogastvu zaklada. V praksi pa so zaradi majhne frekvence
verjetno manj relevantni (nerelevantni so seveda tudi tisti z zelo visoko
frekvenco). To je prvi argument zoper to, da bi besedni zaklad pričal o
kvaliteti besedila.
Za drugi argument še nekaj podatkov: Sveto pismo nove zaveze je, zgodovinsko
gledano, najpomembnejše besedilo na Zahodu v zadnjih 2000 letih. V grškem
originalu je med 137 000 besedami 5400 leksemov; v enkrat večjem korpusu
francoskih besedil pa 8000 leksemov. Prešeren ima v Poezijah 2200 leksemov
(v celotnem delu po mojem ne več kot 4000, raje manj, vendar podatkov
nimam), Tavčar v manj pomembnem romanu Janez Sonce 4100 leksemov. Čeprav so
besedila različno velika in jih ne smem primerjati, je vendarle jasno, da
kvaliteta povedanega ni odvisna od števila besed. Prešeren je z dva tisoč
besedami zaznamoval Slovence, Nova zaveza pa s 5400 vso našo civilizacijo.
Oba imata, zgleda, manj besed od ameriškega maturanta (strinjam se z
Zupanom, da je številka 8000 verjetno previsoka, napačna številka). Do
enakega sklepa je prišel Zupan. (Seveda so tudi izjeme; po glavi se mi mota
podatek, da ima Puškinov korpus, ki obsega nekaj sto tisoč besed, 21.000
leksemov.)
Pri merjenju besednega zaklada novinarjev, znanstvenikov ipd. bi mene
zanimal predvsem podatek, kako je zaklad povezan s strokovno učinkovitostjo
in etičnostjo. Vsakdanja izkušnja s časopisi in revijami mi kaže, da so
spisi, v katerih se bohotijo vse mogoče besede, pogosto bolj plehki od
člankov, ki so bolj skromni. Po drugi strani je nabor leksemov v člankih
nekega strokovnjaka zelo odvisen od tipa strokovnega besedila. V preglednem
strokovnem članku bo verjetno več leksemov, v originalni razpravi pa manj.
Verjetno bi se izkazalo, da imajo recimo Einsteinove ali Bohrove ali Bellove
razprave manj leksemov od učbenika Fizika 1-4!
Zato mislim, da skromen besedni zaklad ni stvar, ki naj bi zanimala šolske
oblasti. Besedni zaklad ni merilo znanja in modrosti.
>----- Original Message -----
>From: JURE <jure.zupan na ki.si>
>To: 'Miran Hladnik' <miran.hladnik na guest.arnes.si>
>Sent: 08. december 2000 10:03
>Subject: RE: [SlovLit] Fw: besedni zaklad slov. maturantov
>
>
>Spoštovani kolegi
>
>Informacija o besednih zakladih.
>
>Bogastvo besednega zaklada  posameznih skupin slovenskega prebivlastva je,
>vsaj po mojem mnenju, eden temeljnih podatkov, ki bi lahko odgovoril na
>precej
>vprašanj, ki so se z vso resnostjo pokazala ob objavi rezulktatov študije
>OECD
>o funkcionalni nepismenosti  v 23 državah. Slovenija se je odrezal
>zaprepaščujoče
>slabo (o tem sem pisal v Delu, Znanje, oktober 2000). Prav nizka besedilna
>pismenost (sposobnost razumevanja prebranega besedila) pri vseh kategorijah
>Slovencev (posredno) kaže  na dejstvo, da je:
>
>a) njihov besedni zaklad majhen in
>b) da tudi tistih besed, ki jih posamezniki obvladajo in razumejo, ne znajo
>povezovati v smiselne enote.
>
>Ob študiji besednega zaklada slovenskih novinarjev (Delo, 30. januar 1997,
>stran 13)
>se je pokazalo, da so v tekstih, ki so obsegali cca 7000 besed, uporabljali
>v povprečju
>nekaj več kot 1900 različnih. Pri tem je pomembno, da je število različnih
>besed ob
>dodajanju novih tekstov pri vseh šestih novinarjih že po 3000 besedah
>pričelo zaostajati
>za številom vseh besed (krivulja je kazala znake >nasičenja<). Zato ni
>pretirano domnevati,
>da bi bil, ob še tako velikem številu pregledanih besedil, besedni zaklad
>povprečnega
>slovenskega novinarja verjetno pod  10,000 različnih besed.
>
>Za ZDA bi si upal s precejšnjo gotovostjo trditi, da je besedni zaklad
>pišočega profesionalnega
>novinarja večji kot besedni zaklad njihovega maturanta (če sem malo
hudoben,
>lahko
>dodam, da o tem nisem povsem preprican za povprecnega slovenskega
>novinarja).
>Zato je najbolj bistven del vprašanja gospoda Gradišnika ("pri prevajanju
>sem prišel do
>podatka, da ameriški gimnazijski maturant obvlada 80.000 besed"), kaj
pomeni
>beseda obvlada.
>Če pomeni razumevanje besede, je številka 80,000 morebiti smiselna, čeprav
>verjetno pretirana.
>Število bi se prav gotovo vsaj prepolovilo, če bi od maturantov zahtevali
>definicije ali
>razlage besed. Če pa beseda "obvlada" pomeni aktivno uporabo besede, je
>podatek
>povsem zanesljivo pretiran. Za primerjavo je treba vedeti, da ima SSKJ v
>vseh petih
>volumnih (oziroma v integralni obliki) skupaj(!) okrog 121,000 gesel,
>Webstrov slovar
>ameriškega jezika pa z vsemi dodatki na skoraj 2000 straneh okrog 160,000
>gesel.
>Zato se mi zdi podatek o 80,000 uporabljanih besedah pri maturantih vsaj za
>faktor
>10 previsok.
>
>Prešeren je, npr., v vseh svojih poezijah in pesmih uporabil skupno 25,600
>besed
>med katerimi je bilo nekaj čez 7000 samostalnikov. Od vseh 7000
uporabljenih
>
>samostalnikov je bilo le nekaj čez 1000 razlicnih. (Moje konkordance vseh
>Prešernovih
>samostalnikov bodo izšle pri Mladinski knjigi čez kakšen mesec ali dva).
>Groba
>ocena različnih besed, ki jih je Prešeren v vsem svojem delu uporabil, je
>precej pod 10,000;
>skeptična ocena bi se lahko gibala do okrog 5000.  Kljub >silnemu napredku<
>informacijske tehnolgije, bi bil zelo previden pri sklepanju, da
uporabljajo
>današnji
>maturantje kaj več različnih besed kot Prešeren.
>
>Problem besednega zakalad bi prav gotovo zaslužil vso pozornost slovenskih
>jezikoslovcev,
>še posebej pa šolskih oblasti. Verjetno bi se dale narediti zelo zanimive
>študije,  tudi z
>doktorskimi tezami in mednarodnmi publikacijami kot koncnim rezultatom, če
>bi se
>problema lotili resno. Precjšen del računalniških programov in slovarjev,
ki
>so za
>take raziskave potrebni, že obstaja obstaja. Trenutno edini večji problem
>pri
>računalniški obdelavi velikih količin besedil je avtomatičen izbor
besednega
>gesla
>za vsako besed, ker računalnik pri vsaki besedi v povprečju(!) navede dve
do
>tri
>možnosti, ki jih je treba >ročno< razrešiti. Če bi koga take raziskave
>zanimale,
>sem pripravljen pomagati.
>
>Lep pozdrav vsem
>
>Jure Zupan
>
>----- Original Message -----
>From: Branko Gradišnik <branko.gradisnik na guest.arnes.si>
>To: Miran Hladnik <miran.hladnik na guest.arnes.si>
>Sent: 04. december 2000 16:22
>Subject: besedni zaklad slov. maturantov
>
>> Miran,
>> pri prevajanju sem prišel do podatka, da ameriški gimnazijski maturant
>> obvlada 80.000 besed (kar sicer dvomim). V opombo bi vnesel, kakšno naj
bi
>> bilo maturantsko besedišče pri nas -- ali morda slavisti imate vsaj
>> približen podatek? (In kolišen torej je...?)
>> Hvala
>>
>> Lep pozdrav, B.G.
>> Branko.Gradisnik na guest.arnes.si
>
>
>_______________________________________________
>SlovLit mailing list
>http://mailman.ijs.si/listinfo/slovlit
>Prispevke pošiljajte v goli besedilni obliki (Format --> Plain Text) na
naslov slovlit na ijs.si. Šumevce prikličite na zaslon z izbiro Format -->
Encoding --> Central European (ISO).
>


Dodatne informacije o seznamu SlovLit