[SlovLit] Potica -- DH-centri -- Slovenščina : slovenčina

Miran gmail miranhladnik1 na gmail.com
Pon Feb 4 08:42:14 CET 2013


From: "Simon Krek" <simon.krek na guest.arnes.si>
To: <slovlit na ijs.si>
Date: Sat, 2 Feb 2013 10:46:27 +0100
Subject: Leposlovna potica & Gigafida

http://demo.gigafida.net/Concordance/Search?q=potica&ftt=3 (leposlovna
besedila 1990-2012)

---

Od: Marija Cvetek <marija.cvetek1 na gmail.com>
Datum: 02. februar 2013 20:43
Zadeva: Re: [SlovLit] Potica -- Re: Avtorice v Tübingenu -- Slovanska fonetika

Ta hip nimam pri roki Vodnikovih pesmi, a "njegove" terice prav gotovo
"potico, pogačo jedo ... "

Lp! Marija Cvetek

===

http://digitalhumanities.org/centernet/ -- Centernet, agregat
digitalnih humanistik po svetu; nam najbližja je v Gradcu, v Sloveniji
ni očitno nobene.

===

From: Simon Krek <simon.krek na guest.arnes.si>
Date: 2013/2/2
Subject: [SDJT-L] FW: SNK

Pozdravljeni, zanimiva primerjava med slovaščino in slovenščino -
stanje pri prosto dostopnih jezikovnih virih (glej spodaj):

From: registration na korpus.sk [mailto:registration na korpus.sk]
Sent: Friday, February 01, 2013 12:30 PM
To: undisclosed-recipients:
Subject: SNK - preregistracia 2013

Vazeni pouzivatelia Slovenskeho narodneho korpusu,

V roku 2012 pribudli do celku Slovenskeho narodneho korpusu tieto polozky:

- nova verzia zakladneho pisaneho korpusu prim-6.0 v rozsahu 1,16
miliardy tokenov a prislusne podkorpusy
Slovenščina: Gigafida - 1,2 milijarde besed (http://www.gigafida.net)
STANJE PRI SLOVENŠČINI IDENTIČNO

- nova verzia podkorpusu textov z obdobia rokov 1955 - 1989
r55az89-3.0 v rozsahu takmer 63 mil. tokenov
Slovenščina: takega korpusa ni, deloma pokrito z dvema zbirkama
    - digitalizirana 3,4-milijonska listkovna kartoteka na ZRC SAZU
(ni OCR-ana in prosto dostopna)
    - del Nove besede iz let pred 1990 (kakšen je ta delež?)
STANJE PRI SLOVENŠČINI SLABŠE

- nova verzia slovenskeho weboveho korpusu web-2.0 v rozsahu 1,05
miliardy tokenov
Slovenščina:
- 380-milijonski korpus na http://www.nljubesic.net/resources/corpora/slwac/
- 200-milijonski spletni delež v Gigafidi
STANJE PRI SLOVENŠČINI SLABŠE

- nova verzia Slovenskeho hovoreneho korpusu s-hovor-4.0 v rozsahu 2
mil. 612 tis. tokenov s novymi podkorpusmi
Slovenščina: korpus govorjene slovenščine Gos - 1 milijon besed
STANJE PRI SLOVENŠČINI SLABŠE

- nova verzia slovensko-ceskeho paralelneho korpusu par-skcs-2.0 v
rozsahu 6,4 mil. parov viet
Slovenščina: ne obstaja oz. ni primerljivo

- nova verzia slovensko-anglickeho paralelneho korpusu par-sken-2.0 v
rozsahu 10 mil. parov viet
Slovenščina: EU DGT (20 milijonov)
http://nl.ijs.si/tei/teiHeaders/dgt-teiHeader-sl.html
STANJE PRI SLOVENŠČINI BOLJŠE

- slovensko-latinsky paralelny korpus par-skla-1.0 v rozsahu 1,5 mil. tokenov
Slovenščina: ne obstaja oz. ni primerljivo

- historicky korpus slovenciny hks-1.0 v rozsahu 370 tis. tokenov
Slovenščina:
- IMP 8,8 milijonov pojavnic (http://nl.ijs.si/imp/)
STANJE PRI SLOVENŠČINI BOLJŠE

- elektronicke verzie publikacii Pramene k dejinam slovenciny 1., 2., 3.
Slovenščina: ne obstaja oz. ni primerljivo

- slovniky typu WordNet: slovensky v rozsahu 22 tis. synsetov,
litovsky v rozsahu 12 tis. synsetov
Slovenščina: 20.000 sinsetov

STANJE PRI SLOVENŠČINI IDENTIČNO
- nastroj na tvorbu a rekonstrukciu morfologickych znaciek
(http://korpus.sk/tag/tag.py)
Slovenščina: ne obstaja oz. ni primerljivo

Za kolektiv SNK JULS SAV
Maria Simkova
veduca oddelenia


Dodatne informacije o seznamu SlovLit