Commit 873820a2 authored by Linda Freienthal's avatar Linda Freienthal
Browse files

estonian snowball 1.2

parent f8189042
,lindafr,Firetruck,21.01.2019 15:33,file:///home/lindafr/.config/libreoffice/4;
\ No newline at end of file
No preview for this file type
No preview for this file type
See http://snowballstem.org/ for more details.
Here's Snowball for Estonian.
Here's Snowball for Estonian version 1.0.
In order to test it:
......@@ -12,4 +12,6 @@ Ignore the error messages :)
the result appears in file 'TEMP-txt'
This contains the source code for the snowball compiler and has been edited by Linda. The code original git version is here: https://github.com/snowballstem/snowball/tree/e103b5c257383ee94a96e7fc58cab3c567bf079b
This contains the source code for the snowball compiler and has been edited by Linda.
The code original git version is here: https://github.com/snowballstem/snowball/tree/e103b5c257383ee94a96e7fc58cab3c567bf079b
luge
luge
luge
luge
luge
joo
söö
söö
söö
söö
joosta
rooma
jääma
jääma
plaati
konnatiiki
konnatiigi
bioloogi
puusärk
kingi
kinki
seda
värki
masinavärk
läksidki
hüpa
asdari
kirjutata
hüpa
rita
kokkuvõ
kokkuvõte
kokkuvõte
kokkuvõte
kokkuvõte
kokkuvõte
tort
tort
sort
tordi
raama
raama
raama
raama
raama
raama
raama
raama
raamatutestki
hele
hele
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpati
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
joo
sirgjoo
joo
......@@ -6,12 +114,35 @@ jootekser
joo
söö
löö
ö
ö
i
i
löö
löö
tap
tapeti
tape
tapa
tapa
tapa
tapi
tap
tap
tap
tap
tap
tapa
tapa
tapa
tapa
tapa
tapa
tapa
tapma
tap
tape
tap
tap
abikaasa
......@@ -37,7 +168,6 @@ vigase
vigase
klohmi
klohmi
klohmin
klohmi
klohmi
klohmi
......@@ -45,6 +175,7 @@ klohmi
klohmi
klohmi
klohmi
klohminutestki
nõiasaa
nõiasaa
nõiasaa
......@@ -60,7 +191,7 @@ juhti
juht
juhti
nauti
naudin
naudi
nauti
naudi
naudi
......@@ -72,7 +203,7 @@ puhkus
puhkuse
puhkus
jätka
jätkata
jätka
jätka
jätka
jätka
......@@ -87,7 +218,7 @@ eduka
eduka
eduka
eduka
edukam
eduka
eduka
eduka
eduka
......@@ -111,7 +242,7 @@ kana
kanali
kanale
kanale
kott
kote
tort
ahikü
alusas
......@@ -134,10 +265,10 @@ kasti
tort
tordi
torti
tordi
tordistki
tordi
tort
torti
tortidestki
kõrb
kõrbe
kõrbe
......@@ -147,13 +278,13 @@ kõrbe
kõrbe
kõrbe
kõrbe
sam
samma
sambla
sam
samma
sambla
sammal
sammalde
sambla
sammal
sammalde
sambla
hülje
hülge
......@@ -180,14 +311,13 @@ hobus
hobuse
hobus
halva
hal
halba
halva
halva
hal
hal
halba
halbu
halba
halvem
halve
halve
halve
......@@ -195,7 +325,8 @@ halve
halve
halve
halve
halvim
halve
halvi
halvi
halvi
halvi
......@@ -212,7 +343,6 @@ heleda
heleda
heleda
heleda
heledam
heleda
heleda
heleda
......@@ -221,7 +351,8 @@ heleda
heleda
heleda
heleda
heledaim
heleda
heleda
heleda
heleda
heleda
......@@ -248,7 +379,6 @@ tarku
tarka
tarka
targu
targem
targe
targe
targe
......@@ -257,7 +387,8 @@ targe
targe
targe
targe
targim
targe
targi
targi
targi
targi
......@@ -313,8 +444,8 @@ soovi
Luba
sööma
joomata
laul
joo
laulma
kirjuta
rõõmusta
......@@ -343,17 +474,17 @@ nimeta
nimeta
nimeta
tõus
tõusma
tõus
tõusta
tõuse
tõusin
tõusi
tõusi
tõusku
tõusev
tõus
tõus
tõustakse
tõus
haka
haka
......@@ -370,7 +501,7 @@ haka
haka
haka
hakati
hakata
haka
hakatav
haka
hakatagu
......@@ -383,7 +514,6 @@ ohu
ohu
ohu
ohu
ohutum
ohu
ohu
ohu
......@@ -392,7 +522,8 @@ ohu
ohu
ohu
ohu
ohutuim
ohu
ohu
ohu
ohu
ohu
......@@ -409,14 +540,14 @@ laula
laula
laula
laula
laulsin
laul
lauli
laulgu
laulev
laul
lauldakse
lauldu
laulva
laul
laul
laul
küll
......@@ -435,7 +566,7 @@ käsi
käe
kätt
käele
kätt
käte
käed
käte
käsi
......@@ -447,8 +578,8 @@ saa
saa
saa
saa
saaksin
saaksi
saa
saa
kui
ministrikoht
ministrikoha
......@@ -482,9 +613,9 @@ esimees
esimehi
esimees
pole
kõrgharidu
kõrghari
kõrghariduse
kõrgharidu
kõrghari
kõrghariduse
kõrghariduse
kõrgharidus
......@@ -532,7 +663,7 @@ kehetesta
kehtesta
kehtesta
kehtesta
kehtesta
kehtes
omamine
omamise
omami
......@@ -556,7 +687,7 @@ nõuete
ütle
öeldagu
ütle
ütleva
ütle
ta
isikliku
seda
......@@ -567,8 +698,8 @@ toeta
toeta
toeta
toeta
toetava
toetava
toeta
toeta
kuid
erakond
erakonna
......@@ -590,12 +721,12 @@ hääleta
hääleta
hääleta
hääleta
hääletava
hääleta
loot
hääleta
lootma
looda
loot
lootva
loot
loot
looda
loodetagu
......@@ -616,9 +747,9 @@ vajaliku
vajaliku
vajaliku
vajaliku
vajalik
vajalik
vajalik
vajaliku
vajaliku
vajaliku
õping
õpingu
õpingu
......@@ -641,7 +772,7 @@ vaata
vaata
vaata
vaada
vaatava
vaata
vaata
video
video
......
This diff is collapsed.
Kui palju on eesti keeles verbe, mille tüvi koosneb ühest lahtisest silbist? (joo-nud, söö-ma, või-ma, too-ma, saan-ud, käi-nud). See on probleem, kuna Snowball tegutseb CVC[suvaline arv tähti+lõpp] piires (ei lähe ettepoole, kui sõna alguses olev jada, kus on konsonant, vokaal(id) ja konsonant EHK vaatab joon[ud], käim[a], ega saa 'nud' ja 'ma'-d kätte ning ma tahaks neile erandi teha.
+ LUGEMA, LOEN
{'täima', 'lööma', 'naima', 'käima', 'muuma', 'müüma', 'kaema', 'näima', 'jooma', 'jääma', 'looma', 'pooma', 'määma', 'sööma', 'saama', 'viima', 'võima', 'tooma', 'keema'}
Siis on mul veel probleem 'me'-ga, kuna substantiividega tükeldab asi nii:
//võime, võime, võime-t, võime-le, võime-d, võime-te, võime-id, võime-te-le
//jooksmisvõi-me, jooksimisvõi-me, võime-t, võime-le, võime-d, võime-te, võime-id, võime-te-le
//seeme, seemne, seeme-t, seemne-le, seemne-d, seemne-te, seemne-id, seemne-te-le
//pääse, pääsme, pääse-t, pääsme-le, pääsme-d, pääsme-te, pääsme-id, pääsme-te-le
Aga verbi pl3 pööre on ka 'me'-lõpuline:
//saadame, saatsime.
Üks variant on pärast nimisõna-analüüsi eemaldada kõik -me lõpud sõnadel, siis läheksid juba sama tüvega sõnad lühemaks lihtsalt. Samas võib niimoodi lemmade homonüümia suurendeda.
Kui ma verbilt lõpuinfo eemaldan ja substantiivilt, siis osadel tulevad samad lemmad: laul-dakse == laul (samas on sõna 'laul' võimalikud lemmad laul, laulu, laule). RAUL ÜTLES, ET SEE POLE PROBLA.
laul-sin vrs apel[sin]
saat[is], laul[is] vrs jäät[is], programm[is]
//jäät[is], jäätise, jääti-st, jäätise-le, jäätis-te, jäätise-id, jäätis-te-le
tegite, jooksite vrs ministr[ite], redeli[te]
//minister, ministri, ministri-t, ministri-le, ministr[i-te], ministre-id, ministri-te-le
jooksid, sööksid, laulaksid vrs komple[ksi-d], saksi-d, inde[ksi-d], pron[ksi-d]
KESKVÕRDE AINSUSE NIMETAV: heleda-m, tugeva-m (pole vb nii levinud? heleda-ma-le), aga 'kam-m','bussijaa-m', 'kasu-m'.
S (39,24% inessiivi substantiividest, 51,63% inessiivi substantiivid-KS)
sg g 2
sg n 682,038 (KS on 89186) (-KS on 592,852)
pl n 221,708
pl tr 26859 (KS)
sg tr 415675 (KS)
sg in 759,729
pl in 109,816
v:
tuks 172
nuks 2670
maks 2982
des 104891
neg ks 4422
neg nuks 47
s 496685
taks 4354
ks 145258
mas 27736
IS ()
sg n 56,596
pl n 130,700
sg in 214,004
pl in 7,106
v:
s 142708
KS
sg tr 415,675
sg n 89,186
pl tr 26,859
v:
tuks 172
nuks 2,670
maks 2,982
neg ks 4,422
neg nuks 47
s 9,328
taks 4,354
ks 145,258
ES (67,51% inessiivi substantiividest)
sg n 57,943
pl n 91,008
pl in 101,883
sg in 207,558
v:
des 104891
s 72344
DES
sg n 1,573
pl in 53,248
sg in 1,829
v:
des 69015
s 2323
TES
pl in 41,079
sg n 1,193
sg in 14,862
v:
des 24145
L (AD 84,67%)
pl ad 213,621
sg ad 739,110
sg n 172,467
v:
00
T (45,69% siit on sg p, 73,85% sg p hulgast(kõik -ST -LT)
sg p 768,924 olulist saabast
sg g 72
pl el 148,600 saabastest (-ST 5,258)
sg abl 68,218 raamatult (-LT 64)
pl abl 17,934 raamatutelt (-LT 638)
sg n 265,400 kast
sg el 413,693 saapast (-ST 831)
v:
neg vat 302
tavat 242
vat 10176
mast 3160
tuvat 2
nuvat 14
vat
sg p 28,517
pl el 5,258
sg abl 64
pl abl 631
sg n 599
sg el 831
v:
neg vat 302
tavat 242
vat 10176
mast 1
tuvat 2
nuvat 14
ST (58,26% kõigist. 60,40% pl el+sg el+sg p)
sg p 364,734
sg g 72
sg n 33,428
pl el 143,342
sg el 412,862
v:
mast 3159
LT
sg p 9,810
sg n 9,139
sg abl 68,154
pl abl 17,303
v:
00
NI (20,93% terminatiivi kõigist, 25,66% terminatiivi ter-ist, sg g-st ja sg n-ist)
sg p 30,507
sg g 104,899
pl p 1,048
sg n 18,597
adt 5,999
sg ter 36,778
pl ter 5,846
v:
o 814
s 3380
NA (27,23% kõigist, 40,04% essiiv+sg g+sg n)
sg p 8,867
sg g 123,764
sg n 47,950
adt 3,160
sg es 62,074
pl es 6,677
v:
da 20,259
o 3130
TA (10,95% kõigist, 11,50% abessiiv+sg g+sg n)
sg p 7,706
sg g 83,260
sg n 107,597
adt 2,980
sg ab 20,664
pl ab 4,125
v:
da 131,066
o 39420
ta 9637
mata 15508
GA (87,74%)
sg p 25,586
sg g 28,198
sg n 20,272