Commit f8189042 authored by Linda Freienthal's avatar Linda Freienthal
Browse files

Improvements made

parent f9ce378a
,lindafr,Firetruck,21.01.2019 15:33,file:///home/lindafr/.config/libreoffice/4;
\ No newline at end of file
No preview for this file type
joo
sirgjoo
joo
joo
jootekser
joo
söö
löö
löö
löö
löö
löö
abikaasa
vigase
klohmiv
......@@ -21,7 +37,7 @@ vigase
vigase
klohmi
klohmi
klohm
klohmin
klohmi
klohmi
klohmi
......@@ -44,7 +60,7 @@ juhti
juht
juhti
nauti
naud
naudin
nauti
naudi
naudi
......@@ -56,7 +72,7 @@ puhkus
puhkuse
puhkus
jätka
jätka
jätkata
jätka
jätka
jätka
......@@ -216,7 +232,7 @@ heleda
heledaimi
saade
saate
saa
saade
saate
saade
......@@ -257,7 +273,7 @@ leki
miljoni
e-postiaadressi
miljo
miljo
miljoni
miljoni
miljoni
miljoni
......@@ -265,14 +281,14 @@ parooli
hunt
ütle
inime
juht
juhti
eelmise
nädala
jooksu
tema
tähelepa
suuruse
keskon
keskonda
üle
laetu
faili
......@@ -287,7 +303,7 @@ kadu
siiani
kättesaadav
ühe
foorum
foorumi
mille
nime
turvakaalutlus
......@@ -297,7 +313,7 @@ soovi
Luba
sööma
jooma
joomata
laul
kirjuta
......@@ -331,13 +347,13 @@ tõus
tõus
tõusta
tõuse
tõus
tõus
tõusin
tõusi
tõusku
tõusev
tõus
tõus
tõus
tõustakse
haka
haka
......@@ -354,7 +370,7 @@ haka
haka
haka
hakati
haka
hakata
hakatav
haka
hakatagu
......@@ -386,19 +402,19 @@ ohu
ohu
laulma
laul
laulda
laula
laula
laula
laula
laula
laula
laul
laul
laulsin
lauli
laulgu
laulev
laul
laul
lauldakse
lauldu
laulva
......@@ -424,15 +440,15 @@ käed
käte
käsi
käte
saama
saan
saad
saame
saate
saava
saad
saak
saak
saa
saa
saa
saa
saa
saa
saa
saaksin
saaksi
kui
ministrikoht
ministrikoha
......@@ -479,7 +495,7 @@ rohelis
programm
programmi
programmi
programm
programmi
programmi
programmi
programme
......@@ -506,7 +522,7 @@ ministri
ministri
ministri
ministri
ministr
ministri
ministre
ministri
kehtesta
......@@ -516,7 +532,7 @@ kehetesta
kehtesta
kehtesta
kehtesta
kehtes
kehtesta
omamine
omamise
omami
......@@ -556,7 +572,7 @@ toetava
kuid
erakond
erakonna
erakon
erakonda
erakonna
erakonna
erakonda
......
Kui palju on eesti keeles verbe, mille tüvi koosneb ühest lahtisest silbist? (joo-nud, söö-ma, või-ma, too-ma, saan-ud, käi-nud). See on probleem, kuna Snowball tegutseb CVC[suvaline arv tähti+lõpp] piires (ei lähe ettepoole, kui sõna alguses olev jada, kus on konsonant, vokaal(id) ja konsonant EHK vaatab joon[ud], käim[a], ega saa 'nud' ja 'ma'-d kätte ning ma tahaks neile erandi teha.
+ LUGEMA, LOEN
{'täima', 'lööma', 'naima', 'käima', 'muuma', 'müüma', 'kaema', 'näima', 'jooma', 'jääma', 'looma', 'pooma', 'määma', 'sööma', 'saama', 'viima', 'võima', 'tooma', 'keema'}
Siis on mul veel probleem 'me'-ga, kuna substantiividega tükeldab asi nii:
//võime, võime, võime-t, võime-le, võime-d, võime-te, võime-id, võime-te-le
//jooksmisvõi-me, jooksimisvõi-me, võime-t, võime-le, võime-d, võime-te, võime-id, võime-te-le
//seeme, seemne, seeme-t, seemne-le, seemne-d, seemne-te, seemne-id, seemne-te-le
//pääse, pääsme, pääse-t, pääsme-le, pääsme-d, pääsme-te, pääsme-id, pääsme-te-le
Aga verbi pl3 pööre on ka 'me'-lõpuline:
//saadame, saatsime.
Üks variant on pärast nimisõna-analüüsi eemaldada kõik -me lõpud sõnadel, siis läheksid juba sama tüvega sõnad lühemaks lihtsalt. Samas võib niimoodi lemmade homonüümia suurendeda.
Kui ma verbilt lõpuinfo eemaldan ja substantiivilt, siis osadel tulevad samad lemmad: laul-dakse == laul (samas on sõna 'laul' võimalikud lemmad laul, laulu, laule). RAUL ÜTLES, ET SEE POLE PROBLA.
laul-sin vrs apel[sin]
saat[is], laul[is] vrs jäät[is], programm[is]
//jäät[is], jäätise, jääti-st, jäätise-le, jäätis-te, jäätise-id, jäätis-te-le
tegite, jooksite vrs ministr[ite], redeli[te]
//minister, ministri, ministri-t, ministri-le, ministr[i-te], ministre-id, ministri-te-le
jooksid, sööksid, laulaksid vrs komple[ksi-d], saksi-d, inde[ksi-d], pron[ksi-d]
KESKVÕRDE AINSUSE NIMETAV: heleda-m, tugeva-m (pole vb nii levinud? heleda-ma-le), aga 'kam-m','bussijaa-m', 'kasu-m'.
S (39,24% inessiivi substantiividest, 51,63% inessiivi substantiivid-KS)
sg g 2
sg n 682,038 (KS on 89186) (-KS on 592,852)
pl n 221,708
pl tr 26859 (KS)
sg tr 415675 (KS)
sg in 759,729
pl in 109,816
v:
tuks 172
nuks 2670
maks 2982
des 104891
neg ks 4422
neg nuks 47
s 496685
taks 4354
ks 145258
mas 27736
IS ()
sg n 56,596
pl n 130,700
sg in 214,004
pl in 7,106
v:
s 142708
KS
sg tr 415,675
sg n 89,186
pl tr 26,859
v:
tuks 172
nuks 2,670
maks 2,982
neg ks 4,422
neg nuks 47
s 9,328
taks 4,354
ks 145,258
ES (67,51% inessiivi substantiividest)
sg n 57,943
pl n 91,008
pl in 101,883
sg in 207,558
v:
des 104891
s 72344
DES
sg n 1,573
pl in 53,248
sg in 1,829
v:
des 69015
s 2323
TES
pl in 41,079
sg n 1,193
sg in 14,862
v:
des 24145
L (AD 84,67%)
pl ad 213,621
sg ad 739,110
sg n 172,467
v:
00
T (45,69% siit on sg p, 73,85% sg p hulgast(kõik -ST -LT)
sg p 768,924 olulist saabast
sg g 72
pl el 148,600 saabastest (-ST 5,258)
sg abl 68,218 raamatult (-LT 64)
pl abl 17,934 raamatutelt (-LT 638)
sg n 265,400 kast
sg el 413,693 saapast (-ST 831)
v:
neg vat 302
tavat 242
vat 10176
mast 3160
tuvat 2
nuvat 14
vat
sg p 28,517
pl el 5,258
sg abl 64
pl abl 631
sg n 599
sg el 831
v:
neg vat 302
tavat 242
vat 10176
mast 1
tuvat 2
nuvat 14
ST (58,26% kõigist. 60,40% pl el+sg el+sg p)
sg p 364,734
sg g 72
sg n 33,428
pl el 143,342
sg el 412,862
v:
mast 3159
LT
sg p 9,810
sg n 9,139
sg abl 68,154
pl abl 17,303
v:
00
NI (20,93% terminatiivi kõigist, 25,66% terminatiivi ter-ist, sg g-st ja sg n-ist)
sg p 30,507
sg g 104,899
pl p 1,048
sg n 18,597
adt 5,999
sg ter 36,778
pl ter 5,846
v:
o 814
s 3380
NA (27,23% kõigist, 40,04% essiiv+sg g+sg n)
sg p 8,867
sg g 123,764
sg n 47,950
adt 3,160
sg es 62,074
pl es 6,677
v:
da 20,259
o 3130
TA (10,95% kõigist, 11,50% abessiiv+sg g+sg n)
sg p 7,706
sg g 83,260
sg n 107,597
adt 2,980
sg ab 20,664
pl ab 4,125
v:
da 131,066
o 39420
ta 9637
mata 15508
GA (87,74%)
sg p 25,586
sg g 28,198
sg n 20,272
adt 2,448
sg kom 344,510
pl kom 115,595
v:
o 2551
LE (75,20%)
sg p 141
sg g 102,172
pl p 7,719
pl g 48,356
sg n 27,771
adt 633
pl all 176,071
sg all 390,225
v:
neg o 69709
o 68594
SSE (84,60%)
sg g 549
pl p 3912
sg n 774
adt 14856
pl ill 27606
sg ill 82718
v:
00
N
sg n 196,894
v:
ksin 6929
sin 58063
n 97536
b 830259 WUT???
nuksin 40
IN
sg n 41148
v:
ksin 6929
sin 58063
n 8570
nuksin 40
SIN
sg n 2516
v:
ksin 6929
sin 41295
n 977
nuksin 40
KSIN
sg n 66
v:
ksin 6929
sin 1754
n 65
nuksin 40
D
sg p 89,511
pl p 313,226
sg n 132,026
pl n 1,015,655
v:
ksid 23200
tud 235742
nud 357385
sid 156830
d 49987
neg tud 26
neg nud 9982
vad 247189
nuksid 37
KSID
sg n 2
pl n 1129
v:
ksid 23200
sid 2772
d 46
nuksid 37
SID
sg p 1
pl p 32,539
sg n 103
pl n 13,953
v:
ksid 23,200
sid 102,854
d 415
nuksid 37
ID
sg p 2709
pl p 313223
sg n 6336
pl n 173762
v:
ksid 23200
sid 156830
d 5947
nuksid 37
ME
sg p 4,162
sg g 43,859
pl p 12,608
pl g 1,057
sg n 15,869
adt 3,832
pl n 28,221
KOKKU SUBSTANTIIVIDES: 109,608
v:
me 83588
neg me 154
nuksime 18
ksime 4324
o 7
sime 32671
KSIME
sg g 5
sg n 6
v:
me 32
nuksime 18
ksime 4324
sime 774
SIME
sg g 92
sg n 98
v:
me 856
nuksime 18
ksime 4324
sime 23330
IME
sg p 2886
sg g 6452
pl p 431
sg n 3927
adt 3067
KOKKU: 16,763
v:
me 8855
nuksime 18
ksime 4324
o 7
sime 32671
TE
sg p 3,182
sg g 26,619
pl p 28,117
pl g 418,144
sg n 25,250
adt 7,230
pl n 8,132
KOKKU SUBSTANTIIVE: 516,674
v:
site 2814
te 17848
ksite 1112
KSITE
pl g 36
v:
site 50
te 26
ksite 1112
SITE
sg g 69
pl g 211
sg n 39
v:
site 2005
te 202
ksite 1112
ITE
sg p 10
sg g 2,000
pl p 1,915
pl g 33,917
sg n 1,076
adt 4
v:
site 2814
te 2199
ksite 1112
VAD
sg n 4
pl n 46
vad 42
akse
sg g 686
pl p 1,666
sg n 449
v:
takse 117,916
takse
sg g 214
pl p 276
sg n 203
v:
takse 97080
DAKSE
sg g 19
pl p 2
sg n 27
v:
takse 5244
TI
sg p 51,965
sg g 170,927
pl p 6,179
sg n 21,813
adt 9,933
v:
ti 93115
o 512
DI
sg p 14,655
sg g 83,594
pl p 4,052
pl g 1,182
sg n 6,572
adt 2,258
v:
ti 13982
o 2094
s 5467
TUD
sg n 2
pl n 48
v:
tud 63
DUD
pl n 15
v:
00
TAVAT
sg p 3