Commit a7ed7f39 authored by Indrek Jentson's avatar Indrek Jentson
Browse files

Esialgne komplekt andmeid

parent eaedaa0d
# Fileset for Estonian_ispell dictionary
## Dictionary files
Overview of project and licenses: http://www.meso.ee/~jjpp/speller
Original files:
* http://www.meso.ee/~jjpp/speller/estonian.aff
* http://www.meso.ee/~jjpp/speller/estonian.dict
Original files are encoded with code-page ISO-8859-13.
Current files are outcomes of following commands:
* iconv -f ISO-8859-13 -t UTF-8 -o et_ee.affix estonian.aff
* iconv -f ISO-8859-13 -t UTF-8 -o et_ee.dict estonian.dict
## Stopwords
Original file:
* https://raw.githubusercontent.com/kristel-/estonian-stopwords/master/estonian-stopwords-lemmas.txt
## Using in Postgresql full-text search
1. Copy files into $SHAREDIR/tsearch_data/, where $SHAREDIR is result of 'pg_config --sharedir'.
2. Duplicate built-in english configuration:
'''
CREATE TEXT SEARCH CONFIGURATION public.pg ( COPY = pg_catalog.english );
'''
3. Load dictionary data into database, using psql:
'''
CREATE TEXT SEARCH DICTIONARY estonian_ispell (
TEMPLATE = ispell,
DictFile = et_ee,
AffFile = et_ee,
Stopwords = estonian);
'''
4. Set up the mappings for words in configuration pg:
'''
ALTER TEXT SEARCH CONFIGURATION pg
ALTER MAPPING FOR asciiword, asciihword, hword_asciipart, word, hword, hword_part
WITH estonian_ispell;
'''
5. We choose not to index or search some token types that the built-in configuration does handle:
'''
ALTER TEXT SEARCH CONFIGURATION pg
DROP MAPPING FOR email, url, url_path, sfloat, float;
'''
6. Set the session to use the new configuration, which was created in the public schema:
'''
SET default_text_search_config = 'public.pg';
'''
7. Test the set-up:
'''
SELECT * FROM ts_debug('public.pg','Tuliuues audiopõnevikus astuvad üles rahast pungil kilekott ja mitu põlvkonda armastatud Eesti poliitikuid.');
'''
CREATE TEXT SEARCH CONFIGURATION public.pg ( COPY = pg_catalog.english );
CREATE TEXT SEARCH DICTIONARY estonian_ispell (
TEMPLATE = ispell,
DictFile = et_ee,
AffFile = et_ee,
Stopwords = estonian);
ALTER TEXT SEARCH CONFIGURATION pg
ALTER MAPPING FOR asciiword, asciihword, hword_asciipart, word, hword, hword_part
WITH estonian_ispell;
ALTER TEXT SEARCH CONFIGURATION pg
DROP MAPPING FOR email, url, url_path, sfloat, float;
SET default_text_search_config = 'public.pg';
DROP TEXT SEARCH DICTIONARY estonian_ispell CASCADE;
all
alla
allapoole
allpool
alt
altpoolt
eel
eespool
enne
hommikupoole
hoolimata
ilma
kaudu
keset
kesk
kohe
koos
kuhupoole
kuni
kuspool
kustpoolt
kõige
käsikäes
lappi
ligi
läbi
mööda
paitsi
peale
pealepoole
pealpool
pealt
pealtpoolt
piki
pikku
piku
pikuti
põiki
pärast
päri
risti
sealpool
sealtpoolt
seespool
seltsis
siiapoole
siinpool
siitpoolt
sinnapoole
sissepoole
taga
tagantpoolt
tagapidi
tagapool
taha
tahapoole
teispool
teispoole
tänu
tükkis
vaatamata
vastu
väljapoole
väljaspool
väljastpoolt
õhtupoole
ühes
ühestükis
ühestükkis
ülalpool
ülaltpoolt
üle
ülespoole
ülevalpool
ülevaltpoolt
ümber
ümbert
aegu
aegus
alguks
algul
algule
algult
alguni
all
alla
alt
alul
alutsi
arvel
asemel
asemele
eel
eeli
ees
eesotsas
eest
eestotsast
esitsi
ette
etteotsa
haaval
heaks
hoolimata
hulgas
hulgast
hulka
jalgu
jalus
jalust
jaoks
jooksul
juurde
juures
juurest
jälil
jälile
järel
järele
järelt
järgi
kaasas
kallal
kallale
kallalt
kamul
kannul
kannule
kannult
kaudu
kaupa
keskel
keskele
keskelt
keskis
keskpaiku
kestel
kestes
kilda
killas
killast
kimpu
kimpus
kiuste
kohal
kohale
kohalt
kohaselt
kohe
kohta
koos
korral
kukil
kukile
kukilt
kulul
kõrva
kõrval
kõrvale
kõrvalt
kõrvas
kõrvast
käekõrval
käekõrvale
käekõrvalt
käes
käest
kätte
külge
küljes
küljest
küüsi
küüsis
küüsist
ligi
ligidal
ligidale
ligidalt
aegu
aegus
alguks
algul
algule
algult
alguni
all
alla
alt
alul
alutsi
arvel
asemel
asemele
eel
eeli
ees
eesotsas
eest
eestotsast
esitsi
ette
etteotsa
haaval
heaks
hoolimata
hulgas
hulgast
hulka
jalgu
jalus
jalust
jaoks
jooksul
juurde
juures
juurest
jälil
jälile
järel
järele
järelt
järgi
kaasas
kallal
kallale
kallalt
kamul
kannul
kannule
kannult
kaudu
kaupa
keskel
keskele
keskelt
keskis
keskpaiku
kestel
kestes
kilda
killas
killast
kimpu
kimpus
kiuste
kohal
kohale
kohalt
kohaselt
kohe
kohta
koos
korral
kukil
kukile
kukilt
kulul
kõrva
kõrval
kõrvale
kõrvalt
kõrvas
kõrvast
käekõrval
käekõrvale
käekõrvalt
käes
käest
kätte
külge
küljes
küljest
küüsi
küüsis
küüsist
ligi
ligidal
ligidale
ligidalt
lool
läbi
lähedal
lähedale
lähedalt
man
mant
manu
meelest
mööda
nahas
nahka
nahkas
najal
najale
najalt
nõjal
nõjale
otsa
otsas
otsast
paigale
paigu
paiku
peal
peale
pealt
perra
perrä
pidi
pihta
piki
pikku
pool
poole
poolest
poolt
puhul
puksiiris
pähe
päralt
päras
pärast
päri
ringi
ringis
risust
saadetusel
saadik
saatel
saati
seas
seast
sees
seest
sekka
seljataga
seltsi
seltsis
seltsist
sisse
slepis
suhtes
šlepis
taga
tagant
tagantotsast
tagaotsas
tagaselja
tagasi
tagast
tagutsi
taha
tahaotsa
takka
tarvis
tasa
tuuri
tuuris
tõttu
tükkis
uhal
vaatamata
vahel
vahele
vahelt
vahepeal
vahepeale
vahepealt
vahetsi
varal
varale
varul
vastas
vastast
vastu
veerde
veeres
viisi
võidu
võrd
võrdki
võrra
võrragi
väel
väele
vältel
väärt
väärtki
äärde
ääre
ääres
äärest
ühes
üle
ümber
ümbert
a
abil
aina
ainult
alalt
alates
alati
alles
b
c
d
e
eales
ealeski
edasi
edaspidi
eelkõige
eemal
ei
eks
end
enda
enese
ennem
esialgu
f
g
h
hoopis
i
iganes
igatahes
igati
iial
iialgi
ikka
ikkagi
ilmaski
iseenda
iseenese
iseenesest
isegi
j
jah
ju
juba
juhul
just
järelikult
k
ka
kah
kas
kasvõi
keda
kestahes
kogu
koguni
kohati
kokku
kuhu
kuhugi
kuidagi
kuidas
kunagi
kus
kusagil
kusjuures
kuskil
kust
kõigepealt
küll
l
liiga
lisaks
m
miks
mil
millal
millalgi
mispärast
mistahes
mistõttu
mitte
muide
muidu
muidugi
muist
mujal
mujale
mujalt
mõlemad
mõnda
mõne
mõnikord
n
nii
niikaua
niimoodi
niipaljuke
niisama
niisiis
niivõrd
nõnda
nüüd
o
omaette
omakorda
omavahel
ometi
p
palju
paljuke
palju-palju
peaaegu
peagi
peamiselt
pigem
pisut
praegu
päris
r
rohkem
s
samas
samuti
seal
sealt
sedakorda
sedapuhku
seega
seejuures
seejärel
seekord
seepärast
seetõttu
sellepärast
seni
sestap
siia
siiani
siin
siinkohal
siis
siiski
siit
sinna
suht
š
z
ž
t
teel
teineteise
tõesti
täiesti
u
umbes
v
w
veel
veelgi
vist
võibolla
võib-olla
väga
vähemalt
välja
väljas
väljast
õ
ä
ära
ö
ü
ühtlasi
üksi
ükskõik
ülal
ülale
ülalt
üles
ülesse
üleval
ülevalt
ülimalt
üsna
x
y
aga
ega