Muunnelmiani Kotuksen sanalistasta

Johdanto

Tällä sivulla on suomen kielen sanalistoja, jotka olen muuntanut Kotimaisten kielten keskuksen (Kotus) nykysuomen sanalistasta (tällä hetkellä nykysuomensanalista2024.txt).

Tiedostot

Lataa kaikki sanalistani: kotus-listat.zip (1.5 megatavua).

Paketti sisältää nämä tiedostot:

Tiedosto Sanoja Kuvaus
plaintext.txt 104 743 Alkuperäinen sanalista puhtaana tekstinä eli ilman CSV-koodausta ja taivutustietoja ym. Kukin sana on omalla rivillään.
stripped.txt 104 136 Kuin plaintext.txt mutta sanojen aluista ja lopuista on poistettu väliviivat ja kukin sana on listalla vain kerran.
stripped-reverse.txt 104 136 Kuin stripped.txt mutta lajiteltu kuin sanat olisi kirjoitettu takaperin. Lisätietoja osiossa Sanojen lajittelu.
compounds.txt 60 927 Yhdyssanat stripped.txt:ssä. Sanojen osat on erotettu alaviivoilla (_). Lisätietoja osiossa Yhdyssanalista.
singles.txt 43 209 Ei-yhdyssanat eli sanat, jotka ovat stripped.txt:ssä mutta eivät compounds.txt:ssä.
singles-reverse.txt 43 209 Kuin singles.txt mutta lajiteltu kuin sanat olisi kirjoitettu takaperin. Lisätietoja osiossa Sanojen lajittelu.
finals.txt 1 310 Yhdyssanojen (compounds.txt) viimeiset osat, ei kuitenkaan niitä, jotka esiintyvät myös yksinään (stripped.txt:ssä). Esimerkiksi sana pide on listalla, koska se esiintyy yhdyssanassa mielipide muttei yksinään.
nonfinals.txt 3 205 Yhdyssanojen (compounds.txt) ei-viimeiset osat, ei kuitenkaan niitä, jotka esiintyvät myös yhdyssanan viimeisenä osana (finals.txt:ssä) tai yksinään (stripped.txt:ssä). Esimerkiksi sana hevos on listalla, koska se esiintyy sanassa hevosvoima muttei minkään yhdyssanan lopussa eikä yksinään.
convert.py Python-ohjelma, joka lukee Kotuksen alkuperäisen CSV-sanalistan ja compounds.txt:n sekä kirjoittaa niiden perusteella muut sanalistat.
validate-compounds.py Python-ohjelma, joka etsii mahdollisia virheitä compounds.txt:stä.

Sanojen lajittelu

Tiedoston plaintext.txt sanat ovat samassa järjestyksessä kuin Kotuksen alkuperäisessä sanalistassa.

Tiedostojen stripped-reverse.txt ja singles-reverse.txt sanat on lajiteltu seuraavasti:

Muut sanalistat on lajiteltu seuraavasti:

Yhdyssanalista

Yhdyssanalista compounds.txt koostuu stripped.txt:n yhdyssanoista. Joka rivillä on yksi yhdyssana, jonka osat on erotettu toisistaan alaviivoilla (esim. yli_oppilas_tutkinto). Jos yhdyssanan osia erottaa valmiiksi väliviiva tai välilyönti, alaviiva on sen jälkeen (esim. valo-_oppi, suomen _kieli). Yksittäiset sanat voivat sisältää väliviivoja ja välilyöntejä (esim. tax-free-_myynti, all stars -_joukkue). Väliviivat voivat olla tavallisia (- eli U+002D) tai ”non-breaking hyphen” -tyyppisiä (‑ eli U+2011).

Esimerkkejä latinalais- ja kreikkalaisperäisistä liitteistä, joita en laskenut omiksi sanoikseen:

Listan yhdyssanat saadaan palautettua alkuperäiseen muotoonsa poistamalla alaviivat. Jos taas yhdyssana on tarkoitus pilkkoa osikseen, kunkin osan lopusta kannattaa lisäksi poistaa väliviivat ja välilyönnit.

Olen koonnut yhdyssanalistan manuaalisesti, joten siihen on voinut jäädä virheitä.

(Käytän yhdyssanalistaa myös finmorph-projektissani mutta siellä oleva versio on vanha.)