Muunnelmiani Kotuksen sanalistasta

Johdanto

Tällä sivulla on suomen kielen sanalistoja, jotka olen muuntanut Kotimaisten kielten keskuksen (Kotus) nykysuomen sanalistasta.

Tiedostot

Lataa kaikki sanalistat: kotus-listat.7z (870 kilotavua; pura esim. 7-Zip-ohjelmalla).

Paketti sisältää nämä tiedostot:

Tiedosto Sanoja Kuvaus
plaintext.txt 104 743 Alkuperäinen sanalista puhtaana tekstinä eli ilman CSV-koodausta ja taivutustietoja ym. Kukin sana on omalla rivillään.
stripped.txt 104 136 Kuin plaintext.txt, mutta sanojen aluista ja lopuista on poistettu väliviivat ja kukin sana on listalla vain kerran.
stripped-reverse.txt 104 136 Kuin stripped.txt, mutta lajiteltu kuin sanat olisi kirjoitettu takaperin. Katso myös Sanojen lajittelu alla.
compounds.txt 60 929 Yhdyssanat stripped.txt:ssä. Sanojen osat on erotettu alaviivoilla. Katso myös Yhdyssanalista alla.
singles.txt 43 207 Ei-yhdyssanat eli sanat, jotka ovat stripped.txt:ssä mutta eivät compounds.txt:ssä.
finals.txt 1 310 Yhdyssanojen (compounds.txt) viimeiset osat, ei kuitenkaan niitä, jotka esiintyvät myös yksinään (stripped.txt:ssä). Esimerkiksi sana pide on listalla, koska se esiintyy yhdyssanassa mielipide muttei yksinään.
nonfinals.txt 3 207 Yhdyssanojen (compounds.txt) ei-viimeiset osat, ei kuitenkaan niitä, jotka esiintyvät myös yhdyssanan viimeisenä osana (finals.txt:ssä) tai yksinään (stripped.txt:ssä). Esimerkiksi sana hevos on listalla, koska se esiintyy sanassa hevosvoima muttei minkään yhdyssanan lopussa eikä yksinään.
convert.py Python-ohjelma, joka lukee Kotuksen alkuperäisen CSV-sanalistan ja compounds.txt:n sekä kirjoittaa niiden perusteella muut sanalistat.
validate-compounds.py Python-ohjelma, joka etsii mahdollisia virheitä compounds.txt:stä.

Sanojen lajittelu

plaintext.txt:n sanat ovat alkuperäisessä järjestyksessä.

stripped-reverse.txt:n sanat on lajiteltu seuraavasti:

Muut kotus-listat.zip:in sanalistat on lajiteltu seuraavasti:

Yhdyssanalista

Yhdyssanalista compounds.txt koostuu stripped.txt:n yhdyssanoista. Joka rivillä on yksi yhdyssana, jonka osat on erotettu toisistaan alaviivoilla (esim. yli_oppilas_tutkinto). Jos yhdyssanan osia erottaa valmiiksi väliviiva tai välilyönti, alaviiva on sen jälkeen (esim. valo-_oppi, suomen _kieli). Yksittäiset sanat voivat sisältää väliviivoja ja välilyöntejä (esim. tax-free-_myynti, all stars -_joukkue). Väliviivat voivat olla tavallisia (- eli U+002D) tai ”non-breaking hyphen” -tyyppisiä ( eli U+2011).

Esimerkkejä latinalais- ja kreikkalaisperäisistä liitteistä, joita en laskenut omiksi sanoikseen:

Listan yhdyssanat saadaan palautettua alkuperäiseen muotoonsa poistamalla alaviivat. Jos taas yhdyssana on tarkoitus pilkkoa osikseen, kunkin osan lopusta kannattaa lisäksi poistaa väliviivat ja välilyönnit.

(Käytän yhdyssanalistaa myös finmorph-projektissani, mutta siellä oleva versio on vanha.)