Muunnelmiani Kotuksen sanalistasta
Johdanto
Tällä sivulla on suomen kielen sanalistoja, jotka olen muuntanut Kotimaisten kielten keskuksen (Kotus) nykysuomen sanalistasta.
Tiedostot
Lataa kaikki sanalistat: kotus-listat.7z (870 kilotavua; pura esim. 7-Zip-ohjelmalla).
Paketti sisältää nämä tiedostot:
Tiedosto | Sanoja | Kuvaus |
---|---|---|
plaintext.txt |
104 743 | Alkuperäinen sanalista puhtaana tekstinä eli ilman CSV-koodausta ja taivutustietoja ym. Kukin sana on omalla rivillään. |
stripped.txt |
104 136 | Kuin plaintext.txt , mutta sanojen aluista ja lopuista on poistettu väliviivat ja kukin sana on listalla vain kerran. |
stripped-reverse.txt |
104 136 | Kuin stripped.txt , mutta lajiteltu kuin sanat olisi kirjoitettu takaperin. Katso myös Sanojen lajittelu alla. |
compounds.txt |
60 929 | Yhdyssanat stripped.txt :ssä. Sanojen osat on erotettu alaviivoilla. Katso myös Yhdyssanalista alla. |
singles.txt |
43 207 | Ei-yhdyssanat eli sanat, jotka ovat stripped.txt :ssä mutta eivät compounds.txt :ssä. |
finals.txt |
1 310 | Yhdyssanojen (compounds.txt ) viimeiset osat, ei kuitenkaan niitä, jotka esiintyvät myös yksinään (stripped.txt :ssä).
Esimerkiksi sana pide on listalla, koska se esiintyy yhdyssanassa mielipide muttei yksinään. |
nonfinals.txt |
3 207 | Yhdyssanojen (compounds.txt ) ei-viimeiset osat, ei kuitenkaan niitä, jotka esiintyvät myös yhdyssanan viimeisenä osana (finals.txt :ssä)
tai yksinään (stripped.txt :ssä).
Esimerkiksi sana hevos on listalla, koska se esiintyy sanassa hevosvoima muttei minkään yhdyssanan lopussa eikä yksinään. |
convert.py |
– | Python-ohjelma, joka lukee Kotuksen alkuperäisen CSV-sanalistan ja compounds.txt :n sekä kirjoittaa niiden perusteella muut sanalistat. |
validate-compounds.py |
– | Python-ohjelma, joka etsii mahdollisia virheitä compounds.txt :stä. |
Sanojen lajittelu
plaintext.txt
:n sanat ovat alkuperäisessä järjestyksessä.
stripped-reverse.txt
:n sanat on lajiteltu seuraavasti:
- Sanat on lajiteltu ikään kuin ne olisi kirjoitettu takaperin; esimerkiksi sana jakaa on sanojen lujaa ja takaa välissä.
- Muut merkit kuin kirjaimet eivät vaikuta lajitteluun.
- Kirjainkoko ei ole merkitsevä.
w
on lajiteltuv
:nä,y
u
:na ja muut tarkkeelliset kirjaimet kuinå
tarkkeettomina. (Näin vokaalisointu ei vaikeuta listan tarkastelua, kun esimerkiksi kaikki-ssa
- ja-ssä
-päätteiset sanat ovat peräkkäin.)
Muut kotus-listat.zip
:in sanalistat on lajiteltu seuraavasti:
- Muut merkit kuin kirjaimet eivät vaikuta lajitteluun, paitsi
compounds.txt
:ssä alaviivat (_
). - Kirjainkoko ei ole merkitsevä.
w
on lajiteltuv
:nä ja muut tarkkeelliset kirjaimet kuinå
,ä
jaö
tarkkeettomina.
Yhdyssanalista
Yhdyssanalista compounds.txt
koostuu stripped.txt
:n yhdyssanoista.
Joka rivillä on yksi yhdyssana, jonka osat on erotettu toisistaan alaviivoilla (esim. yli_oppilas_tutkinto
).
Jos yhdyssanan osia erottaa valmiiksi väliviiva tai välilyönti, alaviiva on sen jälkeen (esim. valo-_oppi
, suomen _kieli
).
Yksittäiset sanat voivat sisältää väliviivoja ja välilyöntejä (esim. tax-free-_myynti
, all stars -_joukkue
).
Väliviivat voivat olla tavallisia (-
eli U+002D) tai ”non-breaking hyphen” -tyyppisiä (‑
eli U+2011).
Esimerkkejä latinalais- ja kreikkalaisperäisistä liitteistä, joita en laskenut omiksi sanoikseen:
- alkuliitteet: a-, di-, dis-, in-, inter-, iso-, multi-, poly-, post-, pre-, re-, sub-, syn-, tri-
- loppuliitteet: -grafi(nen/a), -grammi, -kroninen, -logi(nen/a), -metri(nen/a) (metri laitteena muttei mittayksikkönä), -paatti(nen)/-patia, -skooppi(nen)/-skopia
Listan yhdyssanat saadaan palautettua alkuperäiseen muotoonsa poistamalla alaviivat. Jos taas yhdyssana on tarkoitus pilkkoa osikseen, kunkin osan lopusta kannattaa lisäksi poistaa väliviivat ja välilyönnit.
(Käytän yhdyssanalistaa myös finmorph-projektissani, mutta siellä oleva versio on vanha.)