Muunnelmiani Kotuksen sanalistasta
Johdanto
Tällä sivulla on suomen kielen sanalistoja, jotka olen muuntanut Kotimaisten kielten keskuksen (Kotus)
nykysuomen sanalistasta
(tällä hetkellä nykysuomensanalista2024.txt).
Tiedostot
Lataa kaikki sanalistani: kotus-listat.zip (1.5 megatavua).
Paketti sisältää nämä tiedostot:
| Tiedosto | Sanoja | Kuvaus |
|---|---|---|
plaintext.txt |
104 743 | Alkuperäinen sanalista puhtaana tekstinä eli ilman CSV-koodausta ja taivutustietoja ym. Kukin sana on omalla rivillään. |
stripped.txt |
104 136 | Kuin plaintext.txt mutta sanojen aluista ja lopuista on poistettu väliviivat ja kukin sana on listalla vain kerran. |
stripped-reverse.txt |
104 136 | Kuin stripped.txt mutta lajiteltu kuin sanat olisi kirjoitettu takaperin. Lisätietoja osiossa Sanojen lajittelu. |
compounds.txt |
60 927 | Yhdyssanat stripped.txt:ssä. Sanojen osat on erotettu alaviivoilla (_). Lisätietoja osiossa Yhdyssanalista. |
singles.txt |
43 209 | Ei-yhdyssanat eli sanat, jotka ovat stripped.txt:ssä mutta eivät compounds.txt:ssä. |
singles-reverse.txt |
43 209 | Kuin singles.txt mutta lajiteltu kuin sanat olisi kirjoitettu takaperin. Lisätietoja osiossa Sanojen lajittelu. |
finals.txt |
1 310 | Yhdyssanojen (compounds.txt) viimeiset osat, ei kuitenkaan niitä, jotka esiintyvät myös yksinään (stripped.txt:ssä).
Esimerkiksi sana pide on listalla, koska se esiintyy yhdyssanassa mielipide muttei yksinään. |
nonfinals.txt |
3 205 | Yhdyssanojen (compounds.txt) ei-viimeiset osat, ei kuitenkaan niitä, jotka esiintyvät myös yhdyssanan viimeisenä osana (finals.txt:ssä)
tai yksinään (stripped.txt:ssä).
Esimerkiksi sana hevos on listalla, koska se esiintyy sanassa hevosvoima muttei minkään yhdyssanan lopussa eikä yksinään. |
convert.py |
– | Python-ohjelma, joka lukee Kotuksen alkuperäisen CSV-sanalistan ja compounds.txt:n sekä kirjoittaa niiden perusteella muut sanalistat. |
validate-compounds.py |
– | Python-ohjelma, joka etsii mahdollisia virheitä compounds.txt:stä. |
Sanojen lajittelu
Tiedoston plaintext.txt sanat ovat samassa järjestyksessä kuin Kotuksen alkuperäisessä sanalistassa.
Tiedostojen stripped-reverse.txt ja singles-reverse.txt sanat on lajiteltu seuraavasti:
- Sanat on lajiteltu ikään kuin ne olisi kirjoitettu takaperin; esimerkiksi sana haa on sanojen nugaa ja ahaa välissä, koska sanat olisivat takaperin aagun, aah ja aaha.
- Muut merkit kuin kirjaimet eivät vaikuta lajitteluun.
- Kirjainkoko ei ole merkitsevä.
- W on lajiteltu V:nä.
- Y on lajiteltu U:na ja muut tarkkeelliset kirjaimet kuin Å tarkkeettomina. (Näin vokaalisointu ei vaikeuta listan tarkastelua, kun esimerkiksi kaikki -ssa- ja -ssä-päätteiset sanat ovat peräkkäin.)
Muut sanalistat on lajiteltu seuraavasti:
- Muut merkit kuin kirjaimet eivät vaikuta lajitteluun, paitsi että
compounds.txt:ssä alaviivat (_) vaikuttavat. - Kirjainkoko ei ole merkitsevä.
- W on lajiteltu V:nä.
- Muut tarkkeelliset kirjaimet kuin Å, Ä ja Ö on lajiteltu tarkkeettomina.
Yhdyssanalista
Yhdyssanalista compounds.txt koostuu stripped.txt:n yhdyssanoista.
Joka rivillä on yksi yhdyssana, jonka osat on erotettu toisistaan alaviivoilla (esim. yli_oppilas_tutkinto).
Jos yhdyssanan osia erottaa valmiiksi väliviiva tai välilyönti, alaviiva on sen jälkeen (esim. valo-_oppi, suomen _kieli).
Yksittäiset sanat voivat sisältää väliviivoja ja välilyöntejä (esim. tax-free-_myynti, all stars -_joukkue).
Väliviivat voivat olla tavallisia (- eli U+002D) tai ”non-breaking hyphen” -tyyppisiä (‑ eli U+2011).
Esimerkkejä latinalais- ja kreikkalaisperäisistä liitteistä, joita en laskenut omiksi sanoikseen:
- alkuliitteet: a-, di-, dis-, in-, inter-, iso-, multi-, poly-, post-, pre-, re-, sub-, syn-, tri-
- loppuliitteet: -grafi(nen/a), -grammi, -kroninen, -logi(nen/a), -metri(nen/a) (metri laitteena muttei mittayksikkönä), -paatti(nen)/-patia, -skooppi(nen)/-skopia
Listan yhdyssanat saadaan palautettua alkuperäiseen muotoonsa poistamalla alaviivat. Jos taas yhdyssana on tarkoitus pilkkoa osikseen, kunkin osan lopusta kannattaa lisäksi poistaa väliviivat ja välilyönnit.
Olen koonnut yhdyssanalistan manuaalisesti, joten siihen on voinut jäädä virheitä.
(Käytän yhdyssanalistaa myös finmorph-projektissani mutta siellä oleva versio on vanha.)