Маючи у своєму розпорядженні базу aspell (з її 1 308 195 словами), мені стало цікаво дослідити які саме закінчення найбільш популярні. Одразу хочу застережити, що мова йде не про традиційні закінчення, як частини слова. Мене цікавить лише послідовність літер, якими закінчується слово.

Статичне дерево закінчень

я (164062)
ся (148160)

ня (9765)
ося (30769)

ься (25211)
ися (21940)

еся (19105)
шся (11775)
ася (10235)
вся (10076)
юся (8044)
ння (9001)
мося (20532)
лося (10233)
ться (25036)
тися (10379)
лися (10338)
теся (19103)

лася (10230)
ь (151355)
сь (111459)ть (33055)
ось (30788)

ись (22656)

есь (19114)
ась (10239)
всь (10016)
юсь (8047)
ють (11222)
сть (7688)
мось (20536)
лось (10231)
тись (10366)
лись (10337)
тесь (19105)
лась (10229)ість (7606)
и (123402)
ми (62080)


ти (20025)
ли (17711)
ими (31121)
ами (20106)
ями (9844)
ати (10819)
али (10666)
ними (19089)
м (119779)
ім (31343)
им (31166)
ам (20154)
ом (17018)
ям (15717)
нім (19333)
ним (19093)


ням (9434)
нням (8975)
у (94504)
му (35023)
ну (23125)
ку (11624)
ому (31585)
ному (19112)
о (90454)
мо (33568)

го (31445)
ло (17238)
ймо (11229)
ємо (11136)
ого (31389)
ало (10465)


ного (19090)
і (90275)
ні (31679)
ві (22543)
ті (12596)
нні (9909)
ові (17191)
сті (8731)


ості (7636)
ю (80877)
ою (39616)

ню (10075)
ною (20280)
кою (7497)
нню (9054)
стю (7648)істю (7598)
й (77109)
ій (33241)
ий (31136)
ній (19549)
ний (19042)
а (68134)
на (21328)
ла (17945)
ка (11029)

ала (10610)
е (66988)
те (32651)

не (20257)
йте (11230)
єте (11137)
х (61506)
их (31127)
ах (20023)
ях (9855)
них (19092)
ї (34702)
ої (31421)
ної (19098)
в (32681)
ів (15898)
ав (10547)
ш (19163)
єш (11138)
є (11466)
к (7299)
т (2980)

далі йдуть закінчення сумарна питома вага яких менше ніж 1%

р (2709)
н (2531)
д (1038)
ч (959)
с (914)
л (754)
г (636)
з (581)
ж (353)
п (341)
б (281)
ф (214)
щ (110)
ц (34)
ґ (4)

На схемі представлені закінчення слів довжиною від 1 до 4 літер. П'ять і більше літер не представлені, тому що таких слів порівнянно мало (для 5-ти максимум "йтесь" (6837), для 6-ти - "ванням" (4656) тощо).

Це "дерево закінчень" - своєрідна дорожна карта для проекту стемінга. Мета проекту - охопити алгоритмом всі гілки дерева.

Динамічне дерево закінчень

Є більш деталізоване дерево, яке ви можете побудувати власноруч. Рівень деталізації - від 500 слів зі спільним закінченням.

Детальне дерево закінчень