Це тільки перша реалізація алгоритму. Наразі він досить примітивний та має значний відсоток помилок (для файлу-зразка на 1018 слів - акуратність лише 94.01 %).
Якщо не дуже зрозуміли, що таке стемінг - перегляньте демо. Введіть у форму будь-які українські слова і побачете результат.
Поступово, проект "обростає" допоміжними інструментами. Наприклад, пошуком слів по закінченню, що дозволяє оцінити яких саме слів торкнеться те чи інше правило стемінгу.
Ще зверніть увагу на динамічне дерево закінчень.
Алгоритм працює з окремими словами. Це означає, що контекст у якому вжито слово - невідомий. Також недоступні категорії мовознавства як будова слова (корінь, суфікс, ...) та частини мови (іменник, прикметник тощо).
Наразі маємо такі прийоми при аналізі слів:
"(ов)*ува(в|вши|вшись|ла|ло|ли|ння|нні|нням|нню|ти|вся|всь|лись|лися|тись|тися)$"
Всі ці прийоми можна застосовувати группами, які утворюють правила стемінгу.
Проект дуже молодий. Для його успішного втілення потрібна команда. Якщо ви програміст, мовознавець, студент, науковець або просто небайдужа людина - запрошую до співпраці.
Буду вдячний - якщо Ви по-піарите цей проект у соцмережах, адже результати його роботи можна використати, наприклад, у дипломній роботі, дисертації чи навіть прикрутити до пошукового модуля CMS вашого сайту.
Файл-зразок потрібно довести хоча б до 10 тисяч слів (90% роботи попереду). Причому акцент робити на складних формах стемінгу, коли форму стемінга визначити не так просто (короткі слова, дієслова, слова іноземного походження тощо).
Бажано, щоб код лежав у якомусь відкритому ресурсі на зразок SourceForge чи GitHub.