Простой и крайне эффективный метод кластеризации фраз на смысловые группы:
- Получаем частотную матрицу для нормальной формы фраз, встречающихся в выборке 2 или более раз
- Матрицу можно заменить на бинарную (есть слово во фразе или нет) или на TF-IDF интерпретацию (должна возрасти точность)
- Полученную матрицу преобразуем с помощью сингулярного разложения SVD
- Результирующую матрицу W (третья матрица полученная после разложения) отражает вложение фразу в группы
- Выбираем число k — количество (примерное) групп в тексте
- Разбираем матрицу W на векторы T1..n (по числу документов) длинной k
- Вычисляем косинусоидальные расстояние между векторами
- Сравниваем с порогом 0.1 и получаем группы фраз