Кластеризация текстовых документов
Материал из LingvoWiki
Перейти к навигацииПерейти к поискуЭто незавершённая статья о задаче компьютерной лингвистики. Вы можете помочь проекту, исправив и дополнив её. |
Кластеризация текстовых документов — процесс разбиения множества текстовых документов на группы — кластеры, причём заранее неизвестно, какие группы должны быть выбраны (хотя может известно их количество кластеров).
В процессе кластеризации текстовых документов можно выделить 4 шага:
- Предварительное преобразование документа (в частности, удаление форматирования).
- Преобразование документа во внутреннее представление (векторное пространство, document index graph, суффиксное дерево).
- Рассчёт расстояния между документами на основании внутреннего представления.
- Кластеризация документов на основании рассчитанного расстояния с помощью одного из соответствующих алгоритмов (например, однопроходного, k-means, c-means, em и др.).