Кластеризация текстовых документов

Материал из LingvoWiki
Перейти к навигацииПерейти к поиску
LambdaGlobeLogo.png Это незавершённая статья о задаче компьютерной лингвистики.
Вы можете помочь проекту, исправив и дополнив её
.

Кластеризация текстовых документов — процесс разбиения множества текстовых документов на группы — кластеры, причём заранее неизвестно, какие группы должны быть выбраны (хотя может известно их количество кластеров).

В процессе кластеризации текстовых документов можно выделить 4 шага:

  1. Предварительное преобразование документа (в частности, удаление форматирования).
  2. Преобразование документа во внутреннее представление (векторное пространство, document index graph, суффиксное дерево).
  3. Рассчёт расстояния между документами на основании внутреннего представления.
  4. Кластеризация документов на основании рассчитанного расстояния с помощью одного из соответствующих алгоритмов (например, однопроходного, k-means, c-means, em и др.).