Кластеризация текстовых документов: различия между версиями

Материал из LingvoWiki
Перейти к навигацииПерейти к поиску
(совсем чуть-чуть)
(нет различий)

Версия 02:38, 18 марта 2011

LambdaGlobeLogo.png Это незавершённая статья о задаче компьютерной лингвистики.
Вы можете помочь проекту, исправив и дополнив её
.

Кластеризация текстовых документов — процесс разбиения множества объектов на группы — кластеры, причём заранее неизвестно, какие группы должны быть выбраны (хотя может известно их количество кластеров).

В процессе кластеризации текстовых документов можно выделить 4 шага:

  1. Предварительное преобразование документа (в частности, удаление форматирования).
  2. Преобразование документа во внутреннее представление (векторное пространство, document index graph, суффиксное дерево).
  3. Рассчёт расстояния между документами на основании внутреннего представления.
  4. Кластеризация документов на основании рассчитанного расстояния с помощью одного из соответствующих алгоритмов (например, однопроходного, k-means, c-means, em и др.).