Кластеризация текстовых документов: различия между версиями

Материал из LingvoWiki
Перейти к навигацииПерейти к поиску
(совсем чуть-чуть)
 
м
 
Строка 1: Строка 1:
 
{{Stub|о ''задаче компьютерной лингвистики''}}
 
{{Stub|о ''задаче компьютерной лингвистики''}}
'''Кластеризация текстовых документов''' — процесс разбиения множества объектов на группы — кластеры, причём заранее неизвестно, какие группы должны быть выбраны (хотя может известно их количество кластеров).
+
'''Кластеризация текстовых документов''' — процесс разбиения множества текстовых документов на группы — кластеры, причём заранее неизвестно, какие группы должны быть выбраны (хотя может известно их количество кластеров).
  
 
В процессе кластеризации текстовых документов можно выделить 4 шага:
 
В процессе кластеризации текстовых документов можно выделить 4 шага:

Текущая версия на 01:39, 18 марта 2011

LambdaGlobeLogo.png Это незавершённая статья о задаче компьютерной лингвистики.
Вы можете помочь проекту, исправив и дополнив её
.

Кластеризация текстовых документов — процесс разбиения множества текстовых документов на группы — кластеры, причём заранее неизвестно, какие группы должны быть выбраны (хотя может известно их количество кластеров).

В процессе кластеризации текстовых документов можно выделить 4 шага:

  1. Предварительное преобразование документа (в частности, удаление форматирования).
  2. Преобразование документа во внутреннее представление (векторное пространство, document index graph, суффиксное дерево).
  3. Рассчёт расстояния между документами на основании внутреннего представления.
  4. Кластеризация документов на основании рассчитанного расстояния с помощью одного из соответствующих алгоритмов (например, однопроходного, k-means, c-means, em и др.).