Кластеризация текстовых документов: различия между версиями

Текущая версия на 01:39, 18 марта 2011

Это незавершённая статья о задаче компьютерной лингвистики.
Вы можете помочь проекту, исправив и дополнив её.

Кластеризация текстовых документов — процесс разбиения множества текстовых документов на группы — кластеры, причём заранее неизвестно, какие группы должны быть выбраны (хотя может известно их количество кластеров).

В процессе кластеризации текстовых документов можно выделить 4 шага:

Предварительное преобразование документа (в частности, удаление форматирования).
Преобразование документа во внутреннее представление (векторное пространство, document index graph, суффиксное дерево).
Рассчёт расстояния между документами на основании внутреннего представления.
Кластеризация документов на основании рассчитанного расстояния с помощью одного из соответствующих алгоритмов (например, однопроходного, k-means, c-means, em и др.).

@@ Строка 1: / Строка 1: @@
 {{Stub|о ''задаче компьютерной лингвистики''}}
-'''Кластеризация текстовых документов''' — процесс разбиения множества объектов на группы — кластеры, причём заранее неизвестно, какие группы должны быть выбраны (хотя может известно их количество кластеров).
+'''Кластеризация текстовых документов''' — процесс разбиения множества текстовых документов на группы — кластеры, причём заранее неизвестно, какие группы должны быть выбраны (хотя может известно их количество кластеров).
 В процессе кластеризации текстовых документов можно выделить 4 шага:

Кластеризация текстовых документов: различия между версиями

Текущая версия на 01:39, 18 марта 2011

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Поиск

Навигация

Инструменты