Кластеризация текстовых документов: различия между версиями
Материал из LingvoWiki
Перейти к навигацииПерейти к поискуDemetrius (обсуждение | вклад) (совсем чуть-чуть) |
Demetrius (обсуждение | вклад) м |
||
Строка 1: | Строка 1: | ||
{{Stub|о ''задаче компьютерной лингвистики''}} | {{Stub|о ''задаче компьютерной лингвистики''}} | ||
− | '''Кластеризация текстовых документов''' — процесс разбиения множества | + | '''Кластеризация текстовых документов''' — процесс разбиения множества текстовых документов на группы — кластеры, причём заранее неизвестно, какие группы должны быть выбраны (хотя может известно их количество кластеров). |
В процессе кластеризации текстовых документов можно выделить 4 шага: | В процессе кластеризации текстовых документов можно выделить 4 шага: |
Текущая версия на 01:39, 18 марта 2011
Это незавершённая статья о задаче компьютерной лингвистики. Вы можете помочь проекту, исправив и дополнив её. |
Кластеризация текстовых документов — процесс разбиения множества текстовых документов на группы — кластеры, причём заранее неизвестно, какие группы должны быть выбраны (хотя может известно их количество кластеров).
В процессе кластеризации текстовых документов можно выделить 4 шага:
- Предварительное преобразование документа (в частности, удаление форматирования).
- Преобразование документа во внутреннее представление (векторное пространство, document index graph, суффиксное дерево).
- Рассчёт расстояния между документами на основании внутреннего представления.
- Кластеризация документов на основании рассчитанного расстояния с помощью одного из соответствующих алгоритмов (например, однопроходного, k-means, c-means, em и др.).