Классификация документов

Материал из Википедии — свободной энциклопедии

Классификация документов — одна из задач информатики, заключающаяся в отнесении документа к одной из нескольких категорий основываясь на содержании документа.

Использует методы информационного поиска и машинного обучения.

Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют.

[править] Постановка задачи

Имеется множество категорий $\mathfrak{C} = \{ c_1, ... , c_{ \left| \mathfrak{C} \right| } \}$ .

Имеется множество документов $\mathfrak{D} = \{ d_1, ... , d_{ \left| \mathfrak{D} \right| } \}$ .

Неизвестная целевая функция $\Phi\colon \mathfrak{C} \times \mathfrak{D} \rightarrow \{ 0, 1 \}$ .

Необходимо построить классификатор $\Phi^\prime$ , максимально близкий к $Φ$ .

Имеется некоторая начальная коллекция документов, для которой известны значения $Φ$ . Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.

Классификатор может выдавать точный ответ $\Phi^\prime\colon \mathfrak{C} \times \mathfrak{D} \rightarrow \{ 0, 1 \}$ или степень подобия $\Phi^\prime\colon \mathfrak{C} \times \mathfrak{D} \rightarrow [ 0, 1 ]$ .

[править] Этапы обработки

Индексация документов: Построение некоторой числовой модели текста, например в виде многомерного вектора слов и их веса в документе. Уменьшение размерности модели.

Построение и обучение классификатора: Могут использоваться различные методы: решающие деревья, фильтр Байеса, нейронные сети, метод опорных векторов и др.