2. Автоматическая классификация текста

Теперь для определения и сфера категоризации текста понять. Когда ссылку на файлы Текст «Текст система классификации» можно разделить на классы или категории, они представляют, но и для классификации текстов из формального определения понятия и математики. Предположим, что несколько человек, просматривать текст и классифицировать каждый полный текст задачи классификации, то они являются частью системы классификации документов мы говорим. Однако после того, как количество документов, и требуют быстрого более одного миллиона процесса сортировки, который не может хорошо масштабируется. Для того, чтобы сделать процесс более эффективной классификацию документов и быстро, автоматизированные задачи классификации текста вы должны думать о том, что подводит нас к автоматической классификации текста.

Для достижения автоматической классификации текста, вы можете воспользоваться некоторыми из методов и концепций машинного обучения. Здесь существует два типа технологий, связанных с решением этой проблемы:

Контролируемое машинное обучение.
Неконтролируемое машинное обучение.

Кроме того, есть и другие машины обучение алгоритмы семья, такие как армирующее обучение и пол-подконтрольное обучение. Далее поднимается, чтобы понять более контролируемые и неконтролируемые алгоритмы машинного обучения машинного обучения из алгоритмов машинного обучения, чтобы узнать, как использовать эти текстовые файлы классификацию.

Неконтролируемое обучению относится не нужно отметить выборку данных обучения заранее установить конкретный алгоритм машинного обучения или модель. Как правило, существует множество точек данных, которые могут быть текстовыми или числовыми типами, в зависимости от конкретной решаемой задачи. Мы процедура «выделение признаков» называется путем извлечения функции от каждого из данных, а затем от характеристики каждого набора данных ввода в алгоритм. Постарайтесь извлечь значимые модели из этих данных, такие как кластеризация или с использованием текстом на основе резюме технической модели Темы для аналогичной группировки данных. Этот метод полезен в классификации текстов, также известный как кластеризация документов, которые мы опираемся исключительно на особенностях текста, и приписывать сходство, без использования какой-либо модели подготовки пакетов данных документа аннотаций. Последующий будет объяснять и обсуждать неконтролируемое обучение, включая моделирование темы, документацию блеск, анализ сходства и кластеризацию.

Контролируемое обучение относится к конкретным методам машинного обучения или алгоритмам подготовленных заранее обозначенным выборочные данные (называемые также обучающим данные). Извлечение данных с использованием функции извлечения признаков или атрибуты из, для каждой точки данных, будет иметь тип объекта, соответствующий набору / этикетку. Изучение алгоритмов различных моделей в каждой категории от обучающих данных. После завершения этого исследования, это будет обучен модель. После того, как характеристики будущих выборок данных в тестовой модели, модель может предсказать образцы тестовых данных классификации. Такие машины узнали новые данные, основанные на выборках выборок данных для прогнозирования местоположения учебной классификации.

В настоящее время существует два основных типа поднадзорных алгоритмов обучения.

Категории: когда предсказанный выход является дискретным типом, составляя классификацию называется наблюдением обучения, поэтому, выходная переменная в данном случае является тип переменной. Примеры включают в себя новости классификации пленки или классификации.

Возврат: Если мы хотим, чтобы вывести результат непрерывного числовой переменных, охраняемые машинное обучение алгоритм, называемый алгоритмом регрессии. Примеры включают в себя цены на жилье или вес человека.

В настоящее время по вопросу о классификации, попробуйте текстовый файл в дискретную категорию или классификацию.

Теперь, готовый быть определен автоматически или машинно-процесс , основанный на классификации текста математически. Существует набор документов, сбор документов с соответствующей категорией или меткой классификации. Этот набор может быть TS сказал , что это набор документов и теги, TS = {(D _{. 1} , C _{. 1} ), (D ₂ , C ₂ ), ..., (D _n- , C _n- )}, где D _{. 1} , D ₂ , ..., D _n - список текстов, C _{. 1} , C ₂ , ..., CN тип , соответствующий тексту. Где C _й € {С = С _{. 1} , С ₂ , ..., С _п }, где С _й представляют й , соответствующий типу документ, С обозначают совокупность всех возможных дискретных категорий, установлен документ может представлять собой любой элемент или более чем одного типа. Предполагая , что имеет место набор обучающих данных, можно определить Контролируемый алгоритм обучения F , когда алгоритм в обучающих данных TS после обучающего набора, пройти обучение классификатор Y, он может быть выражен как Ф. ( для TS ) = Y. Таким образом, контролируемый алгоритм обучения с использованием ввода F набора (документ, класс) для TS , пройти обучение классификатора Y, который наша модель. Описанный выше процесс называется процессом обучения.

Эта модель ввода новой, неизвестной документ НД , может предсказать тип документа C _ND , так что С _ND Е С, этот процесс называется процесс предсказания, может быть выражена как Y: C → ТД _ND . Так видеть контролируемый процесс текста классификации состоит из двух основных процессов:

обучение
Прогноз.

Ключевой момент, чтобы помнить курируется текст классификация также требует ручной аннотации обучающих данных, даже если речь идет об автоматической классификации текста, также требует ручной работы, чтобы начать нашу автоматизированную обработку. Конечно, это также широкий спектр преимуществ, использовать меньше усилий и человеческий контроль, чтобы предсказать и классифицировать новые документы.

Ниже будут обсуждаться различные методы обучения и алгоритмы. Они излучают не только для текстовых данных, которые являются общими машинами алгоритмы обучения могут быть применены к различным видам предварительной обработки данных посредством выделения признаков. Он будет включать в себя много поднадзорных алгоритмов машинного обучения, и использовать их для решения реальных задач классификации текста. Эти алгоритмы, как правило , обучается на наборе данных обучения, Ян осуществляется на альтернативном наборе данных проверки модели для того , чтобы избежать чрезмерной подгонки обучающих данных. Переобучения основных средств для новых внутренних параметров, показатели эффективности (например, точность набора проверки) или с помощью перекрестной проверки для оценки производительности. Когда кросс-проверка, с использованием случайной выборки обучающих данных в обучении и проверке наборы. Они представляют собой учебный процесс, вывод полностью обучена модель может быть предсказана. В прогнозируемом периоде, общее использование данных испытаний устанавливают новые данные. После обработки и нормализации функции извлечения, они обучаются в модель , а затем наблюдать , насколько хорошо модель выполняется путем оценки эффективности предсказания.

Исходя из количества и характера типа предсказания предсказания, существуют различные классификации текста. Классификация основана на количестве типов наборов данных, число ассоциированных с типом или классом набора данных, точки данных могут быть предсказаны.

Когда число дискретных двоичных типов или классов классификации равно 2, любой из них может быть предсказано.
Также известно как классификация мульти-класс классификация многофакторной, это относится к проблеме, когда число типов более 2, каждый из этих типов данных предсказания класса или категорию. Когда число всех типов более чем в 2 раза, что является проблемой расширенной двоичной категории.
Классификация несколько этикеток относится к любым данным, каждый из множества результатов прогнозирования может давать результаты / типу предсказание.

2. Автоматическая классификация текста

2. Автоматическая классификация текста

рекомендация