jieba слово обучения с НММ

Вопрос 1: jieba китайский принцип слова?

Вопрос 2: Применение СММ в jieba?

Вопрос 3: Какие приложения НММ в других отраслях?

Первый шаг, чтобы узнать вещи должны смотреть на официальном сайте https://github.com/fxsjy/jieba

Официальный веб - сайт дает jieba примененному к алгоритму являются:

Префикс слово из словаря фиг эффективного сканирования, чтобы генерировать все возможные символы, основанные на словах в случае предложений, учрежденных ориентированный ациклический граф (DAG)
Он использует динамическое программирование , чтобы найти максимальный путь вероятности найти комбинацию разрезов на основе частоты слов максимальных точек
Для незнакомых слов, используя китайские символы в слова , основанные на способности моделей СММ , используя алгоритм Витерби

Анализ функции:

Основные функции включают в себя: 1, слово, 2, добавить пользовательский словарь: словарь загружен и регулировки; 3, извлечение ключевых слов: IT-IDF алгоритм, алгоритм TextRank; 4, речь мечения, 5, параллельное слово; 6, разметить; 7, chineseAnalyzer для Свиста поисковой системы; 8, в командной строке слово

1. Сегментация

# В основном соответствующие функции , включая jieba.cut (), jieba.cut_for_search () 
# Метод jieba.cut принимает три входных параметра: строка потребности слова, параметры cut_all , используемые для управления , следует ли использовать полный режим; параметр используется для управления ли НММ использование НММ модель 
# метод jieba.cut_for_search принимает два параметра: строка нужно слово, нужно ли использовать модели HMM. Этот метод пригоден для построения поиска слова инвертированного индекса, относительно небольшого размера 
# строки слова может быть строка или Юникода UTF-8, строка символов GBK. Не рекомендуется непосредственно вводить строка символов GBK, может непредсказуемо об ошибке декодируется в UTF-8: Примечание 

# каждого термина (Unicode) два или более метод возвращает итеративный генератор, может быть использовано для цикла , чтобы получить слово , полученное после того, как или вернуться непосредственно список jieba.lcut и jieba.lcut_for_search 

# кодировкой = UTF-8 
Импорт jieba 

seg_list = jieba.cut ( " Я пришел в университет Цинхуа в Пекине " , cut_all = True)
 Print ( " Full Mode: " + "/ " .Join (seg_list))   # полный режим 

seg_list = jieba.cut ( " Я пришел в университет Цинхуа в Пекине "cut_all = False)
 Печать ( " Режим по умолчанию: " + " / " .join (seg_list))   # точность режима 

seg_list = jieba.cut ( « он пришел NetEase Ханчжоу Research Building » )   # по умолчанию режим именно для 
печати ( « » .join (seg_list)) 
seg_list = jieba.cut_for_search ( " Мастер Сяо Мин закончил китайской академии наук подсчитали , что после того, как университет Киото в Японии для изучения ".)   #
Режим поиска двигателя 
печати ( " " .join (seg_list))

Кодовое слово

Операционные результаты

[Полный режим]: I / к / Пекин / Университет Цинхуа / Университет Цинхуа / мандарин / университет 

[точный режим]: I / к / Пекин / Университет Цинхуа 

[новое] слова признания: он пришел, и Netease, Повесьте исследования, строительство (здесь, «повесить исследования» не в словаре, но и алгоритм Витерби определен) 

[режим поиска двигателя]: Сяо Мин, MA, окончившие в, Китай, Наука, Искусство, наука, Китай академия наук, вычислительная техника, после расчета, в Японии, университет Киото, университет Киото, исследование

результат

jieba слово обучения с НММ

рекомендация