Вопрос 1: jieba китайский принцип слова?
Вопрос 2: Применение СММ в jieba?
Вопрос 3: Какие приложения НММ в других отраслях?
Первый шаг, чтобы узнать вещи должны смотреть на официальном сайте https://github.com/fxsjy/jieba
Официальный веб - сайт дает jieba примененному к алгоритму являются:
- Префикс слово из словаря фиг эффективного сканирования, чтобы генерировать все возможные символы, основанные на словах в случае предложений, учрежденных ориентированный ациклический граф (DAG)
- Он использует динамическое программирование , чтобы найти максимальный путь вероятности найти комбинацию разрезов на основе частоты слов максимальных точек
- Для незнакомых слов, используя китайские символы в слова , основанные на способности моделей СММ , используя алгоритм Витерби
Анализ функции:
Основные функции включают в себя: 1, слово, 2, добавить пользовательский словарь: словарь загружен и регулировки; 3, извлечение ключевых слов: IT-IDF алгоритм, алгоритм TextRank; 4, речь мечения, 5, параллельное слово; 6, разметить; 7, chineseAnalyzer для Свиста поисковой системы; 8, в командной строке слово
1. Сегментация
![](https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif)
# В основном соответствующие функции , включая jieba.cut (), jieba.cut_for_search () # Метод jieba.cut принимает три входных параметра: строка потребности слова, параметры cut_all , используемые для управления , следует ли использовать полный режим; параметр используется для управления ли НММ использование НММ модель # метод jieba.cut_for_search принимает два параметра: строка нужно слово, нужно ли использовать модели HMM. Этот метод пригоден для построения поиска слова инвертированного индекса, относительно небольшого размера # строки слова может быть строка или Юникода UTF-8, строка символов GBK. Не рекомендуется непосредственно вводить строка символов GBK, может непредсказуемо об ошибке декодируется в UTF-8: Примечание # каждого термина (Unicode) два или более метод возвращает итеративный генератор, может быть использовано для цикла , чтобы получить слово , полученное после того, как или вернуться непосредственно список jieba.lcut и jieba.lcut_for_search # кодировкой = UTF-8 Импорт jieba seg_list = jieba.cut ( " Я пришел в университет Цинхуа в Пекине " , cut_all = True) Print ( " Full Mode: " + "/ " .Join (seg_list)) # полный режим seg_list = jieba.cut ( " Я пришел в университет Цинхуа в Пекине "cut_all = False) Печать ( " Режим по умолчанию: " + " / " .join (seg_list)) # точность режима seg_list = jieba.cut ( « он пришел NetEase Ханчжоу Research Building » ) # по умолчанию режим именно для печати ( « » .join (seg_list)) seg_list = jieba.cut_for_search ( " Мастер Сяо Мин закончил китайской академии наук подсчитали , что после того, как университет Киото в Японии для изучения ".) # Режим поиска двигателя печати ( " " .join (seg_list))
Операционные результаты
![](https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif)
[Полный режим]: I / к / Пекин / Университет Цинхуа / Университет Цинхуа / мандарин / университет [точный режим]: I / к / Пекин / Университет Цинхуа [новое] слова признания: он пришел, и Netease, Повесьте исследования, строительство (здесь, «повесить исследования» не в словаре, но и алгоритм Витерби определен) [режим поиска двигателя]: Сяо Мин, MA, окончившие в, Китай, Наука, Искусство, наука, Китай академия наук, вычислительная техника, после расчета, в Японии, университет Киото, университет Киото, исследование