(CRISP-DM) поток данных научных исследований

CRISP-DM (межотраслевой процесс для интеллектуального анализа данных) модель проект KDD обеспечивает полное описание процесса. Модель будет проект KDD разделен на шесть различных, но порядок не совсем такой же этап.

  1. Бизнес-понимание (понимание бизнеса)

    На этом первом этапе мы должны понять, с точки зрения бизнеса, что требования проекта и конечной целью является, и будем сочетать эти цели с определениями и результатами интеллектуального анализа данных.

  2. оценили данные (Понимание данных)

    Основная работа включает в себя: определение бизнес-целей, является важным фактором, влияющим на результаты открытия чертежа с точки зрения бизнеса первичных целевых клиентов, оценить ситуацию, найти все ресурсы, ограничения, предусмотренные и приняты во внимание при анализе данных для определения целей и проектов различных программ другие факторы, включая риски и несчастные случаи, связанные с точки зрения затрат и выгод, и т.д., чтобы определить следующий целевых данных плана проекта добычи.

  3. оценили данные (Понимание данных)

    понимание фазы данных начинается со сбора данных. Следующий шаг будет знаком с данными работ, такими как конкретно: количество обнаруженных данных, предварительное понимание данных, данные зонда интересного подмножества данных, и, таким образом, формирование предположений, лежащих в основе информации. Сбор исходных данных, загрузка данных, используя данные, а также изучить характеристики данных, простых статистических характеристик, данных контроля качества, включая целостность данных и корректность, отступы и других недостающих значения.

  4. Подготовка данных (подготовка данных)

    Этап подготовки данных охватывает строительство необработанных данных из исходных данных, установленных в финале (в качестве инструментов моделирования объекта анализа) всю работу. работа по подготовке данных может выполняться несколько раз, но ее реализация не предусмотрена исправная. Основная задача этого этапа включает в себя: часы, запись, выберите и преобразование переменные данных, а также очистку данных и т.д. Для удовлетворения инструментов моделирования, проведенные.

  5. Моделирование (моделирование)

    Корреляция с целевой горнодобывающей промышленности, качества данных и технических ограничений, в качестве анализа данных, используемых выбранной для очистки данных и дальнейшего преобразования, полученной переменной конфигурации, интеграции данных, и в соответствии с требованиями инструмента, форматированных данных.

    На этом этапе, разнообразие методов моделирования должны быть выбрано и использовано при строительстве, модель оценки, параметры которых калиброванных к идеальному значению. Более типичным это, для того же типа интеллектуального анализа данных задачи, различные способы могут быть выбраны для использования. Если существует несколько технологий, которые будут использоваться, то эта задача, для каждой технологии, которая будет использоваться для рассматриваться отдельно. Некоторые подходы к моделированию предъявляют особые требования к форме данных, поэтому на данном этапе, обратно на этап подготовки данных для выполнения определенных задач, иногда очень нужно.

  6. Оценка (оценка)

    С точки зрения анализа данных, чтобы рассмотреть на данном этапе, мы установили одну или несколько моделей высокого качества. Но до окончательной модели развертывания, модель более тщательная оценка, обзор каждого шага в процессе построения модели выполняется, очень важно, чтобы вы могли убедиться, что модель достигла целевой компании. Критическая оценка, чтобы увидеть, есть ли еще какие-то важные вопросы бизнеса не уделяется должного внимания и рассмотрения. В конце этого этапа, использование соответствующих результатов интеллектуального анализа данных должно достичь единогласного решения.

  7. Развертывание (развертывание)

    Развертывание, вскоре обнаружили, что их организационный процесс и результаты становятся читаемый текст. Конечная цель состоит в том, чтобы не создавать модель проекта. Хотя моделирование добавить больше информации о данных, но информация по-прежнему необходима в способе, которым клиенты могут использовать, чтобы быть организованы и представлены. Это часто приходит к определенной организации в борьбе с процессом принятия решений, таких как решение повторить счет на этих веб-страниц в режиме реального времени персонала или маркетинга базы данных, с «живой» модели.

    В зависимости от спроса, фаза развертывания может быть столь же просто, как написание отчета, он может быть столь же сложным, как повторяемый интеллектуального анализа данных программы на предприятии. Во многих случаях клиенты часто не аналитик данных для выполнения фазы развертывания. Тем не менее, в то время как аналитики данных должны иметь дело с развертыванием фазы работы, для клиентов, расширения знаний о деятельности должны быть выполнены, чтобы правильно использовать встроенную модель очень важна.

рекомендация

отwww.cnblogs.com/JasonBUPT/p/11610469.html