모두 여기에 대용량 데이터 마이닝 지식 제로 기반 프로그래머,

 여기에 몇 가지 빅 데이터 지식 마이닝, 함께 오늘 모두에 대해 배울 수 있습니다.

1. 데이터, 정보, 지식이 일반화 된 데이터의 표현의 다른 형태이다.

기술 유형 2 주 모드 : 일반 지식 관련된 기술, 지식 기반 예측 기술 지식 유전자형

3. 웹 마이닝 연구의 주요 학교는 다음과 같습니다 웹 구조 마이닝, 웹 사용 마이닝, 웹 콘텐츠 마이닝

일반적 4. KDD의 과정은 일반적인 문제 정의 데이터 추출, 데이터 전처리, 기본 데이터 마이닝 위상 및 평가 모드로 다단이다.

데이터베이스 모델은 지식 검색 프로세스를 갖는다 : 단계 프로세스 모델 프로세스 모델 코일 사용자 중심 모델 KDD 라인 모델의 처리 구조를, 모델은 다수의 데이터 소스 KDD 프로세스 많은 기술 모델을 지원

6. 대략, 지식 발견 소프트웨어 개발 도구 또는 독립적 인 지식 발견 소프트웨어의 경험을 말하자면, 지식 발견 도구의 후반 두 사람은 현재의 지식 검색 소프트웨어를 반영, 세 가지 주요 단계에 대한 수평 및 수직 지식 검색 솔루션을 설정 두 가지 주요 발전 방향.

의사 결정 트리, 나무 가지 치기 : 7. 의사 결정 트리 분류 모델의 설립은 일반적으로 두 단계로 나누어 져 있습니다.

사용하는보기의 주요 기술적 관점에서 (8)이 분류는 네 가지 유형에 기인 할 수있다 :

분류 거리에 따라

의사 결정 트리 분류

베이지안 분류

규칙 유도 방법

제 연관 규칙 마이닝은 두 개의 하위 문제들로 분할 될 수있다 :

그것은 그 자주하는 결과 : Minsupport 지정된 사용자가 모든 빈번 항목을 설정하거나 최대 빈번한 아이템 세트를 찾을 수 있습니다.

연관 규칙을 생성 : 주어진 Minconfidence를 통해 사용자를 연관 규칙을 찾기 위해, 빈번한 항목에 초점을 맞추었다.

10. 데이터 마이닝 제안 및 주요 기술의 전체 개발 관련 주제의 기초를 개발하고 있습니다 :

데이터베이스 및 기타 정보 기술 개발

통계 깊이 응용 프로그램

인공 지능 기술 연구 및 응용 프로그램

11. 측정은 연관 규칙 마이닝 결과의 효과를 고려하는 다양한 각도로부터 통합되어야한다 :

정확도 : 규칙 밖으로 발굴 데이터의 실제 상황을 반영해야합니다. 834 325 294 : 대형 데이터 플러스 그룹 필요

실용성 : 규칙이 간단하고 사용할 수 있어야합니다 발굴.

참신 : 연관 규칙 마이닝하면 새로운 사용자에 대한 유용한 정보를 제공 할 수 있습니다.

제약 12. 일반적인 유형은 다음과 같습니다

단 조성 제약;

안티 조성을 제약;

전환을 제한 할 수 있습니다;

단순 제약.

13. 관련된 규칙 계층, 멀티 레벨 연관 규칙으로 나눌 수 있습니다 :

동일한 층 협회 규칙 : 규칙을 세분화 대응하는 레벨과 연관되는 경우 프로젝트, 그때 그것은 동일 층 조합 규칙이다.

층간 협회 규칙 : 당신이 단위의 서로 다른 수준의 문제를 고려하는 경우, 당신은 층간 연관 규칙을받을 수 있습니다

클러스터링 알고리즘 (14)의 주된 아이디어는 클러스터링 방법은 다음과 같은 범주로 요약 될 수있다.

부문 : 특정 기준에 따라 분할 데이터의 건설.

이 클래스에 속하는 클러스터링 방법은 K-수단, K-모드 원형 K-K-medoids, PAM, 클라라, CLARANS 좋아.

AHP는 : 주어진 데이터 세트에 대한 분해 레벨을 객체.

방법 밀도 : 밀도를 데이터 객체에 기초하여 상기 평가에 접속된다.

그리드 방법 : 공간은 데이터 유닛 (셀) 격자 구조, 격자 기반 클러스터링 구조의 제한들로 분할된다.

모델 법 : 각 클러스터 모델을 가정 지정하고이 데이터 집합 모델을 만족하는 방법을 찾고 이동합니다.

클래스 사이의 거리 15. 측정 값이다 :

최단 거리에있어서, 두 소자 사이의 간격은 두 클래스의 클래스 사이의 최근 접 거리를 정의한다.

네트워크 환경에있어서, 상기 두 요소 사이의 거리가 먼 거리 클래스 간의 두 클래스를 정의한다.

센터 방법 : 두 중심 사이의 거리가 두 클래스 사이의 거리로 정의된다.

그룹 평균있어서, 그들 사이에 두 개의 클래스, 클래스의 임의의 두 요소들 사이의 거리와 통합 거리를 산출 : 제곱의 합.

16. 특정 계층 클러스터링 방법으로 나눌 수있다 :

응집 계층 적 클러스터링 : 자기 상향식 (bottom-up) 전략의 클러스터로 각 개체의 첫 번째, 다음 종료 조건이 만족 될 때까지 클러스터의 성장 클러스터로 병합.

계층 적 클러스터링을 분할 : 하향식 전략은, 그것이 종료 조건에 도달 할 때까지, 먼저 점차적으로 더 작은 클러스터로 분류, 클러스터에 배치되어 모든 객체의입니다.

응집은 AGNES 알고리즘의 대표입니다. 분할 수준의 대표 DIANA 알고리즘입니다.

17. 텍스트 마이닝 (TD)와 대상이 변경되는 방식으로, 기본 수준은 :

가장 쉬운 방법은, 그것은 기존의 검색 기술과 유사하다 : 검색 키워드.

(키워드 포함) 정보 페이지 간의 데이터 마이닝 협회에 초점 : 광산 프로젝트와 관련.

정보 분류 및 클러스터링 : 데이터 마이닝, 분류 및 클러스터링 기술 카테고리 페이지의 사용, 추상화의 수준에 더 많은 페이지 하나에 마무리.

자연 언어 처리는 다음 계시 자연 언어 처리 기술 의미에서,보다 정확한 처리 웹 콘텐츠를.

웹 액세스 일반적으로 사용되는 기술 광산에서 18 :

경로 분석

가장 일반적으로 사용되는 경로 분석은 웹 사이트에서 응용 프로그램을 결정하는 데 사용되는 대부분의 자주 방문 경로, 전자 상거래 웹 사이트 또는 정보 보안 평가에 대한 이러한 지식은 매우 중요합니다.

협회 규칙

협회는 트랜잭션에서 액세스 할 수있는 검색 방법과 관련된 일반적인 지식을 찾기 위해 웹을 중앙 규칙.

순차 패턴

소인 질서 트랜잭션 세트는 시퀀스 모드와 같은 모형의 내정에서 발견되는 것으로 지칭 "항목의 일부 다른 용어로 하였다."

분류

발견 분류 규칙은 공공 재산 설명의 특별한 그룹을 식별하기 위해 부여 할 수 있습니다. 이 설명은 새 항목에 사용될 수 있습니다.

클러스터링

당신은 웹 사용 데이터와 유사한 특성을 가지고 고객을 수집 할 수 있습니다. 웹 트랜잭션 로그에서, 고객 정보 또는 데이터 항목을 클러스터링, 미래의 시장 전략의 개발과 이행을 촉진하는 것이 가능하다.

19 초점과 다양한 기능, 데이터 마이닝 언어는 세 가지 유형으로 나눌 수 있습니다 :

데이터 마이닝 쿼리 언어 : 같은 데이터 마이닝 작업의 완료로 SQL 데이터베이스 쿼리 언어 희망.

데이터 마이닝 모델링 언어 : 대한 데이터 마이닝 모델 설명과 언어, 표준 디자인 언어 모델링 데이터 마이닝, 정의와 설명의 측면에서 표준 모델을 따르는 수있는 데이터 마이닝 시스템을 정의 할 수.

일반 언어 데이터 마이닝 : 두 언어의 기능을 통합하는 일반적인 데이터 마이닝 언어하는 모델을 정의하는 기능을하지만, 쿼리 언어 통신 시스템 및 데이터 마이닝 등 모두 대화 발굴. 일반 데이터 마이닝 언어 표준화 매력적인 데이터 마이닝 산업 연구의 문제를 해결하는 것입니다.

첫번째 전략을 공급하는 감소 제 가산 및 감산 후 감산 또한, 20. 룰 유도 네 전략이있다.

뺄셈 전략 : 총괄, 뺄셈 조건 (속성 값) 또는 차감 conjuncts (편의를 위해, 우리의 증가 분리 된 홍보 고려하지 않음) 추진의 즉 승진을 홍보하거나하는 예를 들어 시작 지점으로 구체적인 예, 후 예 또는 규칙은 반례를 포함하지 않습니다.

추가 전략 : 초기 가정 규칙 조건의 일부가 비어는 (규칙 결코 진정한), 재정 안티 실시하는 경우, 규칙 조건은 규칙 더 이상 커버의 반례까지 증가 또는 conjuncts에 보관됩니다.

첫 번째 덧셈과 뺄셈 전략 후 :이 특성 간의 상관 관계이며, 따라서 이전에 아무런 영향을 추가하지 조건으로 이어질 수있는 조건을 가입 할 수 있으며, 이후 때문에 이전 조건을 뺄 필요가있다.

첫 번째 덧셈과 뺄셈 후 동일한 이유를,뿐만 아니라 속성 간의 상관 관계를 다루는 : 우선 공급 전략을 감소.

21. 데이터 마이닝은 넓고 좁은 정의된다.

넓은 관점에서 데이터를 들면, (아마 불완전, 소음, 불확실성, 저장의 다양한 형태), 그 안에 내재 광산, 사람들은 사전에 알 수없는 대용량 데이터 세트에서 광업 유용한 지식의 의사 결정 과정.

볼이 좁은 관점에서, 우리는 데이터 마이닝 프로세스가 특정 데이터 양식에서 농축 된 추출물 지식 정의 할 수 있습니다.

22. 웹 마이닝 의미 : 액세스하기 위해 웹 데이터, 인터넷의 도움 사람들 추출 지식 데이터 마이닝 다양한 방법을 포함하여 웹 페이지의 콘텐츠, 페이지 간의 구조, 사용자 액세스 정보, 전자 상거래 정보를 포함한 의사 결정 지원, 사이트 운영자 및 전자 상거래를 포함한 인터넷 기반 비즈니스 활동을 제공하는 사람.

튜플은 K에서, 데이터 분류 및 K 훈련 데이터 가까운 촬영하는 튜플들을 정렬 각 학습 데이터의 거리를 계산함으로써 : 23 K- 최근 접 분류 알고리즘 정의의 (K 가까운 이웃, KNN을 함) 어떤 종류 훈련 데이터의 대다수는 카테고리에 속하는 분류 튜플로한다.

24. K-수단 알고리즘 성능 분석 :

주요 장점 :

이 문제를 클러스터링하는 것은 간단하고 빠른 해결하기 위해 고전적인 알고리즘이다.

큰 데이터 세트를 처리하는 알고리즘이 비교적 효율적이고 확장 성이있다.

결과가 조밀 한 클러스터 인 경우,이 좋습니다.

주요 단점

정의 된 평균 클러스터의 경우를 사용하기 위해서는 특정 응용 프로그램에 적합하지 않을 수 있습니다.

사전 K (클러스터의 수를 생성 할), 및 초기 값 감도 주어져야, 다른 초기 값을, 다른 결과가 발생할 수있다.

이것은 큰 클러스터 또는 클러스터의 크기의 차의 비 볼록 형상에 적합하지 알았다. 또한, 「초조 소리 "로하고 특이 데이터에 민감하다.

25. ID3 알고리즘 성능 분석 :

가설 공간은 기존 속성에 대한 개별 값의 제한된 공간의 전체 기능입니다 ID3 결정 나무의 서비스를 제공합니다. ID3 알고리즘의 검색의 주요 위험 불완전한 가설 공간을 피할 수 있도록 : 가설 공간은 목적 함수를 포함 할 수 없습니다.

검색에 사용하는 각 단계에서 ID3 알고리즘은 현재의 모든 훈련 예는 크게 개별 트레이닝 샘플 오차 민감도를 감소시킨다. 따라서, 종료 기준을 변경함으로써 용이하게 노이즈 훈련 데이터를 처리하도록 확장 될 수있다.

검색 과정에서 역 추적하지 않고 ID3 알고리즘. 로컬 최적이 아닌 글로벌 최적으로 수렴 : 따라서 더 등반을 찾아 되돌아 영향을주지 않습니다 일반적인 위험에 영향을 받기 쉽다.

26. 선험적 알고리즘은 두 치명적인 성능 병목 현상이 있습니다

반복 트랜잭션 데이터베이스를 검색, 그것은 I / O 부하가 많이 필요

각 사이클 k에 대한 각 요소의 허우 Ck를 선택 루카을 첨가 데이터베이스를 검색하여 확인한다. 빈번한 아이템 세트가 10 큰 항목이 포함되어있는 경우에, 당신은 트랜잭션 데이터베이스를 최소한 10 번 스캔 할 필요가있다.

그것은 허우의 거대한 선택이있을 수 있습니다

CK는, 예를 들면 104 1- itemsets 거의 107 2- HOU 요소의 선택을 발생시킬 수는 기하 급수적 성장 선택 K- 허우 루카-1을 생성한다. 메인 메모리 공간과 시간이 허우 이러한 선택은 큰 도전이다. 에 기초하여 데이터 분할 방법에있어서의 기본 원칙 "지지의 분할의 지원은 최소 K- itemsets 글로벌 빈번하게 수를 초과합니다."

주요 개선 27 연역적 알고리즘은 적응성과 효율성을 향상시킬 수 있습니다 :

데이터 분할 (분할)에있어서 기준 : 기본 원리는 그 "분할 지원 글로벌 빈번하지 최소 지원 K- itemsets보다 작은"이다.

해시는 기반 : 기본 원칙은 "적은 K-itemsets의 최소 지원 자주 글로벌되지 않을 수있는 것보다 해시 버킷 지원."

샘플링 기 : 기본 원리이다 "서브셋을 평가하는 샘플링 방식에 의해 샘플링 순차 K- itemsets 글로벌 주파수를 추정한다."

기타 : 쓸모없는 경우, 동적 삭제 트랜잭션 : "어떤 눅 거래 삭제할 수 있습니다 스캔의 미래 결과에 영향을 미치지 않습니다 포함되어 있지 않습니다."

데이터 중심의 데이터베이스와 데이터웨어 하우스 마이닝에 비해 28 웹 지향 데이터 마이닝은 훨씬 더 복잡하다 :

이기종 데이터 소스 환경 : 웹 사이트의 정보는 이기종입니다 : 각 사이트의 정보 조직은 다른이며, 사이트 보안의 사용, 각각의 개인 정보 보호 요구 사항; 비 구조적 텍스트 정보, 복잡한 멀티미디어 많은 정보가 다른, 등등.

데이터는 복잡합니다 : 일부는 일반적으로 긴 문장이나 구문과 문서 클래스 정보를 표현 (예 : 웹 페이지로) 구조화되어 일부 (예 : 이메일, HTML 페이지 등) 반 구조 될 수있다. 물론, 일부 (예 : 스프레드 시트 등) 아주 좋은 구조를 가지고있다. 이러한 열린 복합 개체의 특성에 대한 일반적인 설명은 데이터 마이닝의 피할 수없는 의무가 묵시적.

동적 응용 프로그램 환경 :

웹 기반 정보 자주 뉴스와 같은, 주식 정보가 실시간으로 업데이트되고, 변화하고 있습니다.

이러한 변화는 또한 높은 동적 랜덤 액세스 링크와 페이지에 반영됩니다.

웹의 사용자는 예측하기 어렵다.

웹 환경에 대한 데이터는 소음이다.

지식 검색 프로세스 관리의 29 설명 I-MIN 프로세스 모델을 전망이다.

프로세스 모델에 MIN KDD 과정은 IM1은, IM2는, ..., IM6 다른 공정 단계는 각 단계에서 몇 가지 문제에 초점을 특정 품질 기준에 따라 프로젝트의 구현을 제어 할 수 있습니다.

IM1의 사명과 목적 :, 그 목적은 해당 지식 모드로 포함이 회사의 광산 목표입니다 계획 단계 KDD 프로젝트, 컴파일 지식 검색 메타 데이터 스키마를 얻을, 대상 회사의 광산, 지식 검색 모드 선택 결정이다.

IM2 태스크 및 목적 :이 KDD의 전처리 단계이다 수 IM2a, IM2b, IM2c 각 데이터 클리닝, 데이터의 선택, 데이터 변환 단계에 대응하는 등이다. 목표는 고품질의 대상 데이터를 생성하는 것입니다.

IM3 임무와 목적 :이 KDD 마이닝 준비 단계이며, 엔지니어 마이닝 실험 모델의 반복 테스트 및 검증의 효과를 마이닝 데이터입니다. 목표는 최종 사용자가 사용할 수있는 모델을 제공합니다 실험과 훈련을 통해 농축 된 지식 (지식 컨센트레이트)를 얻는 것입니다.

IM4의 사명과 목적 : 그것은 KDD, 해당 지식 데이터 마이닝에 의해 지정된 사용자 알고리즘을 마이닝 데이터의 단계입니다.

IM5의 사명과 목적 :이 KDD의 지식 표현 단계이며, 지식은 규정 된 요구 사항에 따라 양식을 표준화.

IM6 임무와 목적 : 그것은 지식과 KDD의 사용 단계를 설명은, 그 목적은 직관적으로 기업의 지식 기반에 통합 사용자의 요구 사항이나 지식에 따라 출력됩니다.

주요 개선 방법은 연역적 알고리즘의 유연성과 효율성을 개선하기 위해 (30)은 다음과 같습니다 :

데이터 분할 (분할)에있어서 기준 : 기본 원리는 그 "분할 지원 글로벌 빈번하지 최소 지원 K- itemsets보다 작은"이다.

에 따라 방법 해시 (해시) : 기본 원칙은 "적은 K-itemsets의 최소 지원 자주 글로벌되지 않을 수있는 것보다 해시 버킷 지원"입니다.

기반 샘플링 방법 (샘플링)는 : 기본 원리는 "기술, 상기 샘플링 집합 평가를 통해 샘플링 및하면에 전체 K- itemsets를 추정 주파수 설정"이다.

기타 : 쓸모없는 경우, 동적 삭제 트랜잭션 : "어떤 눅 거래 삭제할 수 있습니다 스캔의 미래 결과에 영향을 미치지 않습니다 포함되어 있지 않습니다."

31. 데이터 분류는 두 단계는 무엇입니까?

데이터 클러스터 또는 개념의 소정의 세트를 설명하는 모델을 수립

또한, 샘플 데이터 요소들의 그룹 또는 객체 인스턴스라고 함.

모델의 설립을위한 데이터 튜플은 훈련 데이터 집합 형태로 분석 할 수 있습니다.

단일 튜플은 각 훈련 샘플에 대한 클래스 라벨 때문에, 훈련 샘플 세트 학습 데이터로 언급, 따라서 또한지도 학습이라고도합니다.

훈련 데이터 세트를 분석하여 분류 모델의 형태로 사용할 수 분류 규칙, 의사 결정 트리, 또는 제공 수학 공식으로 구성되어있다.

모델을 사용하여 분류하기

먼저 평가 모델 (분류) 예측 정밀도.

당신이 모델의 정확성을 허용 할 수 있습니다 생각한다면, 그것은 알 수없는 데이터 튜플 또는 객체의 클래스 레이블로 분류 할 수있다.

(32) 웹 액세스 정보 마이닝 기능 :

데이터 용량, 넓은 분포, 풍부한의 내용과 다양한 형태의 웹 액세스

중간 크기의 웹 사이트는 매일 정보의 몇 메가 바이트에 대한 사용자 액세스를 기록 할 수 있습니다.

널리 세계에 분포.

액세스 정보 모양을 다양.

정보에 대한 액세스는 풍부한 함의를 가지고있다.

웹 액세스 데이터는 의사 결정에 유용한 정보를 포함

사용자와 현장 방문의 특성을 식별하는 데 사용할 수있는 기능에 대한 각 사용자의 액세스 할 수 있습니다.

사용자의 개성의 같은 클래스 대신에 사용자 액세스의 동일한 유형.

데이터 액세스 기간은 공통점 그룹 사용자의 행동 및 사용자 그룹을 나타냅니다.

웹 데이터 액세스 정보를 통신 할 수있는 다리 디자이너 및 웹 사이트 방문자입니다.

웹 액세스 정보 데이터는 좋은 대상 데이터 마이닝 연구를 수행하는 것입니다.

객체의 웹 정보 액세스 기능은 발굴

요소 사이의 거래 구조에 대한 풍부한 정보가 트랜잭션 웹 페이지의 요소에 액세스 할 수 있습니다.

요소 액세스 트랜잭션 각 고객의 순서 관계를 나타내는 트랜잭션 요소 사이의 서열 정보를 구할 수있다.

각 페이지의 내용은 다른 개념, 액세스 순서 및 트래픽 부분 결정 개념을 추출 할 수 있습니다.

사용자 액세스 관심 대신에 긴 페이지에 서로 다른 사용자 액세스, 긴 방문이있을 때.

텍스트 정보 마이닝 내 33 웹 페이지 :

목표는 페이지가 요약 및 분류입니다 활용할 수있다.

페이지 요약 : 당신은 전통적인 방법의 응용 프로그램의 텍스트 요약의 각 페이지에 해당하는 요약 정보를 얻을 수 있습니다.

카테고리 : 분류 입력 (집합 교육) 웹 페이지 집합이며, 다음 다음 각각의 새로운 페이지에 입력을 분류하는 데 사용 분류 학습에 넣을 수 있습니다 페이지의 텍스트 내용에 따라 학습 감독.

{텍스트 학습 방법은 일반적으로 텍스트와 단어 사이의 순서에 관계없이, (백 오브 단어) 표기는 모든 단어가 문서로부터 추출 된 단어 세트 A는 문서이다 TFIDF 벡터 표기법을 사용 구조. 두 개의 차원 테이블을 구성하는이 방법은 다음과 같습니다

열의 전체 세트 열 수십만 많은로서 가질 수 있도록 각 단어는 사전의 값을 구별 할 필요가 모든 열 (기능 세트) 세트 단어로 나열.

단어의 페이지의 각 행에 저장된 정보는, 다음 페이지의 모든 단어에 열 집합 (피쳐 세트)에 대응. K 배하면 (K)의 값을 발생; 컬럼은 페이지에 존재하지 않을 경우, 그 값이 0의 집합의 각 열 페이지가 열 집합에 없으면 단어 일 수있다 포기. 이러한 방식은 페이지의 주파수의 측면에서 특성화 될 수있다.

중국어 페이지를 들어, 다음 첫 번째 단어는 두 단계보다 더 할 필요가있다.

이차원 테이블 이러한 구조가 사용될 수있다 최종 나이브 베이 즈 방법 또는 K 최근 접 분류 마이닝 및 다른 방법의 통계 워드 웹 페이지의 집합을 나타낸다.

일반적인 광산에 앞서 치수의 수를 줄이기 위해 제 1 서브 세트의 기능을 선택한다.

 

추천

출처www.cnblogs.com/duozhishidai/p/11986549.html