기사 디렉토리
머리말
최대 상관관계 및 최소 중복성 기준(mRMR)의 핵심 아이디어는
주어진 특성 세트에서 대상 카테고리와 가장 큰 상관관계를 갖고 서로 간에 최소 중복성을 갖는 특성 하위 집합을 찾는 것입니다.
1. Python에서 mRMR(최대 상관 최소 중복 기준)에 해당하는 라이브러리는 무엇입니까 ?
해당 라이브러리는 pymrmr이며, 자세한 링크는 Github mRMR 코드를 참고하시기 바랍니다 .
2. prmrmr을 어떻게 설치하고 사용하나요?
1. 새로운 환경 만들기
이름은 임의로 짓습니다. 예를 들어 pymrmr이라고 이름을 붙였습니다. 나중에 버전 3.6으로 들어가는 것이 가장 좋습니다.
conda create -n pymrmr python=3.6
2. pymrmr 라이브러리 설치
numpy, Cython을 먼저 설치한 다음 pymrmr을 설치합니다.
Tsinghua 미러 -i https://pypi.tuna.tsinghua.edu.cn/simple을 사용하는 것이 좋습니다.
pip install numpy
pip install Cython
pip install pymrmr
3. pymrmr을 사용하는 방법은 무엇입니까?
자세한 내용은 코드를 참조하세요.
import pandas as pd
import pymrmr
# 读入数据
data = pd.read_excel("080220.xlsx")
#选取十个特征
mr=pymrmr.mRMR(data,'MIQ',10)
print(mr)
mRMR에는 세 가지 매개변수가 있으며, 각 매개변수의 구체적인 의미는 다음과 같습니다.
매개변수 1: DataFrame의 첫 번째 열은 대상 수량(라벨)이 필수이고 나머지 열은 특성 수량입니다. 첫 번째 행은 특성 이름이어야 하며 a1, a2, 매개변수 2 : 선택 방법에는 ' MID '와 ' MIQ ' 두 가지 유형이 있습니다 . MID는 상호 정보를 기반으로 한 mRMR이고, MIQ는 몫을 기반으로 한 mRMR입니다. 매개변수 3: int 유형이 필요하며, 최종적으로 출력될 기능의 수입니다.
4. pymrmr 실험 결과
*** MaxRel features ***
Order Fea Name Score
1 10 a10 4.420
2 83 a83 3.124
3 76 a76 2.971
4 75 a75 2.946
5 80 a80 2.944
6 78 a78 2.928
7 81 a81 2.789
8 82 a82 2.329
9 38 a38 2.291
10 44 a44 2.280
이러한 방식으로 우리는 기능 간에 중복이 없도록 10가지 기능을 선택했습니다.
요약하다
오늘 제가 이야기할 내용은 위 내용이며, 이번 글에서는 파이썬에서 pymrmr의 사용법을 간략하게 소개할 뿐입니다. 이러한 방식으로 중복된 데이터를 신속하게 처리할 수 있습니다.