우 육시 엉 - 태어난 자연 파이썬 기계 학습 : 기계 학습 소개

외에도 몇 가지 사소한 경우에서, 그 자체가 정보를 필요로하는 원시 데이터에서 직접 얻기가 어렵다. 예를 들어, 스팸에 대한 
탐지 장치, 몇 가지 특정 단어가 동시에 표시하고 보충 할 때 단어별로 효과, 그러나,이 있는지 여부를 감지하는 
메시지 길이 및 기타 요인을 조사하기 위해, 사람들이보다 정확하게 확인할 수 있습니다 메시지가 스팸입니다. 간단히 말해, 기계 
학습 장애는 유용한 정보로 데이터를 변환하는 것입니다. 
컴퓨터 과학, 공학 및 통계 등의 여러 분야에서 기계 학습은 여러 분야의 전문 지식을 필요로한다. 나중에 당신이 
배울 수있을 것입니다, 그것은 또한 이러한 많은 문제를 해결하기 위해, 지질학에 정치에서 많은 분야에서 사용되는 실용적인 도구로 사용할 수 있습니다. 
당신은 거의 기계가 설명하고 데이터 필드가 이익을 조작 할 필요 학습, 말할 수 있습니다. 
컴퓨터 소프트웨어의 개발은 새를 식별 할 수있는, 조류 학자 은퇴 할 수 있습니다. 조류 학자는 조류 전문가를 연구하기 때문에 
우리는 전문가 시스템의 생성을 말할 수 있도록.  1- (1) 우리의 네 가지 속성 값이 다른 새를 사용할 필요가 구별하는 데 사용됩니다, 우리와 함께 또는없이 무게, 날개 길이, 선택 
지느러미와 평가 기준으로 다시 컬러. 실제로, 당신은 더 많은 가치를 측정 할 수 있습니다. 평소 연습은 모든 측정하는 
측정 속성을 다음 중요한 부분을 선택하십시오. 특성 특성도 지칭 될 수도있다 이하, 그것도 특징으로 지칭 될 수있다 이러한 네 개의 측정 값이라고. 표 슈 - 각 행의 슈는 종래 예의 특징이다.

기계 학습의 주요 임무는 분류된다. 궁극적으로, 우리는 할 수 먼저 필요가 분류하는 방법을 배우고, 인 알고리즘을 양성하는 것입니다, 분류하는 기계 학습 알고리즘을 사용하기로 결정했다. 
우리는 일반적으로 알고리즘의 훈련 집합으로 분류 알고리즘의 입력 데이터를 많이 가지고있다. 트레이닝 데이터 세트는 기계 학습 알고리즘을 훈련하기 위해 사용되는 
샘플 세트를, 표 1- (1)는 여섯 개 트레이닝 샘플들을 포함하는 트레이닝 세트이고, 각각의 트레이닝 샘플은 네 기능 같이 타겟 변수 갖는다 
 써머 2. 목표 변수가 목표 변수 타입의 분류 알고리즘 타입, 예측 알고리즘 기계 학습의 결과 보통 공칭, 
회귀 알고리즘에서 통상의 연속이다. 트레이닝 세트는 목표 변수의 값을 알고 결정해야하므로 기계 학습 알고리즘이 될 수 있다는 
특성과 목표 변수 사이의 관계를 찾을 수 있습니다. 전술 한 바와 같이, 대상 종은 변수이고, 이는 공칭 값 유형으로 감소 될 수있다. 우리의 카테고리 분류라는 목표 변수의 일반적 분류 문제는 제한된 수 있다고 가정 
범주.

훈련 데이터와 테스트 데이터 : 일반적으로 두 개의 독립적 인 샘플 세트를 사용하는 기계 학습 알고리즘의 효과를 테스트합니다. 기계의 경우 
학습 프로그램이 입력 알고리즘으로 훈련 세트를 사용하여 실행을 시작, 훈련 후 입력 테스트 샘플이 완료됩니다. 입력 테스트 
시료가있는 카테고리에 속하는 프로그램의 샘플에 의해 결정되는 경우, 목표 변수 시험 샘플을 제공하지 않는다. 비교의 대상 시료 예측 
변수 값 및 상기 실제 샘플 타입의 차이는, 알고리즘의 실제 정확성을 그릴 수있다.
이 새 분류 절차, 테스트한다고 가정 및 정확도 요구 사항을 충족, 우리는 기계가 이미 배우로 시작 여부를 확인할 수 있습니다 
그것의 다른 조류를 구별하는 방법? 이 작품은 지식 표현이라고, 어떤 알고리즘을 쉽게 이해할 수있는 지식 테이블 생성 할 수 있습니다 
쇼, 특정 알고리즘과 지식 표현은 컴퓨터에 의해 이해 될 수있다. 지식 표현 규칙 설정도 할 수있다, 사용할 수 있습니다 
, 당신은 훈련 샘플 세트의 인스턴스를 설정할 수 있습니다 사용하여 확률 분포의 형태로. 어떤 경우에는, 사람들은 빌드 할 수 없습니다 
전문가 시스템을 설정하지만, 단지 기계 학습 알고리즘에 대한 정보를 얻기에 관심. 이 경우, 방법은 지식을 명시 적으로 표현되는 
매우 중요한 ^
또 다른 작업은 주로 숫자 데이터를 예측하는 데 사용됩니다, 기계 학습을 반환하는 것입니다. 대부분의 사람들은 아마의 반환 보았다 
예 - 비스무트 데이터 피팅 노래 : 주어진 데이터 포인트에 가장 적합한 곡선. 지도 학습, 이러한 이유로 속하는 분류 및 회귀 
이러한 알고리즘은 예측하기 위해 알고 있어야하기 때문에이지도 학습이 무엇인지 목표 변수의 기밀 정보가.
자율 학습 학습에 감독 대응하고 명확한 목표를 포기하지 않는, 데이터 유형 정보가 없습니다. 자율에서 
학습 방법과 유사한 목적으로 복수의 클래스들로 설정 데이터를 클러스터링이라; 통계 값 데이터를 찾고 설명한다 
밀도 추정치라는 프로세스. 또한, 자율 학습은 또한 우리는 2 차원 사용할 수 있도록하는 것이, 치수 데이터 기능을 줄일 수있는 
데이터 또는 3 차원 그래픽보다 직관적 인 디스플레이를.  1 - 2에는 주요 기계 학습의 작업과 문제 해결 
알고리즘을.

选择合适的算法
选择实际可用的算法,必须考虑下面两个问题:一 、使用机器学习 
算法的目的,想要算法完成何种任务,比如是预测明天下雨的概率还是对投票者按照兴趣分组。二是要理解和分析收集到的数据是什么。首先考虑使用机器学习算法的目的。如果想要预测目标变量的值,则可以选择监督学习算法,
否则可以选择无监督学习算法。确定选择监督学习算法之后,需要进一步确定目标变量类型,如 
果目标变量是离散型,如是/否、1/2/3、― 冗或者红/黄/黑等,则可以选择分类器算法;如果目 
标变量是连续型的数值,如0.0~ 100.00、-999~999或者+00~-00等 ,则需要选择回归算法。
如果不想预测目标变量的值,则可以选择无监督学习算法。进一步分析是否需要将数据划分 
为离散的组。如果这是唯一的需求,则使用聚类算法;如果还需要估计数据与每个分组的相似程 
度 ,则需要使用密度估计算法。次需要考虑的是数据问题。我们应该充分了解数据,对实际数据了解得越充分,越容易创 
建符合实际需求的应用程序。主要应该了解数据的以下特性:特征值是离散型变量还是连续型变量 ,特征值中是否存在缺失的值,何种原因造成缺失值,数据中是否存在异常值,某个特征发生 
的频 率如何(是否罕见得如同海底捞针),等等。充分了解上面提到的这些数据特性可以缩短选 
择机器学习算法的时间。我们只能在一定程度上缩小算法的选择范围,一般并不存在最好的算法或者可以给出最好结 
果的算法,同时还要尝试不同算法的执行效果。对于所选的每种算法,都可以使用其他的机器学 
习技术来改进其性能。在处理输入数据之后,两个算法的相对性能也可能会发生变化。
开发机器学习应用程序的步骤
使用机器学习算法开发应用程序,通常遵循以下的步骤。
(1 )收集数据。我们可以使用很多方法收集样本数据,如 :制作网络爬虫从网站上抽取数据、
从&38反馈或者八?1中得到信息、设备发送过来的实测数据(风速、血糖等)。提取数据的方法非 
常多,为了节省时间与精力,可以使用公开可用的数据源。
(2 )准备输入数据。得到数据之后,还必须确保数据格式符合要求,还需要为机器学习算法准备特定的数据格式,如某些算法要求特征值使用特定的格式,
一些算法要求目标变量和特征值是字符串类型,而另一些算法则可能要求是整数类型。
(3)分析输入数据。此步骤主要是人工分析以前得到的数据。为了确保前两步有效,最简单 
的方法是用文本编辑器打开数据文件,査看得到的数据是否为空值。此外,还可以进一步浏览数 
据 ,分析是否可以识别出模式;数据中是否存在明显的异常值,如某些数据点与数据集中的其他 
值存在明显的差异。通过一维、二维或三维图形展示数据也是不错的方法,然而大多数时候我们 
得到数据的特征值都不会低于三个,无法一次图形化展示所有特征。这一步的主要作用是确保数据集中没有垃圾数据。如果是在产品化系统中使用机器学习算法
并且算法可以处理系统产生的数据格式,或者我们信任数据来源,可以直接跳过第3步
需要人工干预,如果在自动化系统中还需要人工干预,显然就降低了系统的价值。
(4)训练算法。机器学习算法从这一步才真正开始学习。根据算法的不同,第4步和第5步是 
机器学习算法的核心。我们将前两步得到的格式化数据输入到算法,从中抽取知识或信息。这里 
得到的知识需要存储为计算机可以处理的格式,方便后续步骤使用。
如果使用无监督学习算法,由于不存在目标变量值,故而也不需要训练算法,所有与算法相 
关的内容都集中在第5步。
⑶测试算法。这一步将实际使用第4步机器学习得到的知识信息。为了评估算法,必须测试算 
法工作的效果。对于监督学习,必须已知用于评估算法的目标变量值;对于无监督学习,也必须用 
其他的评测手段来检验算法的成功率。无论哪种情形,如果不满意算法的输出结果,则可以回到第 
4步 ,改正并加以测试。问题常常会跟数据的收集和准备有关,这时你就必须跳回第1步重新开始。
( 6 ) 使用算法。将机器学习算法转换为应用程序,执行实际任务,以检验上述步骤是否可以
在实际环境中正常工作。此时如果碰到新的数据问题,同样需要重复执行上述的步骤。

 

추천

출처www.cnblogs.com/tszr/p/12038636.html