신약 개발에서 기계 학습의 응용 프로그램 | 자연

원본 링크 : https://blog.csdn.net/u012325865/article/details/92778433

신약 개발에서 기계 학습의 응용 프로그램 | 자연

12시 48분 18초 2019년 6월 18일  qq2648008726의  수를 443 자세히보기

카테고리 칼럼 :  Chemoinformatics  생물 정보학  기계 학습

이 문서는 블로거 원본입니다, 허용 된 블로거없이 복제 할 수 없다.

이 링크 : https://blog.csdn.net/u012325865/article/details/92778433

개요

신약 개발 파이프 라인, 길고 복잡하고 여러 가지 요인에 따라 달라집니다. 기계 학습 (ML)의 발견과 풍부하고 높은 품질의 데이터에 의해 지정된 의사 결정 문제를 개선. 디지털 병리학 바이오 마커의 목표 검증, 식별 및 임상 시험 자료의 분석 : 신약 개발의 모든 단계에서 학습 기계 응용 프로그램이 있습니다. 다른 응용 프로그램과 방법의 범위, 몇 가지 방법은 정확한 예측과 해석을 생성 할 수 있습니다. 주요 과제는 기계의 응용 프로그램이 응용 프로그램을 제한 할 수있다, 해석 가능성 ML 및 반복성의 부족에 의해 생성 된 결과를 학습한다는 것이다. 모든 지역에서 여전히 우리는 체계적이고 포괄적 인 높은 차원 데이터를 생성해야합니다.

 

소개

생물학적 시스템 개발 및 질병 동안 복잡한 정보 소스입니다. 이제 '오 믹스'기술과 지능형 시스템 측정 및 광업 많은 정보를 사용합니다. 목적은 치료 약물을 개발하는 데 사용할 수있는 가정을 결정하는 제약 산업에 대한 생물학 및 질병 도전과 기회의 높은 처리량 방법의 출현하십시오. 많은 요인이 증가하는 기계 학습 방법의 사용에 제약 업계의 관심의 최신 개발을 주도, 플러스 무제한 확장 가능한 스토리지 ML 기본 데이터 세트 유형을 제공, 더 많은 데이터를 액세스 할 수있는 제약 회사 및 단체의 기회를 증가시킨다. 데이터 유형은 고차원 데이터 게놈 웨어러블 장치로부터의 이미지, 텍스트 정보, 생체 및 다른 정보를 포함 할 수있다.

 

인공 지능 (AI)의 이론적 연구의 많은 수에서 실제 이동을 위해 사용되어왔다. 이 폭발적인 성장과 관련된 그래픽 처리 장치 (GPU) 및 기타 새로운 컴퓨터 하드웨어의 가장 광범위하게 이용 가능. 이 모델뿐만 아니라 새로운 데이터 ML 알고리즘에서 많은 공공 경쟁에서 강력한 기술적 성공을 빌드의 ML에서 제약 회사의 응용 프로그램을 향상하는 데 도움이됩니다. 많은 소비자 서비스 있지만 업계는 긴 ML의 분야에서 새로운 방법을 채택하고 있지만, 제약 업계의 채택 속도가 뒤쳐지고있다. 우리 모두가 알다시피, 신약 개발의 성공률은 모든 치료 영역과 전체 제약 산업에 매우 낮다. 화합물의 21,143가지 최근의 한 연구는 6.2 %로 전체 성공률 것을 발견했다. ML 기술을 사용하는 제약 산업에 대한 많은 이유는 전체 비용과 손실을 줄이기 위해 비즈니스 요구에 의해 구동된다.

 

, 더 많은 증거 관련 질병을 제공하기 위해 작은 분자 화합물의 설계 및 최적화를 향상, 질병의 메커니즘의 이해를 증진 - 임상 시험을 포함한 신약 개발의 모든 단계는 대상에 대해 새로운 목표를 식별하는 ML 알고리즘과 소프트웨어의 개발과 활용을 시작했습니다 질병 비 질환 표현형 약효위한 새로운 바이오 마커의 개발, 환자 모니터링 및 착용 형 디바이스 및 다른 데이터의 분석 향상 생물학적 특성, 향상된 디지털 병리학 화상의 이해를 향상시키고 화상으로부터 높은 콘텐츠 정보를 추출 수준.

많은 제약 회사는 자원, 기술과 서비스를 투자하기 시작하고 현장에서 연구를 지원하기 위해 데이터 세트를 생성 할 계획이다. 또한, IBM과 구글과 다른 기술 거인, 생명 공학은 신생 기업 및 교육 센터는 업계 파트너들과 함께 제약 및 건강 관리 분야에서 클라우드 기반 컴퓨팅 서비스뿐만 아니라 협력을 제공하지.

기계 학습 도구 상자

기본적으로, ML은 데이터를 구문 분석 데이터로부터 학습 한 후 결정 또는 새로운 데이터 수집 관행의 미래 상태의 예측을 위해 알고리즘의 사용이다. 따라서, 대신 수동으로 소프트웨어를 작성하는 지침의 특정 세트를 사용하여 특정 작업을 수행 할 수 있지만 기계 훈련 데이터와 알고리즘의 많은 양의 사용은 작업을 수행하는 방법을 학습 할 수 있도록 할 수 있습니다. 코딩 알고리즘보다는 네트워크를 훈련하는 데 사용 규칙을 코딩 전문 프로그래머.

 

데이터 학습 알고리즘의 수량과 품질을 증가시킬 수있는 바와 같이 적응 성능을 향상시킬 수 있습니다. 따라서, ML의 많은 양의 데이터에 이상적 해결 문제는 여러 가지 변수를 등장하지만,이 문제와 관련된 모델이나 공식은 불분명하다.

 

ML有两种主要类型的技术:监督和无监督学习。 监督学习方法用于开发训练模型以预测数据类别或连续变量的未来值,而无监督方法用于探索目的以开发能够以用户未指定的方式聚类数据的模型。监督学习训练已知输入和输出数据关系的模型,以便它可以预测新输入的未来输出。 未来的输出通常是数据分类的模型或结果,或者是对最有影响变量的理解。 无监督学习技术识别输入数据中的隐藏模式或内在结构,并使用它们以有意义的方式聚类数据。

 

模型选择

良好ML模型的是从训练数据到测试数据很好地概括。泛化指的是模型学习的概念在训练期间应用于模型未见的数据的程度。每种技术中存在几种方法,它们的预测准确度、训练速度和它们可以处理的变量的数量不同。 必须仔细选择算法,以确保适合于眼前的问题以及可用数据的数量和类型。所需的参数调整量以及该方法将信号与噪声分离的程度也是重要的考虑因素。

 

当模型不仅学习信号而且学习训练数据的一些不寻常特征并将这些特征结合到模型中时,模型过度拟合发生,从而对模型在新数据上的性能产生负面影响。欠拟合指的是既不能对训练数据建模也不能推广到新数据的模型。限制过度拟合的典型方法是应用重采样方法或阻止部分训练数据用作验证数据集。随着模型复杂性的增加,正则化回归方法会增加参数的惩罚,从而迫使模型推广数据而不是过度拟合。避免过度拟合的最有效方法之一是dropout方法,它随机删除隐藏层中的单位。不同的ML技术具有不同的性能指标。基本评估指标,如分类准确度、曲线下面积(AUC),对数损失和混淆矩阵可用于比较各种方法的性能。

 

数据特征

据说ML的实践包括至少80%的数据处理和清理以及20%的算法应用。因此,任何ML方法的预测能力取决于高质量的大量数据的可用性。用于训练的数据需要准确、精确并尽可能完整,以便最大限度地提高可预测性。实验设计通常涉及关于理想样本大小的讨论以及用于正确估计该参数的适当功率计算。是否可以获得正确类型的数据以及应该通过实验生成哪些数据也是某些问题的关键考虑因素。当用于以系统方式生成的数据时,ML应用程序更加强大,具有最小的噪声和良好的注释。许多应用程序并不是特别有效,因为数据是从具有可变数据质量的多个来源组合而来的。目前正在努力开发药物发现的特定领域中的开放注释数据,例如靶标验证。这些目标旨在在药物发现和开发中重要的领域产生高质量的正面和负面注释,以促进ML的应用。

 

ML在药物发现中主要应用

靶标确诊和有效性

小分子设计和优化

预测生物标志物

计算病理学


参考

Applications of machine learning in drug discovery and development Nature Reviews Drug Discovery ( IF 50.167 ) Pub Date : 2019-04-11 , DOI: 10.1038/s41573-019-0024-5 

추천

출처blog.csdn.net/u010608296/article/details/102730704