欢迎光临
免费的PDF电子书下载网站

21世纪计算机化学丛书--化学数据挖掘方法与应用 PDF下载

编辑推荐

暂无

内容简介

  本书主要介绍了化学常用数据挖掘方法和技术的基本原理,并重点介绍了模式识别、支持向量机、集成学习方法在材料设计、工业优化、构效关系、生物信息学等领域的应用研究实例。书中所有应用研究实例全部取自作者的应用研究课题,有关算法程序可采用作者开发的应用软件HyperMiner(见附录1)。
  本书可供化学、化工及相关领域的科研人员和工程技术人员阅读,亦可作为高等学校的教学参考书。

作者简介

暂无

21世纪计算机化学丛书--化学数据挖掘方法与应用 PDF下载

目录

1化学数据挖掘综述
 1.1化学数据挖掘的目的和意义
 1.1.1数据挖掘与材料设计
 1.1.2数据挖掘与构效关系
 1.1.3数据挖掘与工业优化
 1.2化学数据挖掘方法概要
 1.3化学数据挖掘应用进展
 1.3.1机器学习的数学本质
 1.3.2统计模型的“过拟合”问题
 1.3.3模式识别优化算法及其改进
 1.3.4支持向量机算法的应用效果
 1.3.5建立综合运用多种算法的数据处理平台
 参考文献
2模式识别基本原理和方法
 2.1模式识别方法的基本原理和预备知识
 2.2模式识别经典方法
 2.2.1最近邻方法
 2.2.2主成分分析方法
 2.2.3多重判别矢量和Fisher判别矢量方法
 2.2.4偏最小二乘方法
 2.2.5非线性映照方法
 2.3模式识别应用技术
 2.3.1最佳投影识别方法
 2.3.2超多面体建模
 2.3.3逐级投影建模方法
 2.3.4最佳投影回归方法
 2.3.5模式识别逆投影方法
 2.4决策树算法
 2.4.1C4.5算法
 2.4.2随机决策树算法
 2.4.3随机森林算法
 参考文献
3人工神经网络和遗传算法
 3.1人工神经网络
 3.1.1反向人工神经网络
 3.1.2Kohonen自组织网络
 3.2遗传算法
 参考文献
4支持向量机方法
 4.1统计学习理论(SLT)简介
 4.1.1背景
 4.1.2原理
 4.2支持向量分类(SVC)算法
 4.2.1线性可分情形
 4.2.2非线性可分情形
 4.3支持向量机(SVM)的核函数
 4.4支持向量回归(SVR)方法
 4.4.1线性回归情形
 4.4.2非线性回归情形
 4.5支持向量机分类与回归算法的实现
 4.6应用前景
 参考文献
5集成学习方法
 5.1集成学习算法概述
 5.2Boosting算法
 5.3Adaboost算法
 5.4Bagging算法
 参考文献
6特征选择方法和应用
 6.1特征选择研究概述
 6.2基于支持向量分类的特征选择
 6.2.1后向浮动搜索算法
 6.2.2用SVM?BFS进行特征选择
 6.3支持向量回归的特征选择
 6.3.1PRIFER算法
 6.3.2计算结果的评价准则
 6.3.3PRIFER方法与常规计算方法的结果比较
 6.4集成学习及其特征选择
 6.4.1个体子集的特征选择
 6.4.2基于预报风险的特征选择
 6.4.3PRIFEB算法
 6.4.4UCI数据集上的计算结果
 参考文献
7钙钛矿型离子导体导电性的数据挖掘
 7.1钙钛矿型离子导体与燃料电池材料
 7.2钙钛矿的结构特性
 7.3钙钛矿型晶体的原子参数
 7.3.1钙钛矿容忍因子
 7.3.2钙钛矿平均离子半径
 7.3.3钙钛矿单位晶格边值与临界半径
 7.3.4钙钛矿组成元素的电负性
 7.3.5钙钛矿平均离子极化率与所带电荷
 7.3.6钙钛矿原子参数与量化参数的组合
 7.4钙钛矿离子导体数据的收集
 7.5数据集的自变量筛选
 7.5.1自变量的经典统计相关性分析
 7.5.2贝叶斯网络进行变量关联性分析
 7.5.3前进?后退法进行自变量筛选
 7.6多种数据挖掘方法建立原子参数?钙钛矿导电能力模型
 7.6.1PLS,BP?ANN与SVR建立的回归模型
 7.6.2回归模型的留一法交叉验证与独立测试集验证
 7.6.3SVR模型的敏感性分析
 参考文献
8熔盐相图数据库的数据挖掘
 8.1相图计算的意义
 8.2原子参数?模式识别方法概述
 8.3智能数据库技术在材料科学中的应用
 8.4熔盐相图智能数据库的研究和开发
 8.5判别卤化物体系是否形成中间化合物
 8.6白钨矿结构物相含稀土异价固溶体的形成规律
 8.6.1白钨矿型物相及其异价固溶体的形成规律
 8.6.2白钨矿型MⅠM′Ⅲ(XO4)2(X=Mo,W)物
 相及其异价固溶体的形成规律
 8.7钙钛矿及类钙钛矿结构的物相的若干规律性
 8.7.1钙钛矿结构的复卤化物的若干规律性
 8.7.2含钙钛矿结构层的夹层化合物的规律
 参考文献
9镀锡薄钢板质量的数据挖掘
 9.1镀锡薄钢板的发展
 9.2镀锡板生产过程简介
 9.3镀锡板耐蚀性能与工业生产软熔条件的关系
 9.4镀锡板耐蚀性能与实验室模拟软熔条件的关系
 9.5工业生产中防止淬水斑产生的数学模型
 9.6镀锡板淬水斑的实验室模拟研究
 参考文献
10合成氨生产效益的数据挖掘
 10.1氨合成装置简介
 10.1.1生产原理
 10.1.2生产流程
 10.1.3生产数据的复杂性和数据挖掘的必要性
 10.2DMOS合成氨优化系统的开发
 10.2.1DMOS合成氨优化系统简介
 10.2.2DMOS合成氨优化系统离线版软件
 10.2.3DMOS合成氨优化系统在线版软件
 10.2.4DMOS合成氨优化系统优化生产实施步骤
 10.2.5DMOS合成氨优化系统主要特点
 10.3氨合成装置生产优化模型的研究
 10.3.1数据集
 10.3.21号合成塔生产优化数学模型
 10.4讨论和结论
 参考文献
11分子结构性质关系的数据挖掘
 11.1偶氮染料最大吸收波长的支持向量回归模型
 11.1.1分子结构特征参数的计算和筛选
 11.1.2支持向量回归的计算结果
 11.1.3讨论
 11.2胍类化合物Na/H交换抑制活性的支持向量分类模型
 11.2.1特征参数的计算与筛选
 11.2.2支持向量分类的计算结果
 11.2.3与其他方法的比较
 11.3抗艾滋病药物HEPT活性的支持向量分类模型
 11.3.1特征参数的计算与筛选
 11.3.2支持向量分类的计算结果
 11.3.3与其他方法的比较
 11.4三唑类化合物分子筛选的最佳投影识别模型
 11.4.1特征参数的计算和筛选
 11.4.2特征参数间的共线性检查
 11.4.3OPR法的计算
 11.4.4OPR法的测试结果
 11.4.5结论
 参考文献
12HIV?1蛋白酶特异性位点的数据挖掘
 12.1数据集准备
 12.2mRMR方法和特征选取
 12.3不同的特征子集建模预报能力比较
 12.4特征分析和结论
 参考文献
13蛋白质结构及功能类型预测
 13.1用集成学习方法预测蛋白质的亚细胞定位
 13.1.1蛋白质亚细胞定位的生物学基础及研究现状
 13.1.2蛋白质亚细胞定位数据集以及特征参数的提取
 13.1.3亚细胞定位预测中模型参数的选择与模型的验证
 13.1.4分析与讨论
 13.2蛋白质结构类型的集成学习方法预测
 13.2.1蛋白质结构类型简介及研究现状
 13.2.2数据集以及特征参数的提取
 13.2.3预测蛋白质结构类型时的模型参数选择与模型验证
 13.2.4分析与讨论
 13.3膜蛋白类型的集成学习方法预测
 13.3.1膜蛋白简介及计算预测研究现状
 13.3.2膜蛋白预测的数据集以及特征参数的提取
 13.3.3预测膜蛋白质类型的模型参数选择与模型验证
 13.3.4预测膜蛋白质类型的模型变量分析
 13.4蛋白质亚细胞定位和膜蛋白类型预报的在线Web服务
 参考文献
附录1“HyperMiner数据挖掘软件”下载和应用说明
 一、软件简介和下载方法
 二、应用案例:V?PTC材料最佳配方及最佳工艺条件的探索
附录2第6章所用的数据集
 一、大脑胶质瘤数据集
 二、多元校正数据集
 三、基因芯片数据集
参考文献

前沿

 ; ; ;计算机在理论化学和应用化学各个领域的广泛应用,极大地促进了化学学科的发展,并产生了一系列交叉学科,如计算(机)化学、化学计量学、化学信息学等。
 ; ; ;化学化工领域积累了大量的科学实验和生产实际数据,如何总结这些数据中的规律性,进而用以指导以后的科学实验和生产操作,这是一项非常有意义的工作,这项工作的实施需要数据挖掘技术与化学化工知识和科学实践的结合。
 ; ; ; 所谓化学数据挖掘(Chemical DataMining),就是利用机器学习方法对化学化工(或相关学科)中有关数据样本进行采集、整理、分析、建模等,试图归纳和总结数据中蕴含的规律性,进而利用所建定性或定量的数学模型预报未知样本的性质。化学数据挖掘的应用研究内容涉及材料设计、分子设计、化工过程优化等领域。化学数据挖掘方法和技术已成为化学信息学、生物信息学的主要研究工具。
 ; ; ;利用化学数据挖掘方法和技术,可以总结药物分子的构效关系,即药物的生物活性与其结构特征参数(分子描述符)之间的定量或定性关系,在此基础上可以设计和预测新的高活性化合物。利用化学数据挖掘方法和技术,可以总结新材料的物理化学性质与其组成元素的原子参数、化学配方、制备工艺等参数之间的定性或定量关系,在此基础上可以辅助新材料研制和新产品开发,达到事半功倍的效果。利用化学数据挖掘方法和技术,对大型现代化工厂(特别是炼油厂、化工厂和炼钢厂)的生产操作过程作“工业诊断”,找出优化生产的“瓶颈”问题,建立解决“瓶颈”问题的数据挖掘模型,在此基础上可以实现低成本、高收率、低能耗、高质量地生产和制备各种化学产品。因此,利用化学数据挖掘所得研究对象的统计规律,可以指导我们更好地开展下一步的科学实验和生产实践,达到“事半功倍”的目的。化学数据挖掘方法和技术的应用成本低,却可能在科学实验中节省人力物力,甚至在工业生产中产生可观的经济效益,因而化学数据挖掘方法和技术有广泛的应用背景。
 ; ; ;笔者长期从事化学数据挖掘方法在化学化工领域的应用研究工作,在该研究领域积累了大量成功应用实例,我们开发的化学数据挖掘软件HyperMiner和基于数据挖掘的工业优化控制系统已在国内若干大型企业得到实际应用,达到了增产降耗的目的。本书从化学工作者易于理解的角度介绍常用数据挖掘方法的基本原理,并重点介绍作者近年来在材料设计、工业优化、构效关系、生物信息学等领域的数据挖掘工作。
 ; ; ;笔者曾与我国已故著名化学家陈念贻先生长期合作研究,很多工作曾得益于陈念贻先生的指导和帮助。笔者曾作为合作者协助陈念贻先生出版过两本学术专著,即《模式识别方法在化学化工中的应用》(科学出版社,2000)和《SupportVector Machine in Chemistry》(World Scientific Publishing Co? Pte?Ltd?,2004),本书的出版是笔者对于恩师陈念贻先生的化学数据挖掘工作在上海大学的继承和发展。本书有关科研工作得到了国家自然科学基金委员会、上海市科学技术委员会、上海宝山钢铁集团、云南省科技厅、北京石油化工设计院等单位的资助;有关学术研究和技术开发工作得到了笔者的研究生们的大力配合,其中刘旭和顾天鸿博士等在算法程序方面做了较多工作,杨善升和钮冰博士等在化学数据挖掘应用方面做了较多的工作;本书的出版得到了化学工业出版社的支持,在此一并致谢。
 ; ; ;为方便读者学以致用,笔者为读者提供了化学数据挖掘应用软件HyperMiner,读者下载后可免费使用30天(附录1含该软件简介和下载方法),希望广大读者能通过具体应用案例学习和受益。本书可供化学、化工及相关领域的科研人员和工程技术人员阅读,亦可作为高等学校的教学参考书。
 ; ; ;化学数据挖掘涉及的研究领域很广,本书只是介绍了部分常用方法在笔者涉猎的研究领域中的工作,有关数据挖掘方法包括变量相关分析和多元统计、模式识别、人工神经网络、遗传算法、支持向量机、集成学习、特征筛选等;有关数据挖掘方法的综合应用案例涉及材料设计、工业优化、构效关系和生物信息学等领域。由于笔者的学识和工作所限,疏漏和不足之处在所难免,欢迎各位读者和研究同行提出宝贵意见。
陆文聪
2011年8月于上海大学
 ;

免费在线读

序言:
 ; ; ; 计算机化学的兴起与发展是与化学知识创新的迫切需要紧密联系的。十年前化学家使用计算机的还不多,现在却已十分普及;十年前对化学计算的要求主要是化学信息的采集、加工、储存和利用,而如今除了以上的基本要求之外,更强调了由化学信息发现新知识和化合物物性的定量预测。计算机网络技术的飞速发展与普及,对计算机化学来说是一个发展的机遇,而愈来愈高的计算要求是计算机化学发展面临的新挑战。今天,以计算机及其网络深入到社会的各个层面为标志的数字化新世纪的到来,将使传统化学发生深刻的变化:以计算机及其网络系统为工具,建立由化学化工信息发现新知识和实现知识传播的理论和方法;认识物质、改造物质、创造新物质,认识反应、控制反应过程,创造新反应、新过程,将成为计算机化学研究的主体。化学数据挖掘、知识发现、计算机辅助结构解析、分子设计和合成路线设计等是当前计算机化学的主要研究方向。可以深信,在21世纪,数字化新世纪的化学不仅要靠“湿”实验室来发展,同时也要依赖于“干”实验室。所谓“干”化学实验室就是指数字化虚拟化学实验室。“干”、“湿”相结合才能更高效地孕育出新的化学实体,才能促进化学由实验科学向严密科学转化,才能大大提高化学非凡的创造力。
 ; ; ; 为了推广计算机化学的新理论、新技术和新方法,促进科技进步,我们策划了这套《21世纪计算机化学丛书》,主要介绍计算机化学近5年间的新理论、新技术和新方法。希望这套丛书不仅能够大大推动我国科技水平的进步,更能对我国生产力水平的提高产生巨大的影响。
陈凯先
2010年3月

21世纪计算机化学丛书--化学数据挖掘方法与应用 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:21世纪计算机化学丛书--化学数据挖掘方法与应用