第一页欧美-第一页综合-丁香花成人另类小说-丁香久久-顶级欧美色妇xxxxbbbb

學(xué)術(shù)咨詢

讓期刊論文更省時(shí)、省事、省心

高分子材料大數(shù)據(jù)研究共性基礎(chǔ)、進(jìn)展及挑戰(zhàn)

時(shí)間: 2025年5月25日 星期日 分類:科學(xué)技術(shù)論文 次數(shù):895

摘要介紹了作為一種新的認(rèn)知范式,大數(shù)據(jù)研究常見和前沿算法及其應(yīng)用在高分子材料研究中的共性基礎(chǔ),圍繞材料的基礎(chǔ)與應(yīng)用研究聚焦的定量組成-工藝-結(jié)構(gòu)-性質(zhì)-性能關(guān)系,剖析了該關(guān)系中的要素和可數(shù)值化、定量化的資源和途徑.進(jìn)而系統(tǒng)介紹近4年在高分子材料的合成與自

  摘要介紹了作為一種新的認(rèn)知范式,大數(shù)據(jù)研究常見和前沿算法及其應(yīng)用在高分子材料研究中的共性基礎(chǔ),圍繞材料的基礎(chǔ)與應(yīng)用研究聚焦的定量組成-工藝-結(jié)構(gòu)-性質(zhì)-性能關(guān)系,剖析了該關(guān)系中的要素和可數(shù)值化、定量化的資源和途徑.進(jìn)而系統(tǒng)介紹近4年在高分子材料的合成與自組裝、機(jī)械熱性質(zhì)、光電聲磁性質(zhì)、分離性質(zhì)和加工性質(zhì)等方面大數(shù)據(jù)研究的一些典型進(jìn)展,梳理了當(dāng)前高分子材料大數(shù)據(jù)研究的難題和挑戰(zhàn),對這一新興快速發(fā)展方向和一段時(shí)間內(nèi)可能的突破進(jìn)行了展望.

  關(guān)鍵詞高分子材料,大數(shù)據(jù),組成-工藝-結(jié)構(gòu)-性質(zhì)-性能關(guān)系,計(jì)算輔助材料設(shè)計(jì)

高分子材料

  高分子材料成就了我們生活的方方面面,在提升人類生活的便易性,健康舒適,助力人類探索未知世界的同時(shí),也成為全球人類可持續(xù)發(fā)展和環(huán)境保護(hù)的主要挑戰(zhàn)之一.高分子材料的機(jī)械熱、光電聲磁、分離、降解和加工性質(zhì)是設(shè)計(jì)、生產(chǎn)和應(yīng)用的聚焦內(nèi)容,其柔性可設(shè)計(jì)的特征,有力地支撐著社會(huì)的多樣化發(fā)展,對密切相關(guān)的組成、加工、結(jié)構(gòu)及其性質(zhì)關(guān)系的認(rèn)識(shí)也在不斷完善中.

  在對高分子材料個(gè)性化、智能化生產(chǎn)和應(yīng)用的驅(qū)動(dòng)下,傳統(tǒng)經(jīng)驗(yàn)理論提供的定性指導(dǎo)模型漸不能滿足,而對支撐給定性質(zhì)實(shí)現(xiàn)材料逆設(shè)計(jì)的定量決策模型產(chǎn)生大量需求.特別是人們對于給定目標(biāo)性質(zhì)實(shí)現(xiàn)對材料組成工藝精準(zhǔn)定位“逆設(shè)計(jì)”的渴求,迫切需要對高分子材料多因素及其聯(lián)系的定量化研究,即大數(shù)據(jù)研究,取得進(jìn)展.基于我們4年前對材料基因組學(xué)研究的梳理[1],本文將介紹對高分子材料大數(shù)據(jù)研究共性基礎(chǔ)的進(jìn)一步思考,綜述近幾年高分子材料大數(shù)據(jù)研究的代表性進(jìn)展,探討高分子材料大數(shù)據(jù)研究這一急速升溫領(lǐng)域的前沿方向和當(dāng)前面臨的主要挑戰(zhàn).

  1材料大數(shù)據(jù)研究的共性基礎(chǔ)

  眾所周知,人類探索未知世界存在4種認(rèn)知范式,即以實(shí)驗(yàn)試錯(cuò)法為主的第一范式,以理論推理演繹為主的第二范式,以基于模型的計(jì)算模擬仿真為主的第三范式,和以數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新為主的第四范式.這4種范式都可以產(chǎn)生基礎(chǔ)可用的數(shù)據(jù),在數(shù)據(jù)基礎(chǔ)上建立聯(lián)系形成可流通的信息,從信息流中梳理出一定條件下存在的模式形成知識(shí),進(jìn)一步凝練出法則(principle)從而獲得智慧,即科學(xué)認(rèn)知的DIKW(Data,Information,Knowledge,Wisdom)框架.

  在該框架中,人類生活生產(chǎn)和研究長期匯集的基礎(chǔ)科學(xué)數(shù)據(jù)逐步成為一種資源并可以較為廣泛地公開共享,機(jī)器學(xué)習(xí)、人工智能、深度學(xué)習(xí)和大數(shù)據(jù)(注:這4個(gè)專業(yè)名詞的內(nèi)涵具有高度重疊的共同知識(shí),但有不同的側(cè)重,相互間聯(lián)系仍在變化中)為代表的新興理念和技術(shù)手段,正快速地發(fā)展并重塑著生產(chǎn)力和生活模式.

  統(tǒng)計(jì)力學(xué)和貝葉斯統(tǒng)計(jì)學(xué)與多個(gè)學(xué)科交叉,先后形成了生物信息學(xué)、化學(xué)信息學(xué)和材料信息學(xué)3個(gè)前沿學(xué)科.目前生物信息學(xué)發(fā)展的典型代表是AlphaFold2[2]的產(chǎn)生,在預(yù)測蛋白質(zhì)序列到三維折疊結(jié)構(gòu)的經(jīng)典難題中已經(jīng)部分超過人類專家.化學(xué)信息學(xué)仍在快速發(fā)展中,對短程關(guān)聯(lián)體系,小分子、力場和作用、化學(xué)語言的符號化和定量表達(dá)等的進(jìn)展強(qiáng)有力地推動(dòng)著對眾多物理、化學(xué)、生物現(xiàn)象和過程的定量認(rèn)識(shí),其中近幾年以人工智能驅(qū)動(dòng)新藥開發(fā)(即AI制藥)而廣為人知.

  而材料信息學(xué)正處于急速膨脹階段,個(gè)性化和智能制造正滲透到社會(huì)的方方面面,有力地支撐著全人類的可持續(xù)發(fā)展和未來美好生活愿景.高分子材料的大數(shù)據(jù)研究是材料信息學(xué)的前沿核心內(nèi)容,而材料信息學(xué)的研究存在的共性框架,即組成-工藝-結(jié)構(gòu)-性質(zhì)-性能關(guān)系(CPSPPr),其中包含組成工藝決定結(jié)構(gòu),結(jié)構(gòu)性質(zhì)關(guān)系(QSAR/QSPR)以及性質(zhì)性能關(guān)聯(lián)三方面主要內(nèi)容.要實(shí)現(xiàn)精準(zhǔn)可靠的“逆設(shè)計(jì)”,需要明確CPSPPr中的因果關(guān)系,部分或者能可靠外推的充分必要關(guān)系,而這幾個(gè)要素及其內(nèi)在可控因素實(shí)現(xiàn)定量可計(jì)算是首要任務(wù).下面將圍繞這些因素展開:

  材料的組成量化了物質(zhì)的種類即電子、原子、結(jié)構(gòu)或功能基團(tuán)、結(jié)構(gòu)片段、分子、聚集體、相界面和部件種類及其配比分?jǐn)?shù),決定了體系的相互作用,相貌形態(tài)和成本.相互作用用于定量描述材料體系的勢能和動(dòng)能,也包括表征、生產(chǎn)和應(yīng)用中對外場的響應(yīng).

  在25℃(298.15K),1.01×105Pa的參考態(tài)下,1個(gè)熱力學(xué)漲落能量單位與多種性質(zhì)和響應(yīng)能量存在如下等價(jià)關(guān)系,1kBT= 1RT/NA,4.11×10−21J,4.11pN·nm,9.83×10−22Cal,0.0256eV,9.408×10−4Hartree,6.2×1012Hz,48.4×104nm,2.479kJ·mol−1,0.593kCal·mol−1,200cm−1,該等價(jià)關(guān)系包含kB是Boltzmann因子,T是絕對溫度(K),R是氣體常數(shù),NA是阿伏伽德羅常數(shù),h是普朗克常數(shù),C為真空光速.

  其中,除常見能量單位焦耳J,卡路里Cal外,pNnm用于如單分子力譜測量鍵長變化或構(gòu)象變化,電子伏特eV測量光電能量,Hartree是量子化學(xué)計(jì)算中的能量單位,赫茲Hz、nm和cm−1則從不同角度衡量探測波的能量.該關(guān)系表明了從微觀到宏觀,相互作用在能量層面上對力、光電聲磁、波和譜學(xué)的可探測信號可以實(shí)現(xiàn)統(tǒng)一.

  對于高分子材料類的軟物質(zhì),在高于25℃的環(huán)境中,低于1kBT(T=298.15K)的能量擾動(dòng)不會(huì)引起相態(tài)變化,或誘發(fā)臨界現(xiàn)象.材料不同尺度相互作用的定量計(jì)算可以基于量子化學(xué)、全原子和粗粒化力場、介觀碰撞和耗散力、宏觀連續(xù)介質(zhì)固體和流體力學(xué).這些定量信息則來自不同時(shí)空尺度的實(shí)驗(yàn)、理論模型和計(jì)算方法的相互佐證和層級關(guān)聯(lián).但在大數(shù)據(jù)研究中,不同尺度的相互作用則可被視為平等信息,從而可不受已有模型約束用于建立經(jīng)驗(yàn)理論模型之外的關(guān)聯(lián)關(guān)系.材料的相態(tài)包含相圖,相變或相轉(zhuǎn)變,性質(zhì)和結(jié)構(gòu)特征等數(shù)據(jù)信息,是區(qū)分和刻畫材料組分的本征屬性.成本是材料產(chǎn)業(yè)化的要素,包括原子經(jīng)濟(jì)、生產(chǎn)和應(yīng)用的能源成本、生態(tài)成本和經(jīng)濟(jì)成本等.

  在工藝方面,主要包含對配方組分的反應(yīng)、分散和融合3類操作.反應(yīng)是化學(xué)鍵的變化,涉及物質(zhì)本征屬性改變,包括物質(zhì)的合成、修飾改性、化學(xué)交聯(lián)、降解等,常見的因素包括手性、異構(gòu)、鍵生成斷裂平衡、活性、選擇性以及與反應(yīng)關(guān)聯(lián)的小分子產(chǎn)物,反應(yīng)過程伴隨的物質(zhì)和能量擴(kuò)散和傳遞的調(diào)節(jié)控制等.分散是通過對體系助劑或能量輸入,提升物相接觸交換界面,使材料快速達(dá)到熱力學(xué)平衡狀態(tài)(一般是熵增過程),或者使物質(zhì)分布達(dá)到具有特定分布結(jié)構(gòu)的穩(wěn)態(tài)狀態(tài).融合主要是破壞或黏合熱力學(xué)不相容表界面使體系成為整體,如表面活性劑、膠黏劑或者“鎖-鑰原理”實(shí)現(xiàn)結(jié)構(gòu)錨定(藥物篩選的原則之一)等.

  這些工藝涉及較多人為經(jīng)驗(yàn)性因素,易造成精細(xì)層面的可重復(fù)性低,對復(fù)雜、精密、長期或在極端條件服役的材料體系,在生產(chǎn)和應(yīng)用之前一般會(huì)引入宏觀尺度的計(jì)算機(jī)輔助設(shè)計(jì)/制造(CAD/CAM).在實(shí)際CAD建模計(jì)算模擬仿真中,常常需要引入材料中組分的體相宏觀性質(zhì),如密度、模量、泊松比以及可以描述物質(zhì)相態(tài)的本構(gòu)方程等[3~5],已有一些商業(yè)軟件如Abaqus,Ansys,Comsol等.性質(zhì)分為組分、材料和器件性質(zhì),組分性質(zhì)一般接近其本征性質(zhì),但在材料的多組分作用下,其性質(zhì)可能發(fā)生大幅變化.在高分子材料體系里,無論是從單體到聚合物,還是聚合物鏈的交聯(lián)、共混等,材料性質(zhì)都很難用組分性質(zhì)直接或者加權(quán)平均近似[6].

  在器件性質(zhì)層面,材料構(gòu)成的本體結(jié)構(gòu)和表面形貌都具有重要貢獻(xiàn).小分子的流失、材料降解、表面形貌退化等化學(xué)或結(jié)構(gòu)性變化都可能導(dǎo)致器件性質(zhì)失效.而材料在模擬或?qū)嶋H應(yīng)用中的機(jī)械、熱、光電聲磁、分離、加工性能等則可以解析為多種性質(zhì)在實(shí)際應(yīng)用場景中給定閾值范圍內(nèi)的疊加,即材料性能通過一系列標(biāo)準(zhǔn)組合或依據(jù)第一、二和三范式的專家經(jīng)驗(yàn)實(shí)現(xiàn)性質(zhì)拆分.不同于小分子、金屬、無機(jī)非金屬材料,利用大數(shù)據(jù)研究實(shí)現(xiàn)從性質(zhì)到分子結(jié)構(gòu)的“逆設(shè)計(jì)”已有不少成功報(bào)道[7~12],高分子材料則少有類似成功,主要障礙在于其結(jié)構(gòu)的定量化,將在下一節(jié)單獨(dú)介紹.在材料大數(shù)據(jù)研究的這些共性因素中,通過一系列變量調(diào)控,可以使材料的性質(zhì)發(fā)生顯著變化.

  由于高分子多分散性的特點(diǎn),高分子材料在CPSPPr中各要素都存在分布.即從某屬性或性質(zhì)的當(dāng)前分布A,逐步產(chǎn)生小概率事件偏倚或分布外的離散事件形成拖尾分布B,進(jìn)而通過持續(xù)條件演化對小概率事件和離散事件的富集產(chǎn)生拖尾分布C,進(jìn)一步演化為平衡態(tài)或穩(wěn)態(tài)分布D.典型的例子是Ising模型中磁疇的變化,雖然單個(gè)磁子(spin)的取向是瞬時(shí)變化的,但在時(shí)間或磁場強(qiáng)度的連續(xù)變化中,總能觀察到不同磁子取向的拖尾分布.高分子材料常見的性質(zhì)調(diào)控、結(jié)構(gòu)控制、相變過程等的序參量分布演化都滿足這個(gè)模式.

  2高分子材料結(jié)構(gòu)定量數(shù)據(jù)

  一般地,材料結(jié)構(gòu)的定義為組成基元的時(shí)空間分布,組成基元可以是電子、原子、離子、基團(tuán)、分子片段、分子、聚集體、相區(qū)和器件單元,分布可以表達(dá)為笛卡爾坐標(biāo)、極坐標(biāo)、內(nèi)坐標(biāo)或傅里葉倒空間的基元豐度,或者場模型中的概率密度.基元的屬性和分布可以隨時(shí)間發(fā)生變化,存在內(nèi)部的熱漲落或?qū)ν獠康拇碳ろ憫?yīng),從而通過表征手段獲得信號或表達(dá)出材料的不同性質(zhì).結(jié)構(gòu)是一系列探測手段與材料作用的譜學(xué)信號,而性質(zhì)也是材料對外部的刺激響應(yīng)結(jié)果.

  因此,材料的定量結(jié)構(gòu)活性/性質(zhì)關(guān)系(QSAR/QSPR)在本質(zhì)上是不同譜學(xué)信號的相互關(guān)聯(lián),當(dāng)某些表征信號可以比較完備地描述性質(zhì)時(shí),該表征手段常被作為性質(zhì)的代理量(surrogate).如利用某種試劑盒的UV特征吸收表達(dá)物質(zhì)的生物活性,用楊氏模量刻畫材料的彈性,特定條件下的熔融指數(shù)衡量高分子材料的加工性,以及溶脹率表征材料的體積穩(wěn)定性等.因?yàn)榻Y(jié)構(gòu)可由組成和工藝共同決定,并通過物理、化學(xué)的知識(shí)闡明機(jī)理,因而結(jié)構(gòu)性質(zhì)關(guān)系常用結(jié)構(gòu)特征建立性質(zhì)的代理模型或代理量,從而用于理解、設(shè)計(jì)和調(diào)節(jié)控制材料的宏觀性質(zhì).從理論和計(jì)算模擬仿真角度來看,高分子材料的結(jié)構(gòu)僅包括化學(xué)結(jié)構(gòu)和聚集結(jié)構(gòu)兩方面.

  化學(xué)結(jié)構(gòu)用于區(qū)分組成物質(zhì)的屬性,其定量化是化學(xué)信息學(xué)研究的核心內(nèi)容.主要包含化學(xué)語言的定量描述,包括編碼與解碼,比較成熟的有SMILES(simplifiedmolecular-inputline-entrysystem)和InChI(internationalchemicalidentifier)2套系統(tǒng).化學(xué)結(jié)構(gòu)的圖論和圖特征表達(dá)這類有長久歷史的方法也存在一定程度應(yīng)用和發(fā)展[13,14].

  在此基礎(chǔ)上,進(jìn)一步通過分子指紋算法如Avalon、Daylight和開源RDKit庫[15]等計(jì)算出組成基元的數(shù)量、鍵連接、鍵角、二面角、共軛面、拓?fù)浜碗姾伞O性、排斥體積、氫鍵等加權(quán)平均的拓?fù)鋷缀巍⑽锢怼⒒瘜W(xué)性質(zhì)參數(shù).化學(xué)信息學(xué)的這些計(jì)算方法的目的是從不同角度得到化合物的唯一編碼和性質(zhì)數(shù)據(jù),但對于具有多層次結(jié)構(gòu)的高分子來說這并不簡單[16],需要在整體覆蓋尺度和細(xì)節(jié)分辨率之間權(quán)衡[17].由于高分子存在手性、異構(gòu)、構(gòu)象、拓?fù)浣Y(jié)構(gòu)和多聚體,多個(gè)單體化學(xué)鍵連接存在強(qiáng)協(xié)同效應(yīng)等,使得高分子既不能像蛋白質(zhì)中的二十余種保守氨基酸進(jìn)行可以枚舉成序列描述,又不能像小分子的SMILES可直接轉(zhuǎn)換為數(shù)值向量.

  因此,高分子化學(xué)結(jié)構(gòu)的定量描述仍需要取得突破.另一方面是精確力場的發(fā)展,受高通量藥物和精準(zhǔn)催化劑設(shè)計(jì)的驅(qū)動(dòng),經(jīng)典的通用力場如CHARMM[18],AMBER,UFF[19],OPLS[20],MMFF[21]等已不能滿足需求,大量的研究工作在通用力場基礎(chǔ)上,針對特定一類分子體系,建立了力 場修正,如ReaxFF系列[22],可遷移力場TAFFI[23]等.對于高分子材料聚集結(jié)構(gòu)的計(jì)算可分為粒子模型和場模型,前者將每個(gè)結(jié)構(gòu)基元看作具有一定質(zhì)量、性質(zhì)和時(shí)空間排它占有的實(shí)體粒子,后者則描述結(jié)構(gòu)基元在特定時(shí)空間的出現(xiàn)概率密度.

  而計(jì)算模擬方法常見的有量子力學(xué)(quantummechanics,QM),分子力學(xué)(molecularmechanism,MM),分子動(dòng)力學(xué)(moleculardynamics,MD),蒙特卡洛(MonteCarlo,MC),耗散粒子動(dòng)力學(xué)(dissipativeparticledynamics,DPD),格子波爾茲曼(latticeBoltzmann,LB),密度泛函(densityfunctionaltheory,DFT),自洽場(self-consistentfieldmethod,SCFT),相場模型(phase-fieldmodel,PFM)和有限元分析(finiteelementanalysis,F(xiàn)EA)等.

  這些計(jì)算方法涵蓋了電子、原子、分子、聚集體、相區(qū)、表界面和宏觀組件的多個(gè)尺度.但是目前宏觀尺度和場論的計(jì)算方法還無法定量分辨材料的精確化學(xué)結(jié)構(gòu)差異,微觀和介觀的計(jì)算模擬數(shù)據(jù)難以和宏觀性質(zhì)形成充要關(guān)聯(lián),使“逆設(shè)計(jì)”陷入困境,這也是高分子材料多尺度計(jì)算長期未解決的難題.該計(jì)算難題同樣也存在高分子材料多尺度結(jié)構(gòu)的實(shí)驗(yàn)表征中,特別是聚集結(jié)構(gòu)的定量解析實(shí)現(xiàn)還需要長時(shí)間的努力.化學(xué)結(jié)構(gòu)、晶體結(jié)構(gòu)或單分散結(jié)構(gòu)通過X光衍射、NMR、冷凍電鏡、小角散射等可以較準(zhǔn)確解析,而在計(jì)算方面,除共聚或共混兩相組裝相圖有較系統(tǒng)的定量數(shù)據(jù)外,實(shí)際材料至多有半定量數(shù)據(jù).常見的材料結(jié)構(gòu)實(shí)驗(yàn)表征和計(jì)算方法的共性認(rèn)識(shí).結(jié)構(gòu)的實(shí)驗(yàn)表征可分為組分、物相和微觀結(jié)構(gòu)三大類,包括化學(xué)、色譜、能譜、質(zhì)譜和光譜分析等手段.

  結(jié)構(gòu)信息的獲取包含材料樣品、探測源、作用原理與信號3部分.探測源的能量可以從伽瑪射線、電子、中子、X射線、紫外可見紅外/偏振、微波、剪切或周期力等,而這些探測源在與樣品發(fā)生諸如透射、反射、折射、散射/衍射、吸收、熒光、共振和形變等作用后,結(jié)構(gòu)表征信號可以探測到直接的強(qiáng)度或強(qiáng)度差、相位或相位差、微分或積分面積、水平或角度分辨等,從而產(chǎn)生了不同角度、不同原理的結(jié)構(gòu)定量數(shù)據(jù),即譜學(xué)信號.在統(tǒng)計(jì)力學(xué)的框架中,理論上所有的譜學(xué)信號都可以通過量子化學(xué)計(jì)算獲得,但由于高分子多尺度、多分散和長程關(guān)聯(lián)的特性,量化計(jì)算的時(shí)空尺度和計(jì)算成本受限導(dǎo)致可用數(shù)據(jù)非常稀少.

  目前機(jī)器學(xué)習(xí)對于小分子化合物的光譜預(yù)測已取得一定進(jìn)展[24],IR[25],MS[26],NMR[27]等在已知條件下能夠較為準(zhǔn)確預(yù)測和譜圖模式識(shí)別.即使是對于較為復(fù)雜的X光吸收光譜(XAFS),通過神經(jīng)網(wǎng)絡(luò)算法結(jié)合圖論已能達(dá)到高于90%可靠度的準(zhǔn)確預(yù)測,對峰位的預(yù)測誤差小于1eV[28].可以預(yù)見,從國家大科學(xué)裝置、儀器開發(fā)商到終端科研和檢測人員,對高分子材料結(jié)構(gòu)的定量數(shù)據(jù)一直都十分關(guān)注,大數(shù)據(jù)輔助結(jié)構(gòu)定量數(shù)據(jù)的收集、分析和綜合利用的進(jìn)展報(bào)道將越來越多.大數(shù)據(jù)與結(jié)構(gòu)譜學(xué)分析深度結(jié)合,未來將繼續(xù)向精細(xì)分辨、高通量快速分析,以及多尺度多角度結(jié)構(gòu)數(shù)據(jù)的整合等方向發(fā)展.

  3大數(shù)據(jù)研究的數(shù)據(jù)和算法進(jìn)展

  材料大數(shù)據(jù)研究的主要流程可參考綜述文獻(xiàn)[1],近4年來該研究領(lǐng)域蓬勃發(fā)展,算法和數(shù)據(jù)兩方面都形成了一些新的趨勢.

  大數(shù)據(jù)研究的算法主要包括數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)兩部分,前者側(cè)重從文獻(xiàn)報(bào)道、專利、書籍、標(biāo)準(zhǔn)等文本或圖表中的信息批量提取,構(gòu)建可機(jī)讀、可批量計(jì)算的數(shù)據(jù)庫或數(shù)據(jù)集,利用統(tǒng)計(jì)學(xué)呈現(xiàn)數(shù)據(jù)的完備性和代表性,當(dāng)前的顯著進(jìn)展與自然語言處理(naturallanguageprocessing,NLP)以及化學(xué)信息學(xué)對化學(xué)物質(zhì)的編碼和解碼算法的研究前沿密切關(guān)聯(lián).

  而機(jī)器學(xué)習(xí)側(cè)重于對給定單一或多目標(biāo)算法的優(yōu)化,自擴(kuò)展搜索空間和給定函數(shù)的快速收斂.與之緊密相關(guān)的是人們對數(shù)據(jù)資源的認(rèn)識(shí)加深,涌現(xiàn)了一大批長期積累的、由專家參與的數(shù)據(jù)整理建設(shè),目前與高分子材料相關(guān)的一些代表性數(shù)據(jù)庫或數(shù)據(jù)集列于.

  相比于4年前的綜述調(diào)研[1],傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)量,以及材料對應(yīng)的物化性質(zhì)等獲得了大量擴(kuò)充,數(shù)據(jù)的完備性進(jìn)一步提升,如PoLyInfo(polymer.nims.go.jp/en/).同時(shí)也看到,基于量化和力場準(zhǔn)確計(jì)算的物化參數(shù)也急劇增加,填補(bǔ)過去大量材料物化性質(zhì)缺失,如clogP,HOMO,LUMO等.值得一提的是PubChem(pubchem.ncbi.nlm.nih.gov),Reaxys(www.reaxys.com),SciFinder(sso.cas.org),QM7/9[29]等數(shù)據(jù)庫支撐了深度學(xué)習(xí)在小分子設(shè)計(jì)[30~33],反應(yīng)合成[34~36]等領(lǐng)域的應(yīng)用,同時(shí)也對高分子的合成和性質(zhì)預(yù)測提供了應(yīng)用基礎(chǔ).

  在機(jī)器學(xué)習(xí)的算法方面,增強(qiáng)學(xué)習(xí)[43,44]、主動(dòng)學(xué)習(xí)[45]、深度神經(jīng)網(wǎng)絡(luò)等在近幾年取得長足發(fā)展.在傳統(tǒng)的監(jiān)督式和無監(jiān)督式學(xué)習(xí)方法中,用于回歸分析、分類算法、聚類和降維分析除了經(jīng)典算法如隨機(jī)森林(randomforest,RF)[46]、邏輯回歸(logisticregression)[47]、樸素貝葉斯(naiveBayes)[48]、支持向量機(jī)(supportvectormachine,SVM)[49]、K-means聚類[50]、層次聚類(hierarchicalclustering)[51]和主成分分析(principalcomponentanalysis,PCA)[52]等得到進(jìn)一步的廣泛應(yīng)用外。

  一些新的算法也從提出快速地得到應(yīng)用,多學(xué)科交叉促進(jìn)材料研究模式變化的節(jié)奏隨著信息高度流通明顯加快.對于缺少大量專家標(biāo)記數(shù)據(jù)的應(yīng)用場景,半監(jiān)督式學(xué)習(xí)算法得到快速發(fā)展,包含自我訓(xùn)練[53]、協(xié)同訓(xùn)練[54]、直推式支持向量機(jī)[55]和圖網(wǎng)絡(luò)方法[56]等.

  在強(qiáng)化學(xué)習(xí)算法方面,其原理類似于給定模型的計(jì)算模擬仿真,通過打分和懲罰函數(shù)在迭代反饋中優(yōu)化,建立代理模型.典型的強(qiáng)化學(xué)習(xí)算法有Q-learning方法(如深度Q-網(wǎng)絡(luò)[57],Q值函數(shù)反向傳播算法[57~59]、策略梯度方法[60]和信任區(qū)域策略優(yōu)化[61])等.這些算法與前述經(jīng)典學(xué)習(xí)算法復(fù)合或定制用于特定場景,出現(xiàn)了主動(dòng)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)等一系列新的方法分支.這些算法可以對已知人工數(shù)據(jù)點(diǎn)進(jìn)行生成擴(kuò)充[62~66],進(jìn)而提升模型性能,同時(shí)也可助力高分子材料實(shí)現(xiàn)高通量實(shí)驗(yàn)和高通量表征[67],為高效構(gòu)建高分子實(shí)驗(yàn)數(shù)據(jù)庫提供了新思路[68].這方面感興趣的讀者可參考文獻(xiàn)[69,70]等書籍了解更多原理和應(yīng)用細(xì)節(jié).特別值得一提的是近幾年深度學(xué)習(xí)對整個(gè)機(jī)器學(xué)習(xí)算法、人工智能和大數(shù)據(jù)從基礎(chǔ)研究到生產(chǎn)應(yīng)用都帶來了極大的沖擊.

  人工智能自動(dòng)編程,機(jī)器學(xué)習(xí)數(shù)據(jù)自動(dòng)生成等的急速發(fā)展與深度學(xué)習(xí)算法的高速發(fā)展密切相關(guān),在廣泛應(yīng)用的機(jī)器學(xué)習(xí)編程語言Python,R,Matlab的基礎(chǔ)上,新產(chǎn)生了一些建模框架,如Pytorch,TensorFlow,MxNet等.一些新的數(shù)據(jù)和工具包也形成了一定的流行度,如Hyperopt[71]和GPTune[72],COMBO[73]等.也有一些經(jīng)典的數(shù)據(jù)和算法項(xiàng)目得到持續(xù)發(fā)展,如早期DeepChem開源項(xiàng)目,包括MoleculeNet[74]有機(jī)分子的基準(zhǔn)和訓(xùn)練數(shù)據(jù)集,面向化學(xué)和材料數(shù)據(jù)的建模軟件ChemML[75],以及面向QSPR/QSAR的自動(dòng)化工具TPOT[76],auto-sklearn等[77~80].

  但這些數(shù)據(jù)和工具包很少考慮高分子的應(yīng)用場景,主要原因是數(shù)據(jù)集較小,缺少基準(zhǔn)數(shù)據(jù),數(shù)據(jù)不確定性高或歧義較多等.在算法方面,迄今得到廣泛使用的深度學(xué)習(xí)算法包括循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[81],變分自動(dòng)編碼器(VAE)[82],生成對抗網(wǎng)絡(luò)(GAN)[83]等.這些算法在高分子材料領(lǐng)域已得到一定的應(yīng)用并表現(xiàn)出巨大潛力.如Chen等利用RNN對基于SMILES準(zhǔn)確預(yù)測了高分子的玻璃化轉(zhuǎn)變溫度(Tg)[84].Batra等[85]利用VAE結(jié)合高斯過程回歸(GPR)模型發(fā)現(xiàn)了預(yù)期在高溫、高電場極端條件下具有潛在使用價(jià)值的新聚合物.Hiraide等開發(fā)了一個(gè)逆向設(shè)計(jì)框架GAN算法,對一類具有共性結(jié)構(gòu)的高分子材料實(shí)現(xiàn)了從楊氏模量到化學(xué)結(jié)構(gòu)的“逆設(shè)計(jì)”[86].

  4高分子材料大數(shù)據(jù)研究的代表性進(jìn)展

  4.1進(jìn)展分類

  高分子材料大數(shù)據(jù)研究是材料基因組學(xué)或材料信息學(xué)中極具挑戰(zhàn)的重要課題,當(dāng)前階段材料基因組學(xué)強(qiáng)調(diào)高通量計(jì)算、高通量表征和高通量制備及數(shù)據(jù)共享,但高通量對于高分子材料實(shí)現(xiàn)起來存在諸多困難,源于高分子材料多分散和多尺度關(guān)聯(lián)等特性.另一方面,以核酸、蛋白、多糖、多酚和小分子為主要研究對象的生物信息學(xué)最先發(fā)展成型,這類體系的組成單元收斂可枚舉,多分散性效應(yīng)不明顯.近年來仍在高速發(fā)展的化學(xué)信息學(xué),聚焦化學(xué)語言數(shù)值化、微觀結(jié)構(gòu)多角度精確計(jì)量等極大地促進(jìn)了材料信息學(xué)的發(fā)展,特別是在小尺寸強(qiáng)關(guān)聯(lián)體系用化學(xué)信息學(xué)方法可直接指導(dǎo)材料的“逆設(shè)計(jì)”.

  為了系統(tǒng)地介紹近幾年高分子材料大數(shù)據(jù)研究的代表性進(jìn)展,在CPSPPr中,主要按材料應(yīng)用性質(zhì)分類,包含新型高分子合成與自組裝、機(jī)械熱性質(zhì)、光電聲磁性質(zhì)、分離性質(zhì)等材料分類.在大數(shù)據(jù)計(jì)算方法、數(shù)據(jù)集,以及計(jì)算預(yù)測與實(shí)驗(yàn)驗(yàn)證迭代的方法和思路的進(jìn)展也將融合到這些具體材料分類中.整體來說,得益于化學(xué)信息學(xué)對物質(zhì)化學(xué)屬性和近程作用的精確刻畫,光電聲磁功能高分子材料的大數(shù)據(jù)研究已取得可媲美金屬合金、無機(jī)非金屬材料方面的成功應(yīng)用,但其他性質(zhì)的高分子材料大數(shù)據(jù)研究還缺乏能夠推動(dòng)行業(yè)研究和生產(chǎn)模式發(fā)生改變的顯著成果.

  在組成工藝決定結(jié)構(gòu)、結(jié)構(gòu)性質(zhì)關(guān)系(QSPR/QSAR)以及性質(zhì)性能3類主要關(guān)系中,結(jié)構(gòu)性質(zhì)關(guān)系研究較多,而結(jié)構(gòu)多數(shù)限于化學(xué)結(jié)構(gòu),對高分子材料聚集結(jié)構(gòu)的關(guān)聯(lián)關(guān)系研究報(bào)道非常少見.高分子材料大數(shù)據(jù)研究的實(shí)際應(yīng)用如配方工藝優(yōu)化、材料新性質(zhì)發(fā)現(xiàn),以及材料組成工藝決定結(jié)構(gòu)的基礎(chǔ)研究這些方面的報(bào)道也較少.下面我們將圍繞材料性質(zhì)分類對近幾年的代表性進(jìn)展進(jìn)行簡要回顧介紹.

  5難題與挑戰(zhàn)

  如前所述,建立高分子材料的定量CPSPPr是大數(shù)據(jù)研究的核心,在數(shù)學(xué)本質(zhì)上是譜學(xué)數(shù)據(jù)的預(yù)測.目前基于量化計(jì)算對小分子的多尺度譜學(xué)數(shù)據(jù)已能較為準(zhǔn)確的計(jì)算和預(yù)測,對于多分散系數(shù)趨近于1的體系如蛋白、核酸等其結(jié)構(gòu)和生物活性利用生物信息學(xué)的一體化建模(information-drivenintegrativemodeling)已經(jīng)能夠提供可與人類專家媲美的準(zhǔn)確預(yù)測.

  蛋白與核酸結(jié)構(gòu)定量化的成功與PDB的長期建設(shè)密不可分,但對于高分子,由于其二面角旋轉(zhuǎn)位壘與熱漲落能量1kBT相當(dāng),并缺少蛋白和核酸分子中的密集氫鍵約束,高分子材料的結(jié)構(gòu)數(shù)據(jù)不能夠用原子坐標(biāo)的辦法直接描述,需要更復(fù)雜的構(gòu)象集合來表示,但目前還缺少公認(rèn)可靠高效的概念和框架.

  在實(shí)際的高分子材料體系,往往還包括一定量的復(fù)合成分、添加劑或助劑,這些物質(zhì)分布廣泛,小分子可用的比如SMILES定量描述系統(tǒng)失效,而高分子自帶的手性、支化、成環(huán)、長程作用的芳環(huán)堆砌、靜電作用等對構(gòu)象、聚集和性質(zhì)的影響規(guī)律往往還依賴計(jì)算模擬近似分析,缺少可遷移利用的基礎(chǔ)定量數(shù)據(jù).總的來說,對于具有典型的多分散、局域精度高和大尺度準(zhǔn)確、存在非線性、非單調(diào)性累積協(xié)同效應(yīng)的高分子材料體系,從近程作用化學(xué)異構(gòu)和拓?fù)浣Y(jié)構(gòu)的化學(xué)信息學(xué)定量描述到跨尺度關(guān)聯(lián),大數(shù)據(jù)研究仍面臨權(quán)衡.

  這些問題在傳統(tǒng)研究中長期存在,常見表述為臨界現(xiàn)象、相變和相轉(zhuǎn)變、標(biāo)度行為、多級弛豫等概念模型.理論模型中會(huì)采用了多種近似,如假定結(jié)構(gòu)分布在平均場背景中、或假定高分子鏈長或拓?fù)浣Y(jié)構(gòu)滿足高斯分布、或假定物質(zhì)聚集可用隨機(jī)相近似(randomphaseapproximation,RPA),或假定結(jié)構(gòu)和性質(zhì)關(guān)系在多層次具有自相似性(selfsimilarity),或在臨界點(diǎn)附近拖尾分布存在標(biāo)度關(guān)系指數(shù)分布等.在實(shí)際應(yīng)用的材料中,這些假設(shè)可能失效但某些模型在一定條件下可能仍舊適用,而理論模型的不可靠性需要嚴(yán)格評估.因此,當(dāng)前高分子材料大數(shù)據(jù)研究的首要難題和挑戰(zhàn)是系統(tǒng)客觀地評估已有的理論模型、經(jīng)驗(yàn)公式的可靠性,以及模型定量描述的準(zhǔn)確度和適用性邊界.

  6結(jié)語與展望

  高分子材料大數(shù)據(jù)研究還處于積累和爆發(fā)階段,可以預(yù)見在未來幾年中,相關(guān)的研究報(bào)道和生產(chǎn)應(yīng)用實(shí)踐將急劇增加.得益于生物信息學(xué)較為成熟的多學(xué)科交叉深入合作和數(shù)據(jù)共享模式,化學(xué)信息學(xué)對物質(zhì)屬性的覆蓋度和準(zhǔn)確率的提升,以及應(yīng)對復(fù)雜體系和模糊語義的機(jī)器學(xué)習(xí)算法發(fā)展,材料信息學(xué)在金屬、無機(jī)非金屬和有機(jī)小分子材料研究中取得了廣泛的成功,也切實(shí)推動(dòng)了高分子材料的大數(shù)據(jù)研究.

  由于高分子材料描述模糊和歧義命名等長期歷史積累問題,以及高分子的多分散、多尺度、非線性協(xié)同效應(yīng)顯著、長程弱關(guān)聯(lián)強(qiáng)響應(yīng)等特點(diǎn),對高分子材料的準(zhǔn)確定量數(shù)據(jù)和高通量計(jì)算難以實(shí)現(xiàn),是造成高分子材料大數(shù)據(jù)研究進(jìn)展滯后的主要因素.

  在數(shù)據(jù)的標(biāo)準(zhǔn)化和可共享流通方面,生產(chǎn)應(yīng)用數(shù)據(jù)與實(shí)驗(yàn)室研究數(shù)據(jù)嚴(yán)重脫節(jié)、工業(yè)化和原料供應(yīng)數(shù)據(jù)不透明造成大量重復(fù)表征測試,基于不同關(guān)注點(diǎn)對高分子的基礎(chǔ)表征數(shù)據(jù)和性質(zhì)測試方法等關(guān)鍵信息缺失,使高分子材料可用的數(shù)據(jù)庫遠(yuǎn)未達(dá)到諸如CSD,Reaxys,PDB,UniProt等規(guī)模水平,但專一聚焦的高分子材料數(shù)據(jù)庫已有許多在路上.高分子材料大數(shù)據(jù)研究基礎(chǔ)的數(shù)據(jù)源建設(shè)發(fā)展方向,很可能類似當(dāng)前計(jì)算模擬領(lǐng)域的通用力場和專用力場修正的發(fā)展模式,即通用高分子多譜學(xué)數(shù)據(jù)與功能高分子特殊結(jié)構(gòu)性質(zhì)數(shù)據(jù)的整合.

  出版社(如ACS,Wiley,Elsevier,Springer,Cambridge,CRC等)、政府機(jī)構(gòu)(如NIST,NIMS等)以及跨國公司等已廣泛布局?jǐn)?shù)據(jù)的匯集和價(jià)值開發(fā),數(shù)據(jù)已成為重要資源.數(shù)據(jù)的增加主要將朝著類似地理地圖大數(shù)據(jù)的方向發(fā)展,在頂層設(shè)計(jì)和支持下對具有多種應(yīng)用場景的高分子材料具有高覆蓋度、精細(xì)分辨,支持高通量快速分析,提供多尺度多角度全方位數(shù)據(jù)支持或數(shù)據(jù)共享.同時(shí)在面向特定應(yīng)用和研究興趣,前沿領(lǐng)域的專業(yè)數(shù)據(jù)積累將更快地與新興大數(shù)據(jù)方法交叉,在高分子新材料研發(fā)或經(jīng)典問題的研究中產(chǎn)生突破進(jìn)展.

  REFERENCES:

  1LiYunqi(李云琦),LiuLunyang(劉倫洋),ChenWenduo(陳文多),AnLijia(安立佳).SciSinChim(中國科學(xué):化學(xué)),2018,48(3):243-255

  2JumperJ,EvansR,PritzelA,GreenT,FigurnovM,RonnebergerO,TunyasuvunakoolK,BatesR,ZidekA,PotapenkoA,BridglandA,MeyerC,KohlSAA,BallardAJ,CowieA,Romera-ParedesB,NikolovS,JainR,AdlerJ,BackT,PetersenS,ReimanD,ClancyE,ZielinskiM,SteineggerM,PacholskaM,BerghammerT,BodensteinS,SilverD,VinyalsO,SeniorAW,KavukcuogluK,KohliP,HassabisD.Nature,2021,596:583-589

  3KaurG,HomaD,SinghK,PandeyOP,ScottB,PickrellG.JPowerSources,2013,242:305-313

  4CrawfordAJ,ChoiD,BalducciPJ,SubramanianVR,ViswanathanVV.JPowerSources,2021,501:230032-230047

  5LigonSC,LiskaR,StampflJ,GurrM,MulhauptR.ChemRev,2017,117(15):10212-10290

  6KrevelenDWV,NijenhuisKT.PropertiesofPolymers.4thed.Amsterdam:Elsevier,2009

  7ShenC,KrennM,EppelS,Aspuru-GuzikA.MachLearn:SciTechnol,2021,2(3):03LT02

  8NohJ,KimJ,SteinHS,Sanchez-LengelingB,GregoireJM,Aspuru-GuzikA,JungY.Matter,2019,1(5):1370-1384

  9Gomez-BombarelliR,WeiJN,DuvenaudD,Hernandez-LobatoJM,Sanchez-LengelingB,SheberlaD,Aguilera-IparraguirreJ,HirzelTD,AdamsRP,Aspuru-GuzikA.ACSCentSci,2018,4(2):268-276

  10KimB,LeeS,KimJ.SciAdv,2020,6:eaax9324

  11Sanchez-LengelingB,Aspuru-GuzikA.Science,2018,361(6400):360-36512VasudevanR,PilaniaG,BalachandranPV.JApplPhys,2021,129(7):070401

  作者:劉倫洋1,2丁芳1,2李云琦1,2

选题指导

选题数据库精选与人工匹配,
快速拿到论文 著作学术成果
扫码咨询
找选题 快速发 可扫码咨询
学术资料免费区

期刊论文

论文模板论文格式投稿须知论文要求

期刊目录

北核目录南核目录CSCD目录武核目录SCI目录SSCI目录EI目录预警期刊名单

技巧及其他

中英文修改技巧中英文投稿指南国自然申请

学术指导服务明细

  • 研合模式

    和国外研究员成为1篇论文的作者,共享学术资源,节省时间和精力,发表有保障。

    咨询详情
  • 协助发表

    针对学术论文,从投前评估到录用,全过程指导并协助,减少浪费时间。

    咨询详情
  • 期刊推荐

    同领域研究员推荐期刊,分析论文质量、作者需求、期刊征稿要求精准推荐。

    咨询详情
  • 文章预审

    文章预审评估服务,邀请同领域专家审稿,给出修改意见,提高被接收的几率。

    咨询详情
  • 文章润色

    改善非英语母语科研学者文章语言,确保文章不因语言、语法等问题而退修甚至拒稿。

    咨询详情
  • 文章翻译

    国内外高校和科研机构精通中英双语的专家翻译文章,确保英文词语准确性、专业性。

    咨询详情
  • 文章查重

    使用国际期刊通用数据库进行英文查重,获得与出版商相同重复率信息,提前降重。

    咨询详情
  • 投稿指导

    旨在帮作者将稿件提交至目标期刊投稿系统,作者避免耽误时间,或因误操作导致退稿。

    咨询详情

中文核心期刊推薦

SCI核心期刊推薦

主站蜘蛛池模板: 国产91精品不卡在线 | 黄色小视频在线观看 | 欧美日韩在线第一页 | 高清性色生活片欧美在线 | 国产精品果冻麻豆精东天美 | 2018高清国产一道国产 | 亚洲国产成人精品91久久久 | 做久爱视频在线观看 | 亚洲国产精品专区 | a级片在线观看视频 | 日韩欧美视频免费观看 | 色国产在线视频一区 | 啪啪91视频 | 美女一级牲交毛片视频 | 特黄aa级毛片免费视频播放 | 91在线视频免费观看 | 免费黄视频网站 | 日日噜噜夜夜狠狠tv视频免费 | 亚洲欧美精品中字久久99 | 亚洲国产成人精品青青草原100 | 国产一级特黄a大片免费 | 天天综合网天天综合色不卡 | 欧美精品blacked中文字幕 | 成人αv在线视频高清 | 日韩在线二区全免费 | 国产亚洲精品美女一区二区 | 国产精品久久久久免费视频 | 午夜激情视频在线观看 | 劲爆激情欧美毛片 | 日韩在线看片中文字幕不卡 | 免费看叼嘿视频 | 国产a一级毛片含羞草传媒 国产a三级三级三级 | 91香蕉国产线在线观看免费 | 欧洲在线观看在线视频吗 | 日韩免费a级在线观看 | 慈禧级淫片a级中文在线 | 97精品国产高清自在线看超 | 亚洲成人一区 | 国产成人久久精品二区三区 | 国产精品吹潮香蕉在线观看 | 国产日韩欧美亚洲精品95 |