對分組重量編碼的蛋白質預測
人類的基因組織的計劃早在幾年前就開始了,并且在研究的過程中產生了大量的分子學數據,我們需要對這些數據進行計算和分析,我們探索的這些問題已經成為我們研究的熱點問題了。動植物體內的蛋白質預測的功能已經為基因的發展奠定了核心基礎,全自動定氮儀的使用也開始漸漸的廣泛化。數據挖掘、機器學習及人工神經網絡等方法已被廣泛應用到蛋白質功能預測的研究中。完整的蛋白質組是一個動態的研究對象,其功能預測涉及大量的信息,因此預測效果不太理想。本文介紹的方法是基于序列的蛋白質功能預測方法的又一次嘗試。
蛋白質分組重量編碼主要利用物理學中的粗粒化0思想,已成功應用到蛋白質結構預測研究。蛋白質結構可為其功能提供大量信息,因此,將蛋白質分組重量編碼結合最近鄰居算法應用于蛋白質功能預測研究。EBGW不僅提取氨基酸的物化特性, 而且更多的提取蛋白質序列中各類氨基酸的分布情況。
最近鄰居算法的基本思想是在多維空間中找到與未知樣本最近距離的點,并根據這個點的類別來判斷未知樣本的類。蛋白質分組重量編碼已經成功應用于蛋白質結構預測研究中,而蛋白質結構可以提供關于蛋白質功能的初步信息。蛋白質分組重量編碼作為蛋白質序列信息的數值表示,能夠充分提取序列中蘊含的結構信息,有效的應用于蛋白質結構預測中, 從而間接的為蛋白質功能預測提供功能信息。蛋白質行使某種功能,決定因素之一是氨基酸的物化特性,而不是具體的某個氨基酸。
編碼方式很好地刻畫了序列中的這種決定功能的本質特征。同時,盡管蛋白質之間的相互作用可以作為蛋白質功能預測的因素,但是,單純從蛋白質之間的相互作用提取功能信息,并不能很好地表達這種氨基酸的物化特性決定蛋白質功能的特征。因此,蛋白質的分組重量編碼與蛋白質之間相互作用的有效結合是后續工作的突破口。分組重量編碼與最近鄰居法結合的思想僅從蛋白質序列出發,能夠全面提取序列信息,不受其它蛋白質的制約,同時對于序列的長度不敏感。分組重量編碼結合最近鄰居算法,計算簡單,可以準確的將未知功能的蛋白質進行功能分類。同時,分組重量編碼所包含的信息量大,特別是在蛋白質-蛋白質相互作用信息未知、而僅采用序列信息的情況下,不受已知蛋白質-蛋白質相互作用信息量少的限制,有效地提取蛋白質序列中蘊含的功能信息,進行蛋白質功能預測。中國糧油儀器網 http://m.51wenwangwen.com/
