
桂林電子科技大學
學科前沿技術講座
心得體會
學 號: 102031105
姓 名: 劉 瑞
指導教師: 王 沖
專業名稱: 計算機應用技術
所屬學院: 計算機科學與工程學院
成 績:
近年來,數據挖掘引起了信息產業界的極大關注,其主要原因是存在大量數
據,可以廣泛使用, 并且迫切需要將這些數據轉換成有用的信息和知識。獲取
的信息和知識可以廣泛用于各種應用,包括商務管理,生產控制,市場分析,工
程設計和科學探索等。
機器學習和數據挖掘這些年一直是計算機應用方面研究的重點和熱點,首先
要了解什么是數據挖掘,簡單地說,數據挖掘是從大量數據中提取或"挖掘"知識。
我一直對這方面的知識頗感興趣,這學期學院開設的學術前沿講座的課程,很有
幸聽到了文益民教授對于自己在機器學習和數據挖掘方面研究的講座,讓我對這
些知識有了深入淺出的理解,受益匪淺。
12月5號,文益民教授做了題為“大規模數據的分類”的講座,在講座的最
開始,文教授提到了戈登·德萊頓《學習的革命》一書,皆在指導我們如何積累
知識如何思考如何學習如何去做研究,具有拋磚引玉的指導意義。在這之后,又
對了解機器學習和數據挖掘首先要了解的知識做了簡要的說明,比如對于問題的
分類是分為線性問題和非線性問題;比如聚類的含義是將物理或抽象對象的集合
分成由類似的對象組成的多個類的過程;比如對于這個世界上計算機的分類可以
只分成工人(maker)和思考者(thinker)兩類。至此正式進入問題的討論。
對于這次講座,文教授從四個方面進行了講授。第一,實際應用中的大規模
數據分類問題。第二,大規模數據給機器學習帶來的挑戰。第三,大規模數據分
類算法的研究。第四,展望發展前景。文教授主要是在第三點中做了很多工作也
取得了可喜的成績。
在機器學習的實際應用中,大規模數據分類問題一般會應用在以下幾個方
面,在高速高精度的工業圖像檢測方面,在專利分類方面,在生物信息數據快速
增長方面,在支持向量機參數選擇方面。
大規模數據給機器學習帶來的問題有:1、算法一般不是收斂太慢就是難以
收斂,訓練時間過長。2、海量數據無法一次裝入內存。3、算法可靠性得不到保
證。4、已經訓練好的學習器遇到心得訓練樣本時需要重新訓練。
在最重要的部分,文教授提到了幾個重要的研究方法,包括算法,這里面包
含有:1、基于并行計算的算法,2、以并行計算方法求解工作集方法中每個迭代
步中二次規劃的子問題,3、Meta-learning,最小最大模塊化支持向量機以及快
速模塊化支持向量機,4、Cluster-SVM,Cluster-bad-SVM,Cascade-SVM。文
教授在第三和第四點中都有自己的工作和貢獻,在第三點中,他提出了分類面拼
接算法,在第四點中,提出了分層并行支持向量機訓練算法。對于分類面拼接算
法我進行了比較仔細的了解,并下載閱讀了文教授于2009年3月份在湖南大學
學報上發表的論文“基于分類面的快速模塊化支持向量機研究”,對于分類面拼
接算法有了初步的研究,下面說說我對這個算法的理解。
信息采集和信息處理技術的快速發展導致了諸如公共健康數據、信用交易數
據、國家經濟普查數據、網絡文本數據和地理信息數據等大規模數據集的產生。
由于訓練時間很長和空間需求很大,現有的大多數機器學習算法很難被直接用于
大規模數據的機器學習。
這個算法是針對大多數現有的機器學習算法處理大規模問題時需要的訓練
時間很長和存儲空間很大的難點而提出的,英文名是psfnr SVMs,
在訓練階段,psfm2SVMs采用一簇平行超平面對大規模問題實施軟劃分,然
后針對每個子問題并行訓練支持向量機。 在測試階段,測試樣本坐落于哪個子
問題所在空間中,就由該子問題訓練的支持向量機給出判別結果。 在4個大規
模問題上的實驗表明:與采取硬劃分的快速模塊化支持向量機(fm2SVMs)相比,
軟劃分能夠使psfm2SVMs得到更加光滑的分類面,因而ps2fm2SVMs的泛化能
力較高。 在不增加訓練時間的條件下,psfm2SVMs減少了由于訓練集分割導致
的分類器泛化能力下降。
支持向量機方法的本質是在訓練集的一個高維像空間中尋找最大間隔分類
超平面,這個分類超平面對應于訓練集所在空間的一個光滑曲面。 如果采用訓
練集分割的方法,將這個光滑曲面分段求出,然后進行連接,就可以得到這個光
滑曲面的近似曲面。
該算法使用平行超平面簇對訓練集實施軟劃分,使得拼接后的分類面相比
fm2SVMs得到的分類面更光滑,更接近最優分類曲面。 因而,psfm2SVMs 的
泛化能力比fm2SVMs的泛化能力要高。 在并行條件下,兩者的訓練時間和測
試時間相同。 在多核計算技術快速發展的今天,本文提出的算法,提供了一種
可行的并行機器學習框架,對于研制高速高精度的機器學習算法具有一定的借鑒
意義。 未來計劃研究隨機向量w的方向對psfm2SVMs泛化能力的影響,并將
該算法用于高速高精度工業圖像檢測。
這就是我的心得體會,在講座的最后,文教授還對機器學習和數據挖掘的未
來進行了展望,諸如現在流行的云計算,還有動態數據流學習,例外的發現,學
習更復雜的函數,粒計算等等,都是今后發展的的熱點。聽完這個講座,我感到
責任重大,即使是一個點,也還有很多方面值得拓展和探索,作為研究生,研究
是我們主要的工作,想要取得滿意的結果和優異的成績,我們所要做的就是倍加
努力,汲取現有的知識,在新的領域開拓新的研究道路,積極探索,永不止步。

本文發布于:2023-05-24 03:50:22,感謝您對本站的認可!
本文鏈接:http://www.newhan.cn/zhishi/a/1684871423176583.html
版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。
本文word下載地址:學科前沿講座心得.doc
本文 PDF 下載地址:學科前沿講座心得.pdf
| 留言與評論(共有 0 條評論) |