如何在weka中連接數(shù)據(jù)庫(kù)
1)新建文件夾lib和文件夾weka,然后將mysql-connector-java-5.1.6-bin.jar復(fù)制到lib文件夾中
2)“我的電腦”屬性,設(shè)置環(huán)境變量
新建變量WEKA_HOME=weka的安裝目錄,如(D:\Prgrams\weka-3.6)
在CLASSPATH變量中添加“;%WEKA_HOME%\lib\mysql-connector-java-5.1.6-bin.jar”
3)將weka.jar解壓到weka文件夾(新建)中,然后進(jìn)入weka\experiment,找到DatabaUtils.props(缺省使用)將其重新命名備份;假設(shè)我們要連接的mysql數(shù)據(jù)庫(kù),則將DatabaUtils.props.mysql重新命名為DatabaUtils.props,然后做如下修改:
# JDBC driver (comma-parated list)
#jdbcDriver=org.gjt.mm.mysql.Driver
修改為:jdbcDriver=com.mysql.jdbc.Driver
# databa URL,保持不變
jdbcURL=jdbc:mysql://rver_name:3306/databa_name ~
數(shù)據(jù)挖掘WEKA工具怎樣來(lái)用來(lái)進(jìn)行文本分類(lèi)?有800多個(gè)測(cè)試文本,求大神給出具體的步驟和通俗易懂的
第一步,你要有中文的數(shù)據(jù)集;
第二步,數(shù)據(jù)集要準(zhǔn)備成weka能處理的結(jié)構(gòu),這很好做到,你把數(shù)據(jù)集壓縮了就行了,因?yàn)樗蟮母袷绞牵粋€(gè)類(lèi)別的文件放一個(gè)文件夾下。但是還有一個(gè)問(wèn)題,你的機(jī)器往往沒(méi)那么多內(nèi)存去處理這個(gè)數(shù)據(jù)集,那么你可以選幾個(gè)類(lèi)別出來(lái),在每個(gè)類(lèi)別中放幾十個(gè)文檔來(lái)做就可以了。
第三步,分詞。
第四步,使用weka wiki中的例子將數(shù)據(jù)集轉(zhuǎn)換成arff格式。
weka是一種機(jī)器學(xué)習(xí)算法的集合,它可以用于分類(lèi),預(yù)測(cè)等。由于weka支持的數(shù)據(jù)格式是arff或csv的格式,因此在進(jìn)行weka實(shí)驗(yàn)的時(shí)候必須進(jìn)行數(shù)據(jù)的預(yù)處理。一般,我們可以在EXCEL里面導(dǎo)入TXT,然后另存為.CSV格式的文件(這個(gè)格式WEKA也是可以識(shí)別的),然后打開(kāi)WEKA,–》TOOL–》 arffviewer中打開(kāi)剛才的.CSV文件,另存為.arff就OK了!
如何學(xué)習(xí)在eclip工程中對(duì)weka算法的調(diào)用
eka是很好用的機(jī)器學(xué)習(xí)庫(kù),這里就不詳細(xì)介紹了。
言歸正傳,要使用程序方式使用weka,步驟如下:
一、在eclip里新建一個(gè)java project:
1. 建立工程:?jiǎn)螕舨藛沃衒ile->new->java project,在彈出對(duì)話(huà)框的project name中起任意一個(gè)名字,此處假設(shè)是wekaTest。單擊Finish按鈕(在對(duì)話(huà)框底部)。
2. 建立package:在package Explorer中找到剛才新建的工程,在其上右鍵->New->package。在Name文本框里面輸入名稱(chēng),此處假設(shè)為T(mén)est。單擊Finish按鈕。
3. 建立程序文件:在剛才新建的package上面右鍵->New->class,選中public static void main(String[] args)多選框,單擊Finish。
二、在該工程中添加weka的引用:
1. package Explorer中工程名上右鍵,選擇彈出菜單最后一項(xiàng)properties->在左面選中java Build Path->在右面的Library頁(yè)面->單擊Add External JARs…->瀏覽weka所在目錄,將weka.jar添加進(jìn)來(lái),然后單擊ok。