校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

主頁 > 知識庫 > Python機器學習入門(三)之Python數據準備

Python機器學習入門(三)之Python數據準備

熱門標簽:宿遷星美防封電銷卡 ai電話機器人哪里好 百度地圖標注沒有了 湛江智能外呼系統廠家 外呼并發線路 地圖標注審核表 長沙高頻外呼系統原理是什么 西藏房產智能外呼系統要多少錢 ai電銷機器人源碼

特征選擇時困難耗時的,也需要對需求的理解和專業知識的掌握。在機器學習的應用開發中,最基礎的是特征工程。

——吳恩達

1.數據預處理

數據預處理需要根據數據本身的特性進行,有缺失的要填補,有無效的要剔除,有冗余維的要刪除,這些步驟都和數據本身的特性緊密相關。

1.1調整數據尺度

如果數據的各個屬性按照不同的方式度量數據,那么通過調整數據的尺度讓所有屬性按照相同的尺度來度量,就會給機器學習的算法模型訓練帶來極大的方便。

在scikit-learn中,可以通過Min Max Scalar類來調整數據尺度。將不同計量單位的數據統一成相同的尺度,利于對事物的分類或分組。Min Max Scalar其實是將屬性縮放到一個指定范圍,或者對數據進行標準化并將數據都聚集到0附近,方差為1

from numpy import set_printoptions
from pandas import read_csv
from sklearn.preprocessing import MinMaxScaler
 
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filename,names = names)
 
#將數據分為輸入數據和輸出結果
array = data.values
X = array[:,0:8]
#X相當于所有數據
Y = array[:,8]
#Y為最后的class,即結果
transformer = MinMaxScaler(feature_range=(0,1)).fit(X)
#數據轉化
newX = transformer.fit_transform(X)
#設定數據的打印格式
set_printoptions(precision=3)
#設置精度
print(newX)

[[0.353 0.744 0.59 ... 0.501 0.234 0.483]
[0.059 0.427 0.541 ... 0.396 0.117 0.167]
[0.471 0.92 0.525 ... 0.347 0.254 0.183]
...
[0.294 0.608 0.59 ... 0.39 0.071 0.15 ]
[0.059 0.633 0.492 ... 0.449 0.116 0.433]
[0.059 0.467 0.574 ... 0.453 0.101 0.033]]

1.2正態化數據

正態化數據是有效的處理符合高斯分布數據的手段,輸出結果以0為中位數,方差為1。使用scikit-learn提供的Standard Scalar類來進行正態化處理。

transformer = StandardScaler().fit(X)
#數據轉換
_newX = transformer.transform(X)
#設定數據打印格式
set_printoptions(precision=3)
#設置精度
#print(_newX)

[[ 0.64 0.848 0.15 ... 0.204 0.468 1.426]
[-0.845 -1.123 -0.161 ... -0.684 -0.365 -0.191]
[ 1.234 1.944 -0.264 ... -1.103 0.604 -0.106]
...
[ 0.343 0.003 0.15 ... -0.735 -0.685 -0.276]
[-0.845 0.16 -0.471 ... -0.24 -0.371 1.171]
[-0.845 -0.873 0.046 ... -0.202 -0.474 -0.871]]

1.3標準化數據

標準化數據是將每一行數據距離處理成1(在線性代數中矢量距離為1),又叫“歸一元”處理,適合處理稀疏數據(具有很多為0的數據),歸一元處理的數據對使用權重輸入的神經網絡和使用距離的K近鄰算法的準確度的提升有顯著作用

使用scikit-learn中的Normalizer類實現。

transformer = Normalizer().fit(X)
#數據轉換
__newX = transformer.transform(X)
#設置數據打印格式
set_printoptions(precision=3)
print(__newX)

[[0.034 0.828 0.403 ... 0.188 0.004 0.28 ]
[0.008 0.716 0.556 ... 0.224 0.003 0.261]
[0.04 0.924 0.323 ... 0.118 0.003 0.162]
...
[0.027 0.651 0.388 ... 0.141 0.001 0.161]
[0.007 0.838 0.399 ... 0.2 0.002 0.313]
[0.008 0.736 0.554 ... 0.241 0.002 0.182]]

1.4二值數據

二值數據是使用值將數據轉化為二值,大于閾值設置為1,小于閾值設置為0。

使用scikit-learn中的Binarizer類實現。

transformer = Binarizer(threshold=0.0).fit(X)
#數據轉換
newX_ = transformer.transform(X)
#設置數據打印格式
set_printoptions(precision=3)
print(newX_)

[[1. 1. 1. ... 1. 1. 1.]
[1. 1. 1. ... 1. 1. 1.]
[1. 1. 1. ... 1. 1. 1.]
...
[1. 1. 1. ... 1. 1. 1.]
[1. 1. 1. ... 1. 1. 1.]
[1. 1. 1. ... 1. 1. 1.]]

2.數據特征選定

在開始建立模型之前,執行特征選定有助于:降低數據的擬合度,提高算法精度,減少訓練時間。

2.1單變量特征選定

統計分析可以用來分析選擇對結果影響最大的數據特征。在scikit-learn中通過SelectKBest類來實現,使用一系列統計方法來選定數據特征,也是對卡方檢驗的實現。

卡方值越大,實際觀測值與理論推斷值之間越不符合;卡方值越小,實際觀測值與理論推斷值之間越符合;若兩個值完全相等,卡方值為0。

from pandas import read_csv
from numpy import set_printoptions
from sklearn.feature_selection import chi2
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.ensemble import ExtraTreesClassifier
 
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
array = data.values
X = array[:,0:8]
Y = array[:,8]
 
#通過卡方檢驗選定數據特征
#特征選定
test = SelectKBest(score_func=chi2,k=4)
fit = test.fit(X,Y)
set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)
print(features)

執行后得到了卡方檢驗對每一個數據特征的評分,以及得分最高的四個數據特征。[ 111.52 1411.887 17.605 53.108 2175.565 127.669 5.393 181.304]
[[148. 0. 33.6 50. ]
[ 85. 0. 26.6 31. ]
[183. 0. 23.3 32. ]
...
[121. 112. 26.2 30. ]
[126. 0. 30.1 47. ]
[ 93. 0. 30.4 23. ]]

2.2遞歸特征消除

遞歸特征消除(RFE)使用一個及模型來進行多輪訓練,每輪訓練后消除若干權值系數的特征,再基于新的特征集進行下一輪訓練。通過每一個基模型的精度,找到對最終預測結果影響最大的數據特征。

#遞歸特征消除
#特征選定
model = LogisticRegression(max_iter=3000)#需要手動設置最大迭代次數
rfe = RFE(model,3)
fit = rfe.fit(X,Y)
print("特征個數:")
print(fit.n_features_)
print("被選定的特征:")
print(fit.support_)
print("特征排名:")
print(fit.ranking_)

特征個數:
3
被選定的特征:
[ True False False False False True True False]
特征排名:
[1 2 4 6 5 1 1 3]

2.3數據降維

常見降維方法有PCA(主要成分分析)和LDA(線性判別分析。在聚類算法中,通常會用PCA對數據進行降維處理,以利于對數據的簡化分析和可視化。

#主要成分分析(數據降維)
#通過主要成分分析選定數據特征
pca = PCA(n_components=3)
fit = pca.fit(X)
print("解釋方差:%s"% fit.explained_variance_ratio_)
print(fit.components_)

解釋方差:[0.889 0.062 0.026]
[[-2.022e-03 9.781e-02 1.609e-02 6.076e-02 9.931e-01 1.401e-02
5.372e-04 -3.565e-03]
[-2.265e-02 -9.722e-01 -1.419e-01 5.786e-02 9.463e-02 -4.697e-02
-8.168e-04 -1.402e-01]
[-2.246e-02 1.434e-01 -9.225e-01 -3.070e-01 2.098e-02 -1.324e-01
-6.400e-04 -1.255e-01]]

2.4特征重要性

使用袋裝決策樹算法、隨機森林算法和極端隨機樹算法可以計算數據特征的重要性。

#特征重要性
#特征選定
model = ExtraTreesClassifier()
fit = model.fit(X,Y)
print(fit.feature_importances_)

[0.109 0.234 0.101 0.077 0.076 0.14 0.121 0.142]

總結

本文主要講了機器學習中的數據準備工作,包括數據預處理和數據特征選定,這些都是為了后序優化算法所做的準備工作。

到此這篇關于Python機器學習(三)數據準備的文章就介紹到這了,更多相關Python機器學習內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python實現H2O中的隨機森林算法介紹及其項目實戰
  • pyspark 隨機森林的實現
  • python機器學習之隨機森林(七)
  • Python機器學習利用隨機森林對特征重要性計算評估

標簽:南平 盤錦 海南 普洱 寧夏 漯河 林芝 大同

巨人網絡通訊聲明:本文標題《Python機器學習入門(三)之Python數據準備》,本文關鍵詞  Python,機器,學習,入門,三,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python機器學習入門(三)之Python數據準備》相關的同類信息!
  • 本頁收集關于Python機器學習入門(三)之Python數據準備的相關信息資訊供網民參考!
  • 推薦文章
    校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃
    99精品1区2区| 日本亚洲三级在线| 韩国午夜理伦三级不卡影院| 91在线porny国产在线看| 欧美成人艳星乳罩| 亚洲va在线va天堂| 91免费视频观看| 国产亚洲婷婷免费| 另类的小说在线视频另类成人小视频在线 | 天堂资源在线中文精品| caoporn国产一区二区| 久久蜜桃av一区二区天堂| 日韩电影一区二区三区四区| 日本乱码高清不卡字幕| 亚洲视频香蕉人妖| 99久久99久久精品免费观看| 国产精品久久久久婷婷| 国产成人超碰人人澡人人澡| 国产亚洲人成网站| 国产九九视频一区二区三区| 久久久综合视频| 亚洲成av人影院在线观看网| 91性感美女视频| 欧美精品一区男女天堂| 国产综合成人久久大片91| 久久综合久久鬼色中文字| 美女网站在线免费欧美精品| 91精品欧美久久久久久动漫| 日韩av中文在线观看| 日韩限制级电影在线观看| 琪琪久久久久日韩精品| 精品福利av导航| 国产福利91精品一区| 亚洲欧洲三级电影| 欧美日韩一级大片网址| 麻豆国产精品777777在线| 欧美精品一区二区三区四区| 国产福利一区二区三区视频 | 成人综合在线视频| 椎名由奈av一区二区三区| 91久久国产最好的精华液| 蜜臀久久99精品久久久久宅男 | 精品久久久久香蕉网| 国产91精品欧美| 亚洲一区二区三区在线| 日韩久久免费av| av一二三不卡影片| 老司机精品视频在线| 国产精品区一区二区三| 欧美日韩一区二区在线观看| 国产精品18久久久久久久久| 亚洲精品美国一| 精品国产亚洲在线| 91精品国产色综合久久ai换脸 | 国产欧美日韩精品一区| 在线中文字幕一区二区| 裸体一区二区三区| 亚洲人成网站在线| 亚洲国产精华液网站w| 欧美一级二级在线观看| 日本高清无吗v一区| jiyouzz国产精品久久| 国产精品一色哟哟哟| 日韩国产一二三区| 亚洲午夜免费视频| 亚洲精品成人少妇| 日产国产高清一区二区三区| 日韩毛片高清在线播放| 日本一区二区三区在线观看| 精品美女一区二区三区| 91精品欧美福利在线观看| 91视频免费看| 欧美性色综合网| 欧美三级视频在线播放| 欧美日本乱大交xxxxx| 欧美无砖专区一中文字| 欧美丝袜自拍制服另类| 欧美在线观看视频一区二区三区| 91麻豆免费观看| 欧美在线小视频| 欧美视频在线一区二区三区| 欧美午夜不卡在线观看免费| 欧美日韩一区二区在线观看视频| 欧美日韩中字一区| 日韩欧美精品三级| 久久精品夜夜夜夜久久| 中文字幕亚洲欧美在线不卡| 一区二区三区在线看| 国产午夜亚洲精品理论片色戒 | 国产一区二区三区最好精华液| 久久精品国产免费| 国产成人自拍在线| 色乱码一区二区三区88| 欧美一区二区私人影院日本| xfplay精品久久| 综合欧美亚洲日本| 蜜臀精品久久久久久蜜臀| 国产成人在线色| 91麻豆福利精品推荐| 91精品国产一区二区| 欧美激情一区三区| 亚洲福利电影网| 国产精品小仙女| 成人激情动漫在线观看| 欧美日韩国产乱码电影| 久久久另类综合| 亚洲综合色成人| 国产激情精品久久久第一区二区 | 精品福利视频一区二区三区| 亚洲视频一区二区在线观看| 韩国成人精品a∨在线观看| 色一情一乱一乱一91av| 久久综合九色综合欧美98| 亚洲一二三级电影| 成人av电影免费在线播放| 日韩三级免费观看| 亚洲三级免费观看| 国产在线播放一区| 欧美私人免费视频| 亚洲婷婷在线视频| 成人综合婷婷国产精品久久免费| 5月丁香婷婷综合| 亚洲成人免费av| 男女性色大片免费观看一区二区 | 成人av网址在线| 精品国产123| 激情久久五月天| 欧美mv日韩mv亚洲| 美女一区二区三区| 7777精品久久久大香线蕉 | 国产一区二区导航在线播放| 欧美人与性动xxxx| 视频一区二区国产| 在线观看三级视频欧美| 男女视频一区二区| 日韩美女视频在线| 久久国产精品无码网站| 亚洲精品一区二区三区影院 | 粉嫩嫩av羞羞动漫久久久| 久久综合久久综合久久综合| 狠狠色狠狠色综合日日91app| 精品国产一区二区三区忘忧草 | 韩国女主播成人在线| 国产三级精品三级在线专区| 成人性生交大片免费| 亚洲色图欧洲色图婷婷| 欧美羞羞免费网站| 蜜臂av日日欢夜夜爽一区| 国产亚洲精品bt天堂精选| 成人免费看片app下载| 亚洲欧美另类久久久精品2019 | 亚洲视频综合在线| 欧美日韩综合在线免费观看| 麻豆精品视频在线观看视频| 日韩一级二级三级| 麻豆一区二区三| 国产日韩欧美在线一区| 91毛片在线观看| 视频一区国产视频| 欧美国产精品v| 欧美日韩一本到| 风间由美中文字幕在线看视频国产欧美| 亚洲精品视频免费观看| 国产精品九色蝌蚪自拍| 555夜色666亚洲国产免| 国产aⅴ综合色| 日韩福利电影在线| 国产精品久久久久aaaa樱花| 日韩欧美一区二区免费| 色网综合在线观看| 成人h精品动漫一区二区三区| 日本一不卡视频| 亚洲国产精品自拍| 中文字幕一区二区三区乱码在线| 欧美www视频| 欧美日韩不卡一区二区| 91日韩精品一区| 大美女一区二区三区| 日韩精品久久理论片| 亚洲精品国产精华液| 国产精品毛片无遮挡高清| 久久综合久久鬼色中文字| 日韩亚洲欧美综合| 欧美一级艳片视频免费观看| 91久久人澡人人添人人爽欧美| 成年人网站91| 成人成人成人在线视频| 成人教育av在线| 成人黄色网址在线观看| 国产999精品久久久久久绿帽| 国产麻豆精品95视频| 极品美女销魂一区二区三区| 美女高潮久久久| 久久av中文字幕片| 国产最新精品免费| 国产米奇在线777精品观看| 91成人免费在线视频| 欧美日韩一区二区三区不卡| 欧美色网站导航| 91精品国产色综合久久久蜜香臀|