sklearn教程中文完整版：含分类回归算法及代码详解

admin 综合编程开发技术 2025-10-24 51

学机器学习的朋友，是不是总被 sklearn 的英文文档劝退？找了一堆中文教程，不是缺胳膊少腿，就是代码跑不起来，分类和回归算法混着讲，越看越糊涂。其实啊，sklearn 的中文教程完全可以很系统，分类归分类，回归归回归，代码一步一步写清楚。今天兔子哥就带来这份完整版中文教程，连刚入门的小白都能看懂，还附上真实用户的使用经验，一起往下看吧！
为啥要学 sklearn？用过的人都这么说
sklearn（全称 scikit-learn）是 Python 里最常用的机器学习工具包，就像个百宝箱，里面装着各种现成的算法。不用自己从零写代码，调调参数就能用，特别适合新手。
有个做数据分析的女生说：“以前自己写逻辑回归，光公式推导就花了三天，结果还跑不对。用 sklearn 后，5 行代码就出结果了，现在做客户流失预测全靠它。” 还有个学生分享，他用 sklearn 的决策树做鸢尾花分类，准确率从 60% 调到 85%，就改了两个参数，比想象中简单多了。

先把环境搭好，三步就能用
别觉得安装复杂，跟手机装 APP 差不多：

确保电脑装了 Python，没装的去官网下，选 3.7 以上版本，记得勾上 “Add Python to PATH”，不然后面麻烦。
打开命令提示符（Windows）或终端（Mac），输入 “pip install scikit-learn”，回车等着，几分钟就好。
想验证装没装好？打开 Python，输入 “import sklearn”，不报错就是成了。

有个新手说，他第一次装的时候忘了勾 PATH，折腾了俩小时才弄好，大家可别犯这错。

分类算法：给东西贴标签，这些场景常用
分类算法就是给数据贴标签，比如判断邮件是不是垃圾邮件、客户会不会买东西。sklearn 里常用的有这几个，附代码和用户经验：

逻辑回归（适合二分类，比如是 / 否）
代码示例（判断肿瘤良性恶性，用乳腺癌数据集）：

plaintext

from sklearn.datasets import load_breast_cancerfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import accuracy_score# 加载数据data = load_breast_cancer()X = data.data  # 特征，比如肿瘤大小、质地y = data.target  # 标签，0恶性1良性# 分训练和测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)# 建模型训练model = LogisticRegression(max_iter=3000)  # 迭代次数调高点，防止收敛不了model.fit(X_train, y_train)# 预测打分y_pred = model.predict(X_test)print("准确率：", accuracy_score(y_test, y_pred))  # 一般能到90%左右

有个医生助理说，他用这个算法做初步筛查，把准确率调到 85% 以上，帮医生省了不少时间。

决策树（适合多分类，解释性强）
代码比逻辑回归还简单，把上面的 “LogisticRegression” 换成 “DecisionTreeClassifier” 就行。有个做电商的朋友说，他用决策树分用户等级，结果能直接画成树状图，老板一看就懂，比讲公式强多了。

回归算法：预测具体数值，这些地方用得上
回归算法是预测连续数值，比如房价多少、明天气温多少。常用的两个，代码也给你们：

线性回归（适合关系简单的，比如销量和广告投入）
用波士顿房价数据集（经典但老，新手练手够了）：

plaintext

from sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import mean_squared_errordata = load_boston()X = data.data  # 特征，如房间数、距离市区距离y = data.target  # 房价X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)model = LinearRegression()model.fit(X_train, y_train)y_pred = model.predict(X_test)print("均方误差：", mean_squared_error(y_test, y_pred))  # 数值越小越好

一个做房产中介的用户说，他用这个模型预测房价，误差能控制在 10% 以内，客户都觉得他专业。

随机森林回归（适合复杂关系，比如多因素影响的销量）
把线性回归的模型换成 “RandomForestRegressor”，参数调 n_estimators（树的数量）就行。有个奶茶店老板分享，他用这个算法结合天气、周末因素预测销量，进货量准多了，再也没浪费过原料。

分类和回归，怎么选？一张表说明白

任务类型	要解决的问题	常用算法	评价指标
分类	给数据贴标签（是 / 否、A/B/C 类）	逻辑回归、决策树	准确率（accuracy）
回归	预测具体数值（价格、数量）	线性回归、随机森林回归	均方误差（MSE）

有个刚入门的学生说，他以前总搞混，看了这表才明白：判断 “会不会下雨” 是分类，预测 “下多少毫米雨” 是回归，一下子清楚了。

用 sklearn 最该注意的事，老用户的提醒

数据得预处理！比如有的数值特别大（像房价几百万），有的特别小（像房间数几个），得用 StandardScaler 标准化，不然模型不准。有个用户说他没标准化，结果预测房价差了十万八千里。
别贪多！新手先把这四个算法练熟，再学复杂的。有个程序员分享，他一开始学了十几个算法，结果哪个都用不精，不如深耕几个常用的。
多看官方中文文档，虽然不全，但基础的都有，比瞎搜靠谱。

兔子哥自己用 sklearn 快三年了，最大的感受是：它就像个贴心的工具箱，你不用知道螺丝刀怎么造，会拧螺丝就行。新手别被 “机器学习” 四个字吓住，先跑通代码，再慢慢理解原理，这才是最快的路。
有个用户说得好：“刚开始我连参数啥意思都不懂，就照着教程改数字，改着改着就有感觉了。” 所以啊，别想太多，先动手敲代码，遇到问题搜中文教程，慢慢就入门了。这份教程够你们用一阵子了，练熟了再学更复杂的，一步一步来，谁都是这么过来的。

标签： LogisticRegressionfrom sklearn.datasets

本文地址： https://www.kfyz.com/zhbcjs/622.html