想入门数据分析,却觉得需要学复杂的公式和高深的理论?是不是看着别人用 Python 做数据可视化、出分析报告,自己却不知道从哪下手,怕代码太难学不会?拿到一堆数据不知道怎么整理,更别说从中找规律了。别焦虑,兔子哥第一次接触数据分析时,对着 Excel 表格里的几百行数据发呆,不知道怎么快速算出平均分、找出最高分,后来用 Python 几行代码就搞定了,原来数据分析入门没那么难。今天就带零基础的朋友用简单代码做数据分析实战,从数据加载到可视化,一步步学会用 Python 处理数据,一起往下看吧!
一、数据分析入门前:准备好这两个 “利器”
做数据分析不用复杂工具,Python 的两个库就够了,安装简单,功能却超实用。
- 必备库介绍:pandas 和 matplotlib
- pandas:处理数据的 “瑞士军刀”,能轻松加载、清洗、分析数据,比如筛选成绩大于 90 分的学生、计算平均分,几行代码就能搞定。
- matplotlib:数据可视化的 “画笔”,能把数据变成柱状图、折线图,让结果更直观,一眼看出数据规律。
- 安装方法:一行代码搞定
打开命令提示符(Win+R 输入 cmd),分别输入这两行命令:
plaintext
pip install pandaspip install matplotlib等几分钟就安装好了,新手如果出现 “pip 不是内部命令”,记得检查 Python 是否添加到环境变量,不会的话搜 “Python 添加环境变量教程”,跟着做就行。
| 库名称 | 作用 | 核心功能 | 新手友好度 |
|---|---|---|---|
| pandas | 数据处理 | 加载数据、清洗数据、计算统计量 | ★★★★☆ |
| matplotlib | 数据可视化 | 画柱状图、折线图、饼图 | ★★★☆☆ |
二、核心步骤:从数据加载到分析,4 步搞定
以 “学生成绩数据” 为例,带大家走完数据分析全流程,数据可以自己用 Excel 造一份(包含姓名、语文、数学、英语成绩),保存为 CSV 格式。
- 第一步:加载数据,让 Python “读” 懂数据
用 pandas 的read_csv函数加载数据,代码如下:
python
import pandas as pd # 导入pandas库,简写为pd# 加载CSV文件,文件路径替换成你的文件位置data = pd.read_csv("学生成绩.csv")# 查看数据前5行,确认加载成功print("数据前5行:")print(data.head()) # head()默认显示前5行如果出现 “FileNotFoundError”,说明文件路径错了,要么写全路径(比如
"C:\data\学生成绩.csv"),要么把 CSV 文件和代码放同一个文件夹。- 第二步:数据清洗,处理 “脏数据”
实际数据常有些问题,比如缺考的学生成绩是空值(NaN),需要处理干净:
python
# 查看是否有缺失值print("\n缺失值情况:")print(data.isnull().sum()) # 统计每列缺失值数量# 处理缺失值:删除有缺失值的行(简单粗暴,适合新手)data_clean = data.dropna() # dropna()删除含缺失值的行print("\n清洗后的数据行数:", len(data_clean)) # 看看删了多少行如果不想删除,也可以用平均分填充缺失值,代码是
data.fillna(data.mean()),新手先掌握删除法就行。- 第三步:数据分析,找出数据规律
用 pandas 做基础统计分析,几行代码算出平均分、最高分、最低分:
python
# 计算每科平均分avg_scores = data_clean[["语文", "数学", "英语"]].mean()print("\n各科平均分:")print(avg_scores)# 计算每个学生的总分data_clean["总分"] = data_clean["语文"] + data_clean["数学"] + data_clean["英语"]print("\n添加总分后的数据:")print(data_clean.head())# 找出总分前三名的学生top3 = data_clean.sort_values(by="总分", ascending=False).head(3)print("\n总分前三名:")print(top3[["姓名", "总分"]]) # 只显示姓名和总分sort_values是排序函数,ascending=False表示从高到低排,这样就能轻松找出尖子生。- 第四步:数据可视化,用图表展示结果
用 matplotlib 画柱状图,直观展示各科平均分对比:
python
import matplotlib.pyplot as plt # 导入可视化库# 设置中文显示(不然中文会乱码)plt.rcParams["font.family"] = ["SimHei", "WenQuanYi Micro Hei", "Heiti TC"]# 画柱状图avg_scores.plot(kind="bar", color=["red", "green", "blue"])plt.title("各科平均分对比") # 图表标题plt.xlabel("科目") # x轴标签plt.ylabel("平均分") # y轴标签plt.show() # 显示图表运行后会弹出一个窗口,显示红色的语文柱、绿色的数学柱、蓝色的英语柱,哪个科目平均分高一目了然。
三、实战案例:完整代码 + 效果展示
把上面的步骤串起来,完整代码如下,新手可以直接抄,改改文件路径就能跑:
python
import pandas as pdimport matplotlib.pyplot as plt# 1. 加载数据data = pd.read_csv("学生成绩.csv")print("原始数据前5行:")print(data.head())# 2. 数据清洗print("\n缺失值统计:")print(data.isnull().sum())data_clean = data.dropna()print("清洗后数据量:", len(data_clean), "行")# 3. 数据分析avg_scores = data_clean[["语文", "数学", "英语"]].mean()data_clean["总分"] = data_clean["语文"] + data_clean["数学"] + data_clean["英语"]top3 = data_clean.sort_values(by="总分", ascending=False).head(3)print("\n各科平均分:")print(avg_scores)print("\n总分前三名:")print(top3[["姓名", "总分"]])# 4. 数据可视化plt.rcParams["font.family"] = ["SimHei", "WenQuanYi Micro Hei", "Heiti TC"]avg_scores.plot(kind="bar", color=["red", "green", "blue"])plt.title("各科平均分对比")plt.xlabel("科目")plt.ylabel("平均分")plt.show()运行后会在控制台看到数据统计结果,同时弹出柱状图窗口,是不是很有成就感?
四、避坑指南:新手最容易踩的 5 个坑
- 坑 1:中文乱码,图表里的中文显示成方框
解决:加上plt.rcParams["font.family"] = ["SimHei", ...]这行代码,指定中文字体,前面的案例已经加了,直接抄就行。 - 坑 2:加载数据时报 “FileNotFoundError”
检查文件路径是否正确:要么用绝对路径(C:\xxx\data.csv),要么把 CSV 文件和代码放同一个文件夹,路径只写文件名。 - 坑 3:计算总分时提示 “列名不存在”
原因:CSV 文件里的列名和代码里的不一样,比如文件里是 “语文成绩”,代码里写 “语文”,就会报错。解决:用print(data.columns)查看实际列名,保持一致。 - 坑 4:安装库时提示 “Permission denied”
权限不够,命令前加pip install --user pandas(加 --user 参数),或用管理员身份打开命令提示符。 - 坑 5:数据清洗后发现数据少了很多
如果缺失值太多,删除后数据不够用,可以用填充法:data.fillna(data.mean())用平均分填充,或data.fillna(0)用 0 填充,根据实际情况选。
网友 “数据分析小白” 分享:“第一次画图中文乱码,加了字体设置代码后就好了,原来就差这么一行代码,新手一定要注意!”
五、自问自答:数据分析入门常问的 3 个问题
- “一定要学数学才能做数据分析吗?”
不用!入门阶段会用 pandas 的mean()sum()这些现成函数就行,不用自己推导公式。当然,想深入学高级分析,数学有帮助,但新手先 focus 用工具出结果,再慢慢补理论。 - “数据可视化有必要吗?直接看数字不行吗?”
太有必要了!几百个数据看数字很难发现规律,画成图表一眼就能看出趋势,比如哪个科目平均分低、成绩分布是否集中,汇报时别人也更容易理解。 - “除了学生成绩,还能分析什么数据练手?”
很多啊!比如自己的消费记录(分析每月花在哪最多)、天气数据(分析气温变化)、电影评分数据(分析高分电影特点),网上也能下载公开数据集(比如 Kaggle 网站),找自己感兴趣的练。
结尾心得
数据分析入门真的不用怕,用对工具(pandas+matplotlib),跟着案例一步步做,零基础也能上手。兔子哥的经验是,别一开始就追求复杂模型,先把 “加载→清洗→分析→可视化” 这个流程练熟,用简单数据(比如自己造的成绩表)练手,熟悉每个步骤的代码逻辑。遇到报错别慌,90% 的问题是路径错了、列名不对或中文乱码,对照避坑指南排查,多试几次就顺了。数据分析的乐趣在于从杂乱的数据中找出规律,当你用几行代码画出漂亮的图表,发现隐藏的信息时,那种成就感超棒!现在就找份简单数据试试,你会发现数据分析原来这么有意思。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。
还木有评论哦,快来抢沙发吧~