2023年12月14日发(作者:两厢车全部车型)
专题三 数据处理与应用
考点集训
考点一 常用表格数据的处理
1.小李获取了2020年高一段学生选考报名数据,并使用Excel软件进行数据处理,如图a所示。
图a
请回答下列问题。
(1)区域K3:K9中的数据是通过COUNTIF函数计算得到的。在K3单元格中输入公式后,利用自动填充功能完成K4:K9的计算。则K3单元格中输入的公式是 。(提示:COUNTIF(range,criteria)函数可计算某个区域中满足给定条件的单元格数目。例如:=COUNTIF(C3:C452,1)表示高一段1班的学生人数)
图b
(2)根据图a的数据,制作了图b的图表,创建该图表的数据区域是 。
(3)下列描述正确的是 。(多选,填字母)
A.选取区域A2:G452进行筛选,筛选出1班学生的数据,会影响图b的图表效果
B.若要对区域A2:G452按“组合”进行筛选,则可以选择区域A2:G2来添加筛选标记
第 1 页 共 42 页 C.若要筛选出选考选报了历史的学生,可对“组合”进行筛选包含“历史”
D.若要筛选出选考选报了历史的学生,可同时对“科目1”“科目2”和“科目3”进行筛选等于“历史”
答案 (1)=COUNTIF($D$3:$F$452,J3)或=COUNTIF(D$3:F$452,J3) (2)J2:K9 (3)ABC
2.小方收集了2019年2月部分省市社会服务统计数据,并使用Excel软件进行数据处理,如图a所示。
图a
请回答下列问题。
(1)当前工作表中仅区域A1:G16有数据,其中G4单元格正确计算了北京市占全国民政事业费累计支出的比例。小李通过G4单元格中的公式对区域G5:G16进行自动填充,则G16单元格中显示的结果是 (填字母:A.0.00/B.1.00/C.100.00/D.#DIV/0!)。
(2)上述操作后,小方发现区域G5:G16计算结果不符合要求。若要正确计算“民政事业费累计支出占比”列的数据,可先修改G4单元格中的公式,再进行自动填充,修改后G4单元格中的公式为 。
(3)将区域A2:G15的数据复制到新工作表,在新工作表中对数据进行筛选操作,设置“民政事业费累计支出(万元)”的筛选方式如图b所示,“农村最低生活保障人数(人)”的筛选方式如图c所示,则按此设置筛选出的地区有 个。
第 2 页 共 42 页 图b
图c
(4)小方想让图a中2019年2月部分省市社会服务统计表各个地区的相关数据按照城市最低生活保障人数降序排序,则下列排序方法描述正确的是 (单选,填字母)。
A.选择A1:G16,排序主要关键字为“城市最低生活保障人数(人)”,次序为“降序”
B.选择A3:G15,排序主要关键字为“城市最低生活保障人数(人)”,次序为“降序”
C.选择A4:G15,排序主要关键字为“列E”,次序为“降序”
D.选择A4:A15和E4:E15,排序主要关键字为“列E”,次序为“降序”
答案 (1)D (2)=B4/$B$16*100或=B4/B$16*100 (3)1 (4)C
3.某同学收集某书店销售及库存的统计数据,使用Excel软件处理,如图a所示。
图a
每本书对应唯一的书名编码,请回答下列问题:
(1)根据“销售清单”每本书的销售数量,计算销售小计。先在H3单元格计算“书名编码”是“A”的销量小计,并将公式自动填充到H8单元格。则H3单元格的公式是 。
(提示:SUMIF函数用于对区域中满足条件的单元格求和,例如:=SUMIF(B3:B9,B3,E3:E9),表示区域B3:B9中“书名”是《量子力学》的所有“小计”的和)
第 3 页 共 42 页 (2)H8单元格显示的结果是 (单选,填字母:A.#DIV/0! B.#VALUE! C.0)。
(3)根据图a中数据制作的图表如图b所示,下列说法正确的是 。(多选,填字母)
图b
A.创建该图表的数据区域是G5:H7
B.将图a“销售清单”中第9行的书名编码“D”改为“A”,则图表会随之变化
C.对图a“销售清单”中的数据区域A2:E9进行排序,则图表会随之变化
D.删除“图a”工作表中书名编码“A”所在的第3行,则图表不会随之变化
答案 (1)=SUMIF($A$3:$A$9,G3,$C$3:$C$9)或=SUMIF(A$3:A$9,G3,C$3:C$9) (2)C
(3)BD
4.使用Excel软件对某学校“校园文化节”节目评分进行数据处理,如图所示,回答下列问题:
(1)各大节目的得分是将“主题内容”“舞台效果”“表现演绎”“总体印象”的成绩分别乘对应的权重后相加所得。通过G3单元格中的公式,对G4:G20进行自动填充,则G3单元格中的公式是 。
第 4 页 共 42 页 (2)为了对比分析图中歌唱类各节目(主题内容、舞台效果、表现演绎、总体印象)的得分情况,需进行数据分析。
A.哪些数据是本次分析所必需的,写出数据区域: 。
B.如何分析这些数据,选用哪种图表类型: 。
(3)若要对图中舞蹈类按得分进行降序排序,需选择的排序区域是 。
答案 (1)=C3*J$3+D3*J$4+E3*J$5+F3*J$6或=C3*$J$3+D3*$J$4+E3*$J$5+F3*$J$6
(2)B2:F8;柱形图或条形图 (3)B17:G20
5.(2022诸暨海亮高中期中,16)为了响应全民健身计划,某高中对学生进行了体质健康测评,并用Excel软件进行数据处理,如图a所示。
图a
请回答下列问题:
(1)区域M2:P15 的数据是通过公式计算得到的,在M2单元格中输入公式后,再使用自动填充功能完成该区域的计算,则N3单元格中的公式是“=SUMPRODUCT(( )*($I$3:$I$553=N$1))”。
(提示:M2单元格输入公式=SUMPRODUCT((A1:A100=“2”)*(I1:I100=“优秀”)),表示同时满足A1:A100是2班和I1:I100是优秀这两个条件的情况数量,也就是进行条件计数。)
(2)根据图a中的数据制作的图表如图b所示。创建该图表的数据区域是 。
第 5 页 共 42 页 图b
(3)对图a工作表进行相关数据分析,下列说法正确的是 (多选,填字母)。
A.以“总分等级”为依据进行升序排序,选择的区域是A3:I553
B.选择“A3:I553”按照“总分等级”升序排序后,图 b 的图表不会发生改变
C.现需要选出总分等级为“不及格”的学生,可选择区域A3:I553,以“总分等级”为“不及格”进行筛选并保留结果
D.为了显示男生立定跳远得分最高的3位学生数据,可先对“性别”为“男”进行筛选,再对“立定跳远”进行筛选,选择最大的3项
答案 (1)$A$3:$A$553=$K3 (2)M1:P1,M16:P16
(3)ABC
考点二 大数据处理
1.一段Python代码及其运行结果如下。小明在代码中插入了语句\"df_del=(0)\",其余不做修改,那么运行这段修改后的代码结果为
import pandas as pd
data={\"课程\":[\"舞蹈\",\"Python\",\"数学\"],\"地点\":[\"舞蹈房\",\"计算机房\",\"教室\"],\"时长\":[\"60分钟\",\"40分钟\",\"40分钟\"]}
df=ame(data,columns=[\"课程\",\"地点\",\"时长\"])
print(df)
( )
第 6 页 共 42 页 课程
0
舞蹈
1 Python
2
数学
地点
舞蹈房
计算机房
教室
时长
60分钟
40分钟
40分钟
选项 运行结果
课程 地点 时长
0 舞蹈 舞蹈房 60分钟
A
1 Python 计算机房 40分钟
2 数学 教室 40分钟
0 舞蹈 舞蹈房 60分钟
B
1 Python 计算机房 40分钟
2 数学 教室 40分钟
课程 地点 时长
C
1 Python 计算机房 40分钟
2 数学 教室 40分钟
课程 地点 时长
D
0 Python 计算机房 40分钟
1 数学 教室 40分钟
答案 A
2.小明参加课外活动小组,对盆栽中某一枝条做好标记,记录28天内该枝条的生长情况,每周日记录一次,四次记录结果分别为8.8 cm、10.1 cm、10.9 cm、11.4 cm。他使用Python 第 7 页 共 42 页 代码制作了关于枝条长度(单位:cm)的柱形图,代码及柱形图如下所示,代码空白处应填
import as plt
import numpy as np
y=
index=(4)
(index,height=y,color=\"black\",
width=0.5)
()
( )
A.\"8.8,10.1,10.9,11.4\"
B.\"8.8\",\"10.1\",\"10.9\",\"11.4\"
C.8.8,10.1,10.9,11.4
D.[8.8,10.1,10.9,11.4]
答案 D
3.有Python程序段如下所示:
import pandas as pd
import numpy as np
a=([1,2,3,4]).reshape(2,2)
第 8 页 共 42 页 df=ame(a)
print([1,1])
该程序段运行后输出的结果为
A.4 B.3 C.2 D.1
答案 A
4.小张收集了近阶段要学习的英文单词,存储为“”文件,格式如图所示。
( )
处理“”文件中的英文单词的Python程序段如下所示:
file=\'\'
word_c=[]
n=0
for word in open(file):
if word[0:1]==\"c\":
word_(word)
print(\'字母c开头的单词个数为:\',n)
(1)划线处的代码为 。
(2)该程序段运行后,列表word_c中的数据为 。
答案 (1)n=n+1或n+=1 (2)中所有以小写字母\"c\"开头的单词
第 9 页 共 42 页 5.请在空格处填写正确的代码,使程序完善。
实现功能:绘制y=x2-2x+1的图象。
#加载numpy模块并取名为np
import numpy as np
#加载模块并取名为plt
import as plt
# x在-7到9之间,每隔0.1取一个值
x=(-7,9,0.1)
① =x**2-2*x+1
(x, ② )
(\'y=x*x-2*x+1\')
(\'x\')
(\'y\')
plt. ③
答案 ①y ②y ③show()
6.在网上搜索朱自清的文章《绿》,如图所示。
第 10 页 共 42 页 (1)搜索信息并保存为txt文件,该过程称为 。
(2)“绿.txt”文件的文本类型是 。(填写字母:A.结构化数据/B.半结构化数据/C.非结构化数据)
(3)制作标签云的代码如下:
import collections
import jieba
import wordcloud as wc
import numpy as np
from PIL import Image
wcg=oud(background_color=\"white\",font_path=\'assets/\')
text=open(\'data/绿.txt\',encoding=\'utf-8\')
read()
seg_list= ①
f=r(seg_list)
_words(f)
_file(\'output/\')
划线处①语句是调用jieba对象的cut函数对变量为text的文件进行分词,则该处语句为 。
(4)得到的标签云如图所示。
第 11 页 共 42 页 该图片的文件名是 ,表现该文本特征的是 。(至少写出3个)
答案 (1)采集信息 (2)C (3)(text)
(4);我、的、着、了、绿、你
7.(2023浙江1月选考,14,9分)小红收集了部分城市2021年全年每天PM2.5、PM10、CO浓度数据,每天的数据分别保存在以8位日期字符串命名的CSV文件中,部分文件如图a所示,每个文件记录了一天24小时的监测数据,示例如图b所示。
为统计分析城市A全年各月份PM2.5的月平均浓度(当月的日平均浓度的平均值),编写Python程序。请回答下列问题:
(1)定义pmday函数,功能为:读取某天的CSV文件,返回城市A当天PM2.5的日平均浓度。函数代码如下,划线处应填入的代码为 (单选,填字母)。
第 12 页 共 42 页 [\'类型\']==\'PM2.5\'
[\'类型\'==\'PM2.5\']
[df[\'类型\']]==\'PM2.5\'
[df[\'类型\']==\'PM2.5\']
import pandas as pd
def pmday(dayfile):
df = _csv(dayfile) #读取文件 dayfile 中的数据
df =
return df[\'城市A\'].mean() #返回城市A当天PM2.5的日平均浓度
(2)统计城市A各月份PM2.5的月平均浓度并绘制线形图,部分Python程序如下,请在划线处填入合适的代码。
import as plt
def tstr(t):
if t<10:
retrun \'0\'+str(t)
else:
retrun str(t)
pm =[0]*12
mdays=[31,28,31,30,31,30,31,31,30,31,30,31] #2021年每月天数
for m in range(12):
sm = 0
mstr = tstr(m+1)
for d in range( ① ):
第 13 页 共 42 页 dstr = tstr(d+1)
dayfile = \'2021\'+ mstr + dstr + \'.csv\'
sd = pmday(dayfile)
②
pm[m] = sm/mdays[m]
x =[1,2,3,4,5,6,7,8,9,10,11,12]
y= ③
(x,y) #绘制线形图
#设置绘图参数,显示如图c所示线形图,代码略
(3)城市A 2021年 PM2.5年平均浓度为34.6微克/立方米。由图c可知,城市A 2021年
PM2.5月平均浓度超过年平均浓度的月份共 个。
答案 (1)D (2)①mdays[m] ②sm+=sd ③pm
(3)5
专题集训
1.实时处理与批处理整合的优势有
①减少了系统开销;
②不利于降低使用成本;
第 14 页 共 42 页
( ) ③可以在同一个平台做批处理计算和流计算;
④缩短了批处理和流处理之间的切换延时时间。
A.①②③ B.①②④
C.①③④ D.②③④
答案 C
2.(2022诸暨期末,4)使用pandas编程处理数据DF1,下列选项能实现行列转置操作的是 ( )
1.T s
答案 A
3.(2022温州平阳万全中学期中,13)利用Python程序绘制函数y=sin(x)的图象。若要绘制下图所示的函数图象,则下列代码中第6行应填写的语句是 ( )
1.#绘制正弦函数y=sin(x)的图象
as plt
numpy as np
4.x=ce(0,10,1000)
5.y=(x)
第 15 页 共 42 页 6.
show()
(x,y) (y,x)
(x,y) t(x,y)
答案 A
4.(2022宁波奉化期末,9) 有如下Python程序段:
import pandas as pd
s=(range(5,11,3))
s[1]=15
print(s)
该程序执行后,输出的结果是
1 15
1 15
2 8
dtype:
int64
0 5
2 8
1 15
3 11
dtype:
dtype:
int64
int64 int64
dtype:
2 11
1 15
0 5
( )
A.
答案 B
B. C. D.
5.下列有关Hadoop计算平台的说法中,不正确的是
计算平台是一个可运行于大规模计算机集群上的分布式系统基础架构
计算平台适用于对静态数据进行处理
( )
计算平台主要包括Common公共库、HDFS、HBase、MapReduce等多个模块
计算平台也适用于对流数据的实时处理
答案 D
第 16 页 共 42 页 6.(2023届十校联盟10月联考,5)近年来,各地相继出现了一些无人售货超市,其购物流程为:通过微信号/支付宝注册→扫码或扫脸开门→选购商品→结算区显示屏清单确认(智能检测)→开门即走(智能扣款)。整个过程快捷方便,达到无感支付。超市内24小时利用摄像头监控,实行人脸识别防盗监控,发现有小偷将自动抓拍报警并列入黑名单,通过RFID技术+核心软件算法有效识别和定位货损源头,并进行有效处理和防范。此外,超市也会依靠大数据、云计算技术,对各种商品的销售状况进行汇总分析,并智能判断客户的购买习惯进行产品推荐,还能预测销售走势,给商家提供合理的建议。
根据阅读材料,下列说法正确的是
A.汇总分析前收集完成的商品销售状况数据属于流数据
B.无人售货超市依靠大数据处理只需要分析最近几个月的抽样数据
C.根据客户账号的购买习惯进行产品推荐,不需要知道用户购买商品的原因
D.无人售货超市中的每一个数据都来自真实数据,体现了大数据价值密度高的特点
答案 C
7.(2023届十校联盟10月联考,14)小明从网上下载了豆瓣图书1900—2017年间出版的图书数据,存储在Excel文件中,如图a所示,数据表已按出版年份升序排好,包含书名、作者、出版社、出版年份、价格、评分以及评论数量。他要编写一个Python程序快速对图书数据进行分析。
( )
(1)为了求评论数量累计最高的作者及其出版的图书平均评分,小明需要对图a所示的表中数据进行整理,则下列说法正确的是 (多选,填字母)。
第 17 页 共 42 页 A.第3行和第4行数据重复,删除其中一行即可
B.通过检测发现F56168单元格的数据存在错误,应进行修正
C.删除“出版社”和“出版年份”两列数据,不影响分析结果
D.“评分”及“评论数量”为0的数据没有任何价值,可以直接删除
(2)小明利用整理好的数据,编写并运行程序,结果如图b所示。
0
1
2
3
4
作者 评论数量
[日]村上春树
679101.0
[日]东野主吾
664106.0
韩寒
623116.0
郭敬明
620571.0
[英]J.K.罗琳
462476.0
评论数量累计最多的作者是:[日]村上春树
共出版了34部作品,平均评分为8.01
图b
实现上述结果的Python程序如下:
import pandas as pd
df=_excel(\"\")
df1=y(\"作者\", as_index=False)
df2=df1.评论数量.sum()
dfsort=_values(\"评论数量\" , ascending=False,ignore_index=True)
print((5))
#输出评论数量累计前五名作者
第 18 页 共 42 页 top= ①
dfbk=df[df.作者==top]
#根据作者检索出相应的作品
avg=dfbk.评分.mean()
print(\"评论数量累计最多的作者是:\", top)
print(\"共出版了\", ② ,\"部作品,平均评分为\" , round(avg,2))
则程序中划线①②处应填入的代码为:
① ;
② 。
答案 (1)BC (2)①[0,\"作者\"]或dfsort[\"作者\"][0]或其他等价答案 ②len(dfbk)或dfbk.书名.count()或dfbk[\"书名\"].count()
8.(2023届嘉兴基测,13)某次模拟考试成绩存储在“”数据文件中(如图a所示),现利用Excel软件与Python程序对这些数据进行统计分析并可视化,请根据要求回答下列问题。
(1)在Excel软件中计算每位学生的成绩总分。选择M2单元格输入公式,然后利用自动填充功能完成区域M3:M651的计算,则M2单元格的公式为=SUM( )。
(2)利用Pandas模块读取数据,统计出各选科组合的选择人数,部分程序代码如下,请在划线处填入合适的代码。
第 19 页 共 42 页 df= excel(\"\")
df1=y(\"选科\",as_index=False)
df2=df1.学号. #统计各选科组合的人数
df2=(coums={\"学号\":\"人数\"})
(3)为了获取选科人数最多的前8个组合,结果如图b所示,部分程序代码如下,则程序划线处的代码可行的是 (多选:填字母)。
3=_values(\"人数\").tail(8)
3=_values(\"人数\").head(8)
3=_values(\"人数\",ascending=Flase)[0:8]
3=_values(\"人数\",ascending=Flase).head(8)
第 20 页 共 42 页 (4)对处理后的数据进行可视化操作,结果如图c所示,部分程序代码如下,请在划线处填入合适的代码。
( ) #绘制柱形图
(\"选科人数最多的前8个组合\")
#设置图表标题
()
答案 (1)C2:L2 (2)count( ) (3)CD (4)df3.选科,df3.人数 或df3[\"选科\"],df3[\"人数\"]
9.(2022宁波咸祥中学期中,16)小明收集了某超市饮料销售情况相关数据,并使用Excel软件进行处理,如图a所示。
图a
请回答下列问题:
(1) 区域 I3:I15 的数据是通过公式计算得到的。在I3单元格输入公式后, 用自动填充功能完成 I4:I15 的计算,则I3单元格中的公式是 。 (占销售总额百分比=销售额(元)/销售总额(元))
(2)若因误操作将 I16 单元格删除,则 I3 单元格会显示 (选填字母:A.#VALUE
B.#DIV/0! C.###### D.#REF! )。
(3)要将类别为“可乐”的饮料以“毛利润(元)”为主要关键字降序排序, 则选择排序的区域为 。
第 21 页 共 42 页 (4)小王根据图 a 中的数据,制作了一张反映橙汁类饮料销售额和毛利润对比的图表,如图b 所示,则建立该图表的数据区域是 。将E8单元格数值修改成6.00,是否会影响该图表? (选填:是/否)
图b
答案 (1)=G3/$I$16或=G3/I$16 (2)B
(3)B8:I11 (4)B2,G2:H2,B5:B7,G5:H7;否
10.小王收集了某校主要电教财产数据,并用Excel软件进行数据处理,如图a所示。请回答下列问题:
图a
(1)在F4单元格中输入公式如图a所示,用自动填充功能完成F5:F16的计算,结果出现了错误,为了解决这个问题,应将F4单元格中的公式更改为 。
(2)根据图a中数据制作的图表如图b所示,创建该图表的数据区域是 。
第 22 页 共 42 页 图b
(3)小王按要求对数据进行分析,下列说法正确的是 。(多选,填字母)
A.在B3单元格设置“文本筛选”,条件是包含“机”,再以“单价”为最大1项进行筛选,筛选结果为“摄像机”
B.选中B3:F15数据,以“单价”为关键字降序排序,再在B3单元格设置“文本筛选”,条件是包含“机”,排在最前面的为“摄像机”
C.选中B3:F15数据,以“单价”为关键字升序排序,则图b中图表会发生变化
D.将D4:D16中单元格的数字格式保留0位小数,则图b中图表会发生变化
答案 (1)=E4/$E$16*100或=E4/E$16*100 (2)B4:B15,D4:D15 (3)BC
11.(2022杭州重点中学期中,13)小萧从国家统计局网站上收集了近几年国民总收入相关数据,并使用Excel软件进行相关数据处理与分析。部分界面如图a所示,请回答下列问题:
图a
(1)下列关于数据整理的描述,正确的是 (单选)。
A.某些缺失的数据可以自己随意估计一个值进行补充
表格中的异常数据可以直接删除或忽略
第 23 页 共 42 页 表格中的重复数据可以进行合并或删除
中格式不一致的数据,一般只保留一种格式的数据,删除其他格式的数据
(2)图b的图表数据类型为 (选填:柱形图/条形图/折线图)。
图b
(3)根据表格数据呈现,从2017年开始可以计算国民总收入增长比例,方法是在C8单元格输入公式 (计算公式:(当年国民总收入-去年国民总收入)/去年国民总收入),设置百分比格式后自动填充至F8单元格。
(4)除了Excel,可以进行数据分析的软件还有 (多选,填数字)。
①Word ②SPSS ③SAS ④MATLAB
⑤记事本 ⑥Python ⑦录音机
答案 (1)C (2)柱形图 (3)=(C2-B2)/B2
(4)②③④⑥
12.(2022台州启超中学期中,16)APP活跃人数数据存储在“”文件中,如图所示,现要编程统计结果,请回答下列问题:
第 24 页 共 42 页 若要把“”第1张工作表中的信息导入到book1对象中,并进行统计,实现这个功能的Python代码如下,在程序划线处填入合适的代码。
import pandas as pd
book1= (1) #读取文件数据,并存储在book1对象中
book1_sum= (2)
#计算10月人数之和
book1_aver= (3)
#计算11月人数平均值
book1_g= (4)
#按应用领域分组统计
book1_sort= (5)
#按11月人数值,降序排序
print(\"10月人数之和:\",book1_sum)
print(\"11月人数平均值:\",book1_aver)
答案 (1)_excel(\"\") (2)book1[\"10月人数\"].sum() (3)book1[\"11月人数\"].mean()
第 25 页 共 42 页 (4)y(\"应用领域\")
(5)_values(\"11月人数\",ascending=False)
13.(2021衢州期末,15)小强开展网上直播售货,为此购买了以下直播硬件设备:
①手机 ②耳机 ③自拍杆 ④数码照相机 ⑤背景画 ⑥无线路由器
请回答下列问题:
(1)在购买的直播硬件设备中,属于模数转换设备的是 (多选,填序号)。
(2)小强选择借助某著名直播平台售货,根据直播平台要求,直播画面是1080×1920像素、24位真彩色、帧频为25fps,视频压缩比为100∶1,在不考虑视频传输优化的情况下,问小强家目前10Mbps的宽带 (选填:能/不能)满足直播要求。请列式证明 。
(3)小强将某一天的售货情况从平台导出,保存为文件。数据已按“流水号”升序排序,如图a所示。流水号为2019030602的售货记录中,已成交的商品类别数是
(填写数字),该流水号的总利润是 元(填写数字,保留1位小数)。
图a
(4)为了快速了解各类别商品的利润,小强用Python编程处理。处理的结果界面如图b所示。部分代码如下,请在划线①②处填写合适的代码。
第 26 页 共 42 页 图b
import pandas as pd
import numpy as np
import as plt
detail=_excel( ① )
print(detail)
for i in range(len(detail[:])):
if detail[\'成交与否\'][i]==1:
detail[\'lirun\']= ②
dg=detail[[\'类别\', \'lirun\']].groupby(by=\'类别\')
print(\"总利润\",detail[\'lirun\'].sum())
#数据可视化代码略
答案 (1)①④ (2)不能;1080×1920×24×25×1/1024/1024/100≈11.9Mbps,大于网络传输带宽10Mbps,所以不能满足直播要求 (3)1;2或2.0 (4)① \'shqk. xlsx\'或\"shqk. xlsx\" ②
(detail[\'售价\']-detail[\'进价\'])*detail[\'数量\']
14.(2022宁波奉化期末,14)小孙收集了2016年到2020年的各地区粮食生产总量并存储在“”文件中,如图a所示,现使用Python对其进行数据处理,并实现数据可视化,绘制的图表如图b所示。
第 27 页 共 42 页 图a
图b
实现如上功能的代码如下,请回答以下问题。
import pandas as pd
import as plt
(\'font\', **{\'family\': \'SimHei\'})
#设置中文字体
df=_excel(\"\")
df. ① (\"2020年\",ascending=False,inplace=True)
df1=(10)
x= ②
y=df1[\"2020年\"]
(figsize=(8,6))
第 28 页 共 42 页 plt. ③ (\"2020年粮食产量TOP10\")
(x,y,label=\"2020年\")
(\"地区\")
()
④
(1)请在划线处填入合适的代码语句,以实现以上功能。
(2)代码语句“(x,y,label=\"2020年\")”的功能为绘制如图b所示的图像,能够实现相同功能的语句是 (多选题,少选得1分,多选不得分)。
(10).plot(\"地区\",\"2020年\")
[:10:].plot(\"地区\",\"2020年\",kind=\"bar\")
(x,y,label=\"2020年\",kind=\"bar\")
(\"地区\",\"2020年\",label=\"2020年\")
(\"地区\",\"2020年\",kind=\"bar\")
答案 (1)①sort_values ②df1[\"地区\"] 或 df1.地区
③title ④() (2)BE
15.(2022杭州八县市区期末,16)某次测试的Excel文件成绩表如图1所示。
图1
第 29 页 共 42 页 (1)已知有200名同学参加了本次测试。小明想把全体同学的信息平均分放在D202单元格,那么在 D202单元格输入的公式为 。
(2)现在要求用Python增加“总分”列数据,然后求每个班总分的平均分(如图2),最后绘制每班总分平均分的垂直柱形图(如图3)。请在程序划线①②处选择合适的代码(填字母)。
图2
图3
import pandas as pd
import as plt
#图表中文显示处理,代码略
df=_excel(\"\")
score=[]
for i in :
js= ① #①处请选择(填字母): [\"信息\"]+df[\"通用\"]/B.i[3]+i[4]
(js)
df[\"总分\"]=score
第 30 页 共 42 页 df1=y(\"班级\".as_index=False)[\"总分\"].mean()
(\"期中技术平均分\")
plt. ② (df1[\"班级\"],df1[\"总分\"],width=0.5)
//r
答案 (1)=AVERAGE(D2:D201) (2)①B ②B
16.(2022丽水期末,13)小明收集了本周信息技术学科学习评价的数据,如图所示。
#②处请选择(填字母):
(1)观察上表小明做了如下操作,其中属于数据整理的是 (多选,填字母)。
A.删除重复行第五行
B.验证并修改D2单元格数据
C.通过公式计算全班平均分
D.重新设置C3单元格格式
(2)为了分析每个组的平均分,设计了如下Python程序。
import pandas as pd
import as plt
df=_excel(\"成绩表.xlsx\")
print(df1)
划线处的代码应为 (单选,填字母)。
1=y(\"平均分\").mean()
1=()
1=y(\"小组\").mean()
第 31 页 共 42 页 1=df[\"小组\"].mean()
(3)利用Python程序绘制各小题得分率图表,如图所示。
请在划线处填写合适的代码。
num=int(input(\"请输入小组:\"))
(figsize=(10,5))
list=[]
for i in range(12):
s=\"题\"+str(i+1)
([num,s]*50)
(range(1,13),list)
(str(num)+\" \")
(\"question number\")
(\"correct rate\")
()
答案 (1)ABD (2)C (3)group
17.(2022杭州场口中学、桐庐富春中学3月检测,16)在月考之后,学校教务员拿到了高一年级月考的基础成绩并用Excel软件进行数据处理,如图1所示。请回答下列问题:
第 32 页 共 42 页 图1
(1)区域M2:M645的数据是通过在M2单元格输入公式并自动填充得到的,则M645单元格中的公式是 。
(2)为了分析各班级的数学平均分,设计了如下Python程序,利用其绘制各班数学平均分图表,如图2所示:
图2
结合上图的效果,请在下面划线处填写合适的代码。
import as plt
import pandas as pd
df=_excel(\'高一月考成绩.xlsx\')
df1=y(\"班级\"). ①
(, ② )
(\"高一各班数学平均分\")
(40,100)
第 33 页 共 42 页 ( ③ )
(\"分数\")
()
答案 (1) =SUM(D645:L645) (2)①mean() ②df1.数学 ③ \"班级\"
18.某市普通高中选科数据如图1所示,学生从地理、化学、生物等科目中选择三门作为高考选考科目,“1”表示已选择的选考科目。使用Python编程分析每所学校各科目选考的总人数、全市各科选考总人数及其占比,经过程序处理后,保存结果如图2所示。
图1
图2
import pandas as pd
import itertools
#读数据到pandas的DataFrame结构中
df= ① (\"\",sep=\'.\',header=\'infer\',encoding=\'utf-8\')
km=[\'物理\',\'化学\',\'生物\',\'政治\',\'历史\',\'地理\',\'技术\']
第 34 页 共 42 页 zrs=len()
#按学校分组计数
sc=y(\' ② \',as_index=False).count()
#对分组计数结果进行合计,合计结果转换为DF结构并转置为行
df_sum=ame(data=()).T
df_sum[\'学校代码\']=\'合计\'
#增加\"合计\"行
result=(df_sum)
#百分比计算
df_percent=df_sum
df_percent[\'学校代码\']=\'比例\'
for k in km:
per=df_[0,k]/zrs
df_percent[k]=per
#增加\"百分比\"行
result=(df_percent)
#删除\"姓名\"列
result= ③
#修改\"学生编号\"为\"总人数\"
result=(columns={\'学生编号\':\'总人数\'})
#保存结果,创建Excel文件
_excel(\"学校人数统计.xlsx\")
(1)请在划线处填入合适的代码。
第 35 页 共 42 页 ① ;② ;③ 。
(2)加框处语句的作用是 。
答案 (1)①_csv ②学校代码
③(\'姓名\',axis=1)
(2)将总人数存储到zrs中
19.(2022金华十校期末,15)2021年第6号台风“烟花”于7月18日凌晨2点钟在西北太平洋洋面上生成,中央气象台气象卫星实时采集台风的运行情况的数据集。该数据集包含时间、风速、经度、纬度、强度等信息,数据集的文件名为“烟花数据.csv”,部分内容如图1所示。利用Python分析数据,并实现数据的可视化。
图1
第 36 页 共 42 页 图2
(1)为了直观地表示出台风运行情况,将路径上经度、纬度、风速、强度四个维度的关联性可视化,效果如图2所示,应选择的图像类型是 (选填:A.饼图/B.气泡图/C.雷达图)。
(2)为了更进一步对台风的数据整理和分析,利用pandas模块编程实现以下三个功能,效果如图3所示。
图3
1)找出最长的一段风速持续上升的时间;
2)计算台风“烟花”在“超强台风”状态下的平均风速;
3)找出台风“烟花”风速最大的10个时刻。
实现上述功能的Python程序如下,请在划线处填入合适的代码:
import pandas as pd
df=_csv(\"烟花数据.csv\")
s1=df[\"风速\"] #将DataFrame 中\"风速\"列的数据读到s1中
cnt=1;maxlen=1
n=len(s1)
for i in range(1,n):
if ① :
第 37 页 共 42 页 cnt+=1
else:
if cnt>maxlen:
maxlen=cnt
cnt=1
print(\"1.最长连续上升时长:\",maxlen)
df1=y( ② ,as_index=False).mean()
for a in :
if a[0]==\"超强台风\":
print(\"2.超强台风状态下平均风速:\", a[1])
break
df_sort=_values(\"风速\" ,ascending=False)
print(\"3.风速最大的10个时刻:\")
print( ③ )
答案 (1)B (2)①s1[i]>s1[i-1]或[i,\"风速\"]>[i-1,\"风速\"] ②\"强度\"
③df_sort[0:10]或者df_(10)或其他等价答案
20.(2022湖州三贤联盟期中,14)小张同学为了更好地了解冬奥会,从网上收集了历届冬奥会各个项目比赛信息,收集到的部分数据如图1所示。
图1
第 38 页 共 42 页 图2
为分析数据,小张编写了如下程序:
import pandas as pd
import as plt
from import MultipleLocator
ms[\'-serif\']=[\'SimHei\'] #正常显示中文标签
df=_csv(\"\")
#删除所有未获得奖牌的记录,并将奖牌列中的\"G\"修改为\"金牌\",\"S\"修改为\"银牌\",\"B\"修改为\"铜牌\"
jp={\'G\':\'金牌\',\'S\':\'银牌\',\'B\':\'铜牌\'}
for i in :
if ① :
df=(i)
else:
[i,\'奖牌\']=jp[[i,\'奖牌\']]
#对输入国家每届的奖牌数进行统计,并制作相应图表,如图2所示
nt=input(\"请输入国家名称:\")
df1=df[df[\'国家\']==nt]
第 39 页 共 42 页
df3=ame(df2) #将分组后数据生成新的二维结构,索引为“届次”,列标题为“奖牌”
x=
y= ②
(nt+\"历届冬奥会奖牌趋势图\")
plt. ③ (x,y)
()
(1)在划线处填上合适的代码。
(2)为了能显示某国历届冬奥会奖牌变化,需在加框处添加的语句为 (多选)。
2=y(\'奖牌\')
df2=df1.届次.count()
2=y(\'届次\')
df2=df2[\'奖牌\'].count()
2=y(\'奖牌\')[\'届次\'].count()
2=y(\'届次\').奖牌.count()
答案 (1)①[i,\'奖牌\']==\'0\'或 df.奖牌[i]==\'0\'或 df[\'奖牌\'][i]==\'0\' ②df3[\"奖牌\"]或 df3.奖牌 ③plot (2)BD
21.2017年,我国政府发布了《新一代人工智能发展规划》文件,将该规划内容存储在“”文件中,如图1所示,处理“”文件中的数据产生“”文件,如图2所示。
第 40 页 共 42 页 图1
图2
(1)文件“”中的数据为 。(选填:结构化数据/半结构化数据/非结构化数据)
(2)处理文件“”中的数据生成“”文件的过程,一般称为 。
(3)编写如下Python程序段,读取“”文件中的数据,并统计其中各词语(2个及以上文字构成)出现的次数,在划线位置填写合适的代码,完善程序。
f=open(\"\",\"r\",encoding=\"utf-8\").read() #打开文件
words=():counts={} #建立空字典,用于存放词语及其出现的次数
for word in words:
if len(word)>=2:
counts[word]= ① #出现次数为1
word_list=list(()) #字典转化为列表
word_(key=lambda x:x[1], reverse=True) #按词语出现次数降序排序
for i in range(20):
#显示前20个词语及出现次数
word,times= ②
print(word,times)
程序中划线处代码应为:
① ;
第 41 页 共 42 页 ② 。
(4)根据统计的词频制作的标签云如图所示,标签云中最能体现“”中文本特征的词有 。
(写出3~5个)
答案 (1)非结构化数据
(2)中文分词或分词
(3)①(word,0)+1 ②word_list[i]
(4)人工智能、技术、发展、应用、基础、创新等
第 42 页 共 42 页
更多推荐
数据,进行,所示,代码,图表
发布评论