菜谱网站(疫情菜谱网站)

2022-12-12 11:40:03 发布:网友投稿 作者:网友投稿
热度:93


数据获取

豆果美食网的数据爬取比较简单,本次爬取的数据范围为川菜、粤菜、湘菜等八个中国菜系,包含菜谱名、链接、用料、评分、图片等字段。

豆果美食网

限于篇幅,仅给出核心代码。

1#主函数 2defmain(x): 3url='https:///caipu/{}/0/{}'.format(caipu,x*20) 4print(url) 5html=get_page(url) 6parse_page(html,caipu) 7 8if__name__=='__main__': 9caipu_list=['川菜','湘菜','粤菜','东北菜','鲁菜','浙菜','湖北菜','清真菜']#中国菜系10start=time.time()#计时11forcaipuincaipu_list:12foriinrange(22):13#爬取多页14main(x=i)15time.sleep(random.uniform(1,2))16print(caipu,"第"+str(i+1)+"页提取完成")17end=time.time()18print('共用时',round((end-start)/60,2),'分钟')数据清洗

短短几分钟就爬下了3032个菜谱信息,为了方便可视化分析,还需要对爬取的数据进行简单清洗。

本文数据清洗主要用到Python的Pandas库。

导入数据

用pd.read方法导入爬取到的菜谱数据,并添加列名。 预览数据如下:

删除重复项

爬虫过程中少量菜谱数据被重复抓取,需要用drop_duplicates方法删除。

缺失值处理

通过info方法发现少量记录含有缺失值,用dropna方法删除。

评分字段清洗

爬取的评分字段含有多余的字符串且为object类型,需要替换多余字符串并转换为数字类型,方便后续计算。

添加用料数字段

为方便菜谱用料分析,需要根据用料字段计算出每个菜谱的用料数量。 由于用料字段都是以逗号分隔,计算逗号数即可间接得到。

数据可视化

本文数据可视化主要用到pyecharts库,它能轻松实现酷炫的图表效果。

菜谱评分分布1frompyechartsimportoptionsasopts 2frompyecharts.chartsimportPage,Pie 3cut=lambdax:'4分以下'ifx<4else('4.1-4.5分'ifx<=4.5else('4.6-4.9分'ifx<=4.9else'5分')) 4df['评分分布']=df['评分'].map(cut) 5df2=df.groupby('评分分布')['评分'].count() 6df2=df2.sort_values(ascending=False) 7df2=df2.round(2) 8print(df2) 9c=(10Pie()11.add(12"",13[list(z)forzinzip(df2.index.to_list(),df2.to_list())],14radius=["20%","80%"],#圆环的粗细和大小15rosetype='area'#玫瑰图16)17.set_global_opts(18title_opts=opts.TitleOpts(title="菜谱评分分布"19),20legend_opts=opts.LegendOpts(21orient="vertical",pos_top="5%",pos_left="2%",textstyle_opts=opts.TextStyleOpts(font_size=14)#左面比例尺22),232425)26.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%",font_size=18),27)28)29c.render_notebook()

菜谱评分分布玫瑰图

豆果美食网菜谱评分实行5分制。 由上图可知,4分以下的菜谱占比不到2%,满分菜谱高达32.6%,可见用户对中国菜系菜谱评价普遍较高。

各菜系菜谱数量对比1frompyechartsimportoptionsasopts 2frompyecharts.chartsimportPage,Pie 3df2=df.groupby('菜系')['评分'].count()#按菜系分组,对评分计数 4df2=df2.sort_values(ascending=False)#降序 5print(df2) 6c=( 7Pie() 8.add("",[list(z)forzinzip(df2.index.to_list(),df2.to_list())]) 9.set_global_opts(title_opts=opts.TitleOpts(title="各菜系菜谱数量占比",subtitle="数据来源:豆果美食"))10.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{c}"))11)12c.render_notebook()

各菜系菜谱数量占比饼图

由上图可知,川菜和粤菜菜谱数量较多,显示出作为中国“八大菜系”成员的地位。 湖北菜和清真菜菜谱数量较少,相对更为小众。

各菜系评分对比1frompyechartsimportoptionsasopts 2frompyecharts.chartsimportPage,Pie 3df2=df.groupby('菜系')['评分'].mean() 4df2=df2.sort_values(ascending=False) 5df2=df2.round(2) 6print(df2) 7c=( 8Pie() 9.add(10"",11[list(z)forzinzip(df2.index.to_list(),df2.to_list())],12radius=["40%","75%"],#圆环的粗细和大小13)14.set_global_opts(15title_opts=opts.TitleOpts(title="各菜系平均评分"),16legend_opts=opts.LegendOpts(17orient="vertical",pos_top="5%",pos_left="2%"#左面比例尺18),19)20.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{c}"))21)22c.render_notebook()

各菜系平均评分环状图

由上图可知,各菜系评分非常接近,用户平均评分都在4.6分以上。 相对一致的评分,导致通过用户评分来评价菜谱的可信度降低。

各菜系用料数量对比frompyecharts.chartsimportBar,Piefrompyechartsimportoptionsasopts df1=df.groupby('菜系')['用料数'].mean()#按菜系分组,对评分计数 df1=df1.sort_values(ascending=False)#降序 df1=df1.round(0) print(df1) bar=Bar() bar.add_xaxis(df1.index.to_list()) bar.add_yaxis("用料数量",df1.to_list())bar.set_global_opts(title_opts=opts.TitleOpts(title="各菜系用料数量",subtitle="数据来源:豆果美食"))bar.render_notebook()

各菜系用料数量柱状图

由上图可知,川菜和东北菜用料较足。 川菜素有取材广泛、调味多、菜式多样等特点,虽然东北菜没有排在传统的“八大菜系”中,但豪迈热情的东北人从不吝啬菜肴里的用料。

粤菜更注重菜品的原味鲜香,具有清、鲜、爽、嫩、滑等特色,因此用料相对更少。 清真饮食风俗源于伊斯兰教,部分食材属于禁忌物,因此用料也不多。

川菜用料分析#绘制词云图text1=get_cut_words(content_series=df[df['菜系']=='川菜']['用料'])stylecloud.gen_stylecloud(text=''.join(text1),max_words=1000,collocations=False,font_path='字酷堂清楷体.ttf', icon_name='fasfa-thumbs-up', size=653,output_name='./川菜.png')Image(filename='./川菜.png')

川菜用料词云图

由川菜用料词云图可知,川菜主要用料包括花椒、豆瓣酱和干辣椒。 不怕辣的四川人喜好种植花椒,四川火锅也因为有了花椒的加入更有吸引力,千千万万的海内外寻味者奔涌相随。

料实材真,一般都能出美味。 川菜用料最足的菜谱为川味砂锅之足不出户的麻辣烫,共用料35种。

川味砂锅之足不出户的麻辣烫

用料明细:毛肚,黄喉,鲜牛肉片,自制肉,鸭血,金针菇,平菇,豆芽,苕粉,冬笋片,白菜,莴笋叶,鹌鹑蛋(煮熟剥壳),猪骨汤,猪油,牛油,植物油(菜油上佳),姜片,大粒的蒜,郫县豆瓣,八角,茴香,桂皮,丁香,陈皮,香叶,白胡椒粉,冰糖,生抽,盐,葱结,花椒,干辣椒,鸡精丸,午餐肉

粤菜用料分析

粤菜用料词云图

由粤菜用料词云图可知,粤菜主要用料包括胡椒粉、五花肉和白糖。 粤菜的圣地在顺德,粤菜注重质和味,口味相对清淡,力求清中求鲜、淡中求美。

粤菜用料最足的菜谱为广式肠粉,共用料23种。

广式肠粉

用料明细:粉浆用料,粘米粉(米打的粉),澄面(小麦淀粉),土豆淀粉,粟米粉(玉米淀粉),水,酱汁用料,独头蒜,大蒜籽,姜片,香菜(不吃香菜的可用葱代替),鸡汤,鲜味生抽,老抽,蚝油,蜂蜜,鱼露(可不放),鸡精(个人喜欢就放,不放也很鲜了),水,肠粉里面放的料,肉末,鸡蛋,生菜叶

湘菜用料词云图

湘菜用料词云图

由湘菜用料词云图可知,湘菜主要用料包括辣椒、大蒜、花椒等。 辣不怕的湖南人以辣椒为生,尤其以剁椒出名。 J哥虽不是湖南人,但在湖南待了几年后,目前也成了个胖子。 美食虽美,可不要贪多哦~

湘菜用料最足的菜谱为麻辣卤鸭三件,共用料20种。

麻辣卤鸭三件

用料明细:鸭爪(清水泡一小时),鸭翅膀(清水泡一小时啊),鸭肠(洗干净后捆成一个个小捆),白芷,桂皮,香叶,大料(两个焯水用,三个卤用),干辣椒(根据个人喜辣程度放),小茴香,花椒,麻椒,草果,生姜(一块焯水去味用,一块卤用),蒜瓣(全部去皮),辣椒酱(根据个人喜辣放),老抽,生抽,料酒,白糖,盐

东北菜用料词云图

东北菜用料词云图

由东北菜用料词云图可知,东北菜主要用料包括土豆、面粉、胡萝卜等。 东北菜在做法上也融合了一些宫廷菜点和汉族饮食所长,利用东北特产原料和纯绿色食品原料。 土豆和胡萝卜在黑土地的孕育下为东北菜源源不断输送着美味配方。

东北菜用料最足的菜谱为翡翠白菜水饺,共用料20种。

翡翠白菜水饺

用料明细:面皮制作,面粉(绿色面团所用),面粉(白色面团所用),小白菜叶(取汁),清水,馅料制作,猪五花肉,大白菜,胡萝卜,葱碎,姜沫,盐,生抽,老抽,蚝油,芝麻油,糖,鸡精,花椒粉,花生油

湖北菜用料词云图

湖北菜用料词云图

由湖北菜用料词云图可知,湖北菜主要用料包括糯米、花椒、面粉等。 千湖之省湖北坐落于江汉平原,同时作为重要的商品粮基地,从来不缺美食原料。

湖北菜用料最足的菜谱为家常美味——香菇鸡肉面,共用料23种。

家常美味——香菇鸡肉面

用料明细:鸡脯肉或鸡腿肉,香菇,刀削面或宽面,芹菜,青菜,郫县红油豆瓣,葱,姜,蒜,干辣椒,花椒,八角,老抽,生抽,料酒,淀粉,蛋清,十三香,白胡椒,鸡精,盐,蒜苗,香菜

浙菜用料词云图

浙菜用料词云图

浙菜主要用料包括白糖、冰糖、胡椒粉等。 俗话说“上有天堂,下有苏杭”,素有鱼米之乡之称的浙江,赋予了浙菜丰富的原料。 浙菜菜式小巧玲珑,菜品甜而不腻。

浙菜用料最足的菜谱为经典糖醋排骨,共用料17种。

经典糖醋排骨

用料明细:猪肋排,小葱段(煮排骨用),姜(煮排骨用),料酒(煮排骨用),冷水,绵白糖,米醋,香醋,老抽,盐,绵白糖(浇汁用),米醋(浇汁用),香醋(浇汁用),淀粉(浇汁用),温水(浇汁用),食用油,熟白芝麻

鲁菜用料词云图

鲁菜用料词云图

鲁菜主要用料包括面粉、胡萝卜、蚝油等。 鲁菜讲究原料质地优良,以本地用料为主。 作为我国第二大小麦主产区,能够为面粉的制作提供充足的储备,同时还盛产胡萝卜、大白菜等蔬菜,成为鲁菜常用的配菜来源。

鲁菜用料最足的菜谱为大白菜炖牛肉,共用料28种。

大白菜炖牛肉

用料明细:炖牛肉,牛肉,葱姜,小香葱,冰糖,八角,草果,小茴香,香叶,干辣椒,蒜,洋葱,油,生抽,甜面酱,番茄酱,盐,清水,啤酒,大白菜炖牛肉,大白菜,熟牛肉,牛肉汤,粉丝,食用油,葱花,水淀粉,盐

清真菜用料词云图

清真菜用料词云图

清真菜主要用料包括蛋白、蛋清、面粉等。 在我国,包括回族、维吾尔族、哈萨克族等10个少数民族具有清真饮食习惯,清真菜最突出的特点在于饮食禁忌比较严格,因此在用料上明显与其他菜系有所区别。 清真菜的口味偏重咸鲜,汁浓味厚,肥而不腻,嫩而不膻。

清真菜用料最足的菜谱为糖醋蛋白肉,共用料15种。

糖醋蛋白肉

用料明细:蛋白肉,尖椒,小米椒,蒜瓣,小葱,食用油,糖,醋,蒸鱼豆豉,生抽,黄酒,番茄酱,淀粉,清水,盐

结语

如果你觉得没有吃够,请大家 点赞、分享、留言 下,因为这将是我持续输出更多优质文章的最强动力!

更多爬虫、数据分析、全栈开发、人工智能学习资料自取私信@林夕编程回复关键词可自动获取本文所用代码和数据集

下一篇:石竹图片(石竹图片大全)
上一篇:由于(由于行为人的过失引起火灾)