安徽范冰冰 4星
共回答了425个问题 评论
1)细心观察会发现生活中处处蕴含统计学,但是如何去理解这些数据背后的意义,这时候就要用到统计分析的方法,常用的有四种方法,平均值,四分位数,标准差,标准分
1 .平均值 :容易被异常值影响,不能发现数据整体意义。
2.四分位数:常用于找出异常值,但不能表示波动情况。
3.标准差:常用来分析数据波动情况。
4.标准分:主要用来计算出某个数值在数据中的相对位置
现在两张表,表1购买商品信息,表2婴儿信息
数据来源 阿里巴巴天池 tianchi.aliyun.com/data
表1数据集共有29971条记录,有7个字段,分别为:
user_id:用户id,购买用户的id。是用户的唯一识别码,不可重复,如果user_id相同,则为同一个用户;
auction_id:商品编号
cat_id:商品二级分类ID,品类。例如,衣服和下面的上衣的关系;
cat1:商品一级分类ID,
property:商品属性,商品基本参数规格,(属性值可以是大小,可以是尺码、毫升等数字,还可以指品牌等,一切可以描述商品特征的都可以称为属性值)
buy_mount:商品的购买数量;
day:购买时间,精确到“天”。
表2数据集共有953条记录,3个字段,分别为:
user_id:用户id,购买用户的id,可与表一匹配;
birthday:出生日期,可以换算成婴儿年龄,可以分析各年龄段的用户行为。
gender:性别(0 男性;1 女性;2 unknown)
2)通过以上两张表,能从数据集中分析哪些问题?
(1) 分析商品分类不同时期的销售趋势
(2)不同年龄/性别的婴儿对商品偏好
(3)用户的复购情况,
第一个问题,利用数据集中的购买时间,商品一级分类,商品二级分类,可以分析出不同时期的热销品和滞销品
第二个问题,通过出生日期,性别,购买的商品来分析是否对商品有偏好
第三个问题,通过用户id,购买商品的次数,来分析用户复购情况。
19小时前
猜你喜欢的问题
5个月前1个回答
5个月前1个回答
5个月前1个回答
5个月前2个回答
5个月前1个回答
5个月前2个回答
热门问题推荐
2个月前2个回答
1个月前1个回答
2个月前2个回答
2个月前1个回答
1个月前1个回答
1个月前3个回答
3个月前2个回答
3个月前1个回答
4个月前1个回答