每天一道大厂SQL题【Day26】脉脉真题实战(二)活跃时长的均值

2023-07-18 14:30:15

每天一道大厂SQL题【Day26】脉脉真题实战(二)活跃时长的均值

大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。

一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!

每日语录

C:\Users\ADMINI~1\AppData\Local\TemputoolsDoutuPlugin/tempImage1686573886875.gif

学习!还是他娘地学习!

第26题 中级题: 活跃时长的均值

1. 需求列表

昨日的活跃用户中,各个级别人才,当日最大活跃时长模块的活跃时长,占当日活跃总时长的比值的均值

思路分析

  1. 计算每个用户每天在各个模块的活跃时长总和。
  2. 找到每个用户每天活跃时长最大的模块。
  3. 计算每个用户每天活跃时长最大模块的活跃时长占当天活跃总时长的比值。
  4. 按照用户的职业水平分组,计算每组用户当天活跃时长最大模块的活跃时长占当天活跃总时长比值的均值。

答案获取

建议你先动脑思考,动手写一写再对照看下答案,如果实在不懂可以点击下方卡片,回复:大厂sql 即可。
参考答案适用HQL,SparkSQL,FlinkSQL,即大数据组件,其他SQL需自行修改。

加技术群讨论

点击下方卡片关注 联系我进群

或者直接私信我进群

附表

表1:maimai.dau

duidmoduleactive_duration列说明
2020-01-011jobs324d: 活 跃 的 日 期 uid:用户的唯一编码module:用户活跃模块actre.duration:该模块下对应的活跃时长(单位:s)
2020-01-012feeds445
2020-01-013im345
2020-01-022network765
2020-01-023jobs342

表2:maimai.users

uidcareer_levelcitywork_length列说明
1中级人才北京4uid:用户的唯一编码career level:人才级别
2高级人才上海7
3初级人才北京1city:用户所在城市work_length:用户工作年限
4普通人才平顶山2
-- 建表
-- 表1 dau	记录了每日脉脉活跃用户的uid和不同模块的活跃时长
create	or	replace	temporary	view	dau(d,	uid,	module, active_duration) as
values ('2020-01-01', 1, 'jobs', 324),
('2020-01-01', 2, 'feeds', 445),
('2020-01-01', 3, 'im', 345),
('2020-01-02', 2, 'network', 765),
('2020-01-02', 3, 'jobs', 342);

-- 表2 users 脉脉所有用户得一些注册属性
create	or	replace	temporary	view	users(uid,	career_level, city, work_length) as
values (1, '中级人才', '北京', 4),
(2, '高级人才', '上海', 7),
(3, '初级人才', '北京', 1),
(4, '普通人才', '平顶山', 2); 

文末SQL小技巧

提高SQL功底的思路。
1、造数据。因为有数据支撑,会方便我们根据数据结果去不断调整SQL的写法。
造数据语法既可以create table再insert into,也可以用下面的create temporary view xx as values语句,更简单。
其中create temporary view xx as values语句,SparkSQL语法支持,hive不支持。
2、先将结果表画出来,包括结果字段名有哪些,数据量也画几条。这是分析他要什么。
从源表到结果表,一路可能要走多个步骤,其实就是可能需要多个子查询,过程多就用with as来重构提高可读性。
3、要由简单过度到复杂,不要一下子就写一个很复杂的。
先写简单的select from table…,每个中间步骤都执行打印结果,看是否符合预期, 根据中间结果,进一步调整修饰SQL语句,再执行,直到接近结果表。
4、数据量要小,工具要快,如果用hive,就设置set hive.exec.mode.local.auto=true;如果是SparkSQL,就设置合适的shuffle并行度,set spark.sql.shuffle.partitions=4;

后记

📢博客主页:https://manor.blog.csdn.net

📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
📢本文由 Maynor 原创,首发于 CSDN博客🙉
📢不能老盯着手机屏幕,要不时地抬起头,看看老板的位置⭐
📢专栏持续更新,欢迎订阅:https://blog.csdn.net/xianyu120/category_12182595.html

更多推荐

Hive的基本SQL操作(DDL篇)

目录​编辑一、数据库的基本操作1.1展示所有数据库1.2切换数据库1.3创建数据库1.4删除数据库1.5显示数据库信息1.5.1显示数据库信息1.5.2显示数据库详情二、数据库表的基本操作2.1创建表的操作2.1.1创建普通hive表(不包含行定义格式)2.1.2创建自定义行格式的hive表2.1.3创建默认分隔符的h

FPGA原理与结构(16)——时钟IP核的使用与测试

系列文章目录:FPGA原理与结构(0)——目录与传送门一、前言本文介绍xilinx的时钟IP核ClockingWizardv6.0的具体使用与测试过程,在学习一个IP核的使用之前,首先需要对于IP核的具体参数和原理有一个基本的了解,具体可以参考:FPGA原理与结构——时钟IP核原理学习https://blog.csdn

做题(1)

1.fileinclude打开发现提示flag在flag.php里边查看页面源代码$lan=$_COOKIE['language'];这句话是关键变量lan是用cookie传参的@include("english.php");这句话表明了文件包含include函数用php伪协议filer绕过@include($lan.

[ES6]模块

[ES6]模块特点export与import基本用法导入导出基本方式导入导出等价方式html导入别名导出默认导出基本用法默认导出对象复合使用import命令的特点只读属性单例模式静态执行特性在ES6前,实现模块化使用的是RequireJS或者seaJS(分别是基于AMD规范的模块化库,和基于CMD规范的模块化库)ES6

Java 类和对象

在面向对象语言中万物皆对象,一切都围绕对象来进行,找对象、建对象,用对象等。类:把具有相同特征和行为的一组对象抽象为类,类是抽象概念,如人类、车类等,无法具体到每个实体。对象:某个类的一个实体,当有了对象后,这些特征便有了相应的值,行为也就有了相应的意义。类是描述某一对象的统称,对象是这个类的一个实例而已。有类之后就能

商城系统开发,如何确保用户数据的安全性?

确保用户数据的安全性是商城系统开发中至关重要的一项任务。随着数字化时代的到来,用户的个人信息和交易数据已成为黑客和不法分子的重要目标,因此保护用户数据的安全性对于商城系统的成功运营至关重要。在开发商城系统时,以下几个方面是确保用户数据安全性的关键要素(仅供参考)。第一点,建立严格的访问控制和权限管理机制。商城系统应该采

基于Java电动车上牌管理系统计实现(源码+lw+部署文档+讲解等)

博主介绍:✌全网粉丝30W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌🍅文末获取源码联系🍅👇🏻精彩专栏推荐订阅👇🏻不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题

基于Java电脑测评系统设计实现(源码+lw+部署文档+讲解等)

博主介绍:✌全网粉丝30W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌🍅文末获取源码联系🍅👇🏻精彩专栏推荐订阅👇🏻不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题

1、RocketMQ概述

第1章RocketMQ概述一、MQ概述1、MQ简介MQ,MessageQueue,是一种提供消息队列服务的中间件,也称为消息中间件,是一套提供了消息生产、存储、消费全过程API的软件系统。消息即数据。一般消息的体量不会很大。2、MQ用途从网上可以查看到很多的关于MQ用途的叙述,但总结起来其实就以下三点。限流削峰MQ可以

从一到无穷大 #16 ByteSeries,思考内存时序数据库的必要性

本作品采用知识共享署名-非商业性使用-相同方式共享4.0国际许可协议进行许可。本作品(李兆龙博文,由李兆龙创作),由李兆龙确认,转载请注明版权。引言在[3]中我基于Gorilla讨论了时序数据库设置cache的可行性,最后得出结论:RAM去换实时查询的高效,显著增加成本的同时增加系统复杂性。但是如果换个思路,缓存即为内

大数据开发中常用组件服务的集群管理脚本整理集合

大数据开发常用脚本整理集合大数据环境相关脚本bash运行模式说明创建shell脚本目录配置hostsSSH自动配置脚本文件同步、复制工具rsync基本用法文件同步脚步命令执行脚本节点循环简化大数据组件相关脚本Hadoop集群脚本Zookeeper集群脚本Kafaka集群脚本Flume集群脚本大数据环境相关脚本bash运

热文推荐