【数据结构】TOP-K问题/使用堆解决

2023-09-14 20:52:04

在这里插入图片描述

💐 🌸 🌷 🍀 🌹 🌻 🌺 🍁 🍃 🍂 🌿 🍄🍝 🍛 🍤
📃个人主页 阿然成长日记 👈点击可跳转
📆 个人专栏: 🔹数据结构与算法🔹C语言进阶
🚩 不能则学,不知则问,耻于问人,决无长进
🍭 🍯 🍎 🍏 🍊 🍋 🍒 🍇 🍉 🍓 🍑 🍈 🍌 🍐 🍍

TOP-K问题

一、题目描述

假设有一亿个数据,内存存储不下,而我们只需要这一亿个数据中最大的前K个。

二、 思路:

1.:存前K个数据入堆
从第二个开始,每存储一个数据进来,就对其进行向上调整,使其一直保持为小堆。直到k-1个节点停止存储。
2.再从第K+1个数据开始读取
此时读取的数据就不再往堆中插入了,而是与堆顶元素进行比较,如果比堆顶大,那么就替换堆顶元素,然后进行基于小堆的向下调整。
3.所有数据读取完毕,堆中剩余的K个就是最大的K个数据

三、代码实现

1.随机产生一万个数据,存入文件中。

void CreateNDate()
{
	// 造数据
	int n = 10000000;
	srand(time(0));
	const char* file = "data.txt";
	FILE* fin = fopen(file, "w");
	if (fin == NULL)
	{
		perror("fopen error");
		return;
	}

	for (int i = 0; i < n; ++i)
	{
		int x = (rand() + i) % 10000000;
		fprintf(fin, "%d\n", x);
	}

	fclose(fin);
}

2.找前K个最大值

void PrintTopK(const char* filename, int k)
{
 建堆/用a中前k个元素建堆
	FILE* fout = fopen(filename, "r");
	if (fout == NULL)
	{
		perror("fopen fail");
		return;
	}
开辟K个元素空间
	int* minheap = (int*)malloc(sizeof(int) * k);
	if (minheap == NULL)
	{
		perror("malloc fail");
		return;
	}
将前k个元素读入数组minheap
	for (int i = 0; i < k; i++)
	{
		fscanf(fout, "%d", &minheap[i]);
	}
 用前k个数建小堆,使用从下到上的向下调整方法建堆。
k-1下标的双亲节点是(k-1-1/2for (int i = (k - 2) / 2; i >= 0; --i)
	{
		AdjustDown(minheap, k, i);
	}


将剩余n-k个元素依次与堆顶元素交换,不满足,则替换
	int x = 0;
	while (fscanf(fout, "%d", &x) != EOF)
	{
		if (x > minheap[0])
		{
替换堆顶元素进堆
			minheap[0] = x;
并且进行调整
			AdjustDown(minheap, k, 0);
		}
	}

遍历完所有n个数据后,打印出堆中的数据,就是最大的K个数据啦!
	for (int i = 0; i < k; i++)
	{
		printf("%d ", minheap[i]);
	}
	printf("\n");

	fclose(fout);
}

// fprintf  fscanf



3.测试类:

int main()
{
	//CreateNDate();
	PrintTopK("data.txt", 5);

	return 0;
}

四、时间复杂度和空间复杂度分析

🔸时间复杂度:O(N*logK);
N:节点个数。K:最大的前K个个数
如果N>>K,那么可以认为时间复杂度是O(N);这也是此算法的厉害之处。
🔸空间复杂度:O(K);
K:最大的前K个个数.

更多推荐

​Qt for Python 入门¶​

本页重点介绍如何从源代码构建QtforPython,如果你只想安装PySide2。与你需要运行:pippipinstallpyside2有关更多详细信息,请参阅我们的快速入门指南。此外,您可以查看与项目相关的常见问题解答。一般要求¶Python:3.5+和2.7Qt:建议使用5.12+libclang:libclang

Leetcode.486 预测赢家

题目链接Leetcode.486预测赢家mid题目描述给你一个整数数组nums。玩家111和玩家222基于这个数组设计了一个游戏。玩家111和玩家222轮流进行自己的回合,玩家111先手。开始时,两个玩家的初始分值都是000。每一回合,玩家从数组的任意一端取一个数字(即,nums[0]nums[0]nums[0]或nu

掌握ls命令:完整指南、高级用法与常见问题解答 | 理解文件管理的关键工具

文章目录引言1.1关于ls命令1.2ls命令的作用和用途ls命令的基本用法2.1命令格式和语法2.2列出当前目录内容2.3列出指定目录内容常用选项和参数3.1列出详细信息3.2列出隐藏文件3.3按不同方式排序3.4显示文件大小3.5递归列出子目录内容文件类型和权限4.1文件类型的表示4.2权限的表示和解读4.3更改文件

Java基于微信小程序的青少年健康心理科普平台

第一章简介青少年心理健康科普平台为用户提供心理医生咨询服务,系统包括微信小程序端和后台。微信小程序用户可以先进行注册,填写个人的基本信息提交到服务器,服务器把数据保存到数据库。管理员对青少年的信息进行验证后,青少年通过验证后的用户名和密码进行登录,登录之后查看健康知识。心理医生在首页展示,查看心理医生具体信息后,可以进

贪心算法的思路和典型例题

一、贪心算法的思想贪心算法是一种求解问题时,总是做出在当前看来是最好的选择,不从整体最优上加以考虑的算法。二.用贪心算法的解题策略其基本思路是从问题的某一个初始解出发一步一步地进行,根据某个优化测度,每一步都要确保能获得局部最优解。贪心算法的关键在于贪心策略的选择,而不是对所有问题都能得到整体最优解。若下一个数据和部分

Django实现音乐网站 ⒅

使用PythonDjango框架做一个音乐网站,本篇主要为歌单列表、歌单详情及推荐页-歌单内容改动。目录歌单列表设置路由视图处理模板渲染歌单-单曲列表设置路由视图处理模板渲染推荐页-歌单列表模板渲染修改总结歌单列表可通过导航>歌单或者推荐歌单中分类跳转到歌单列表。设置路由path('songsheet',views.s

多台群晖实现按计划WOL网络自动唤醒数据冷备份

几年前买了2盘位的DS218+,但是随着照片的增加已经不够用。年中购入了4盘位的群晖DS923+、2块16T西数数企业级硬盘、1块2Tintel企业级SSD1.什么是冷备份冷备是离线备份,备份好的数据可以单独存取,定期冷备可以保证数据安全,适合家庭场景2.为什么不用Raid1Raid不是一个备份方案,Raid1是做1:

matlab GPR高斯过程回归与股票价格预测

1、回归回归分析是统计分析领域的重要分支。利用回归分析模型可以进行预测。一个典型的预测问题是:给定自变量xxx的某些值处对因变量的一些噪声观测值,对新值x∗x^*x∗时因变量的最佳估计值是多少?如果我们期望底层函数是线性的,且可以对输入数据做一些规范化假设,那么我们可以使用最小二乘法来线性回归(直线拟合)。对于一些规律

【DevOps核心理念基础】3. 敏捷开发最佳实践

一、敏捷开发最佳实践1.1项目管理1.2需求管理1.3技术架构1.4技术开发1.5测试二、敏捷开发最佳实践2.1敏捷开发的执行细节三、全面的DevOps工具链四、版本控制和协作开发工具4.1集中式版本控制工具4.2分布式版本控制工具一、敏捷开发最佳实践1.1项目管理迭代开发技术团队的人员素质,人员配备完整及时有效的沟通

解锁前端Vue3宝藏级资料 第五章 Vue 组件应用 2 ( Emit )

本章带领大家理解组件、props、emits、slots、providers/injects,Vue插件等Vue组件使用的基础知识。第一章Vue3项目创建1VueCLI创建vue项目第一章Vue3项目创建2使用Webpack5搭建vue项目第一章Vue3项目创建3Vite创建vue项目第二章Vue3基础语法指令第三章V

内存利用:迟来的blindless与逃不掉的exit漏洞

0x01前言在计算机安全领域,漏洞的危险性往往与其广泛性和潜在攻击方式密切相关。今天,我们将深入探讨一个异常危险的漏洞,它存在于程序退出时执行的常见函数"exit"中。无论是在操作系统还是应用程序中,"exit"都是一个普遍存在的函数,通常用于正常退出程序。但这种普遍性也使得它成为了潜在的攻击目标。这个漏洞的威胁性在于

热文推荐