当前位置：网站首页 > 技术资源 > 正文

面试题:上亿条数据快速找到一条你想要的数据(几种简单的算法)

off999 2025-05-22 12:44 35 浏览 0 评论

以下是几种适用于海量数据查找的简单算法及其适用场景，无需复杂系统设计即可实现快速检索：

1. 二分查找（Binary Search）

核心思想

在有序数据集中，每次比较中间元素，缩小搜索范围。
时间复杂度：O(log n)
适用场景：

数据已排序（如数组、文件按主键有序存储）。
精确查找（如根据ID找记录）。

实现步骤

数据按目标字段排序（如ID升序）。
每次取中间值比较：
等于目标值 → 找到结果。
小于目标值 → 在右半部分继续查找。
大于目标值 → 在左半部分继续查找。

优化变种

插值查找：根据目标值分布预估中间位置，适合均匀分布数据。

示例代码

python

复制

def binary_search(arr, target):  
    left, right = 0, len(arr) - 1  
    while left <= right:  
        mid = (left + right) // 2  
        if arr[mid] == target:  
            return mid  
        elif arr[mid] < target:  
            left = mid + 1  
        else:  
            right = mid - 1  
    return -1

2. 哈希表（Hash Table）

核心思想

通过哈希函数将键（Key）映射到存储位置，实现直接访问。
时间复杂度：平均O(1)，最坏O(n)（哈希冲突时）
适用场景：

精确查找（如根据用户名找用户信息）。
内存足够容纳哈希表（如Redis缓存）。

实现步骤

设计哈希函数（如取模、MD5）。
插入数据时，计算键的哈希值，存入对应位置。
查找时，直接通过哈希值定位数据。

关键问题

哈希冲突：

解决方法：链地址法（链表存冲突项）、开放寻址法（线性探测）。

动态扩容：当负载因子过高时，重建更大的哈希表。

示例代码

python

复制

class HashTable:  
    def __init__(self):  
        self.size = 1000  
        self.table = [[] for _ in range(self.size)]  # 链地址法  

    def _hash(self, key):  
        return hash(key) % self.size  

    def insert(self, key, value):  
        h = self._hash(key)  
        for item in self.table[h]:  
            if item[0] == key:  
                item[1] = value  
                return  
        self.table[h].append([key, value])  

    def search(self, key):  
        h = self._hash(key)  
        for item in self.table[h]:  
            if item[0] == key:  
                return item[1]  
        return None

3. 布隆过滤器（Bloom Filter）

核心思想

通过多个哈希函数和位数组，快速判断数据是否不存在（可能存在误判）。
时间复杂度：O(k)（k为哈希函数数量）
适用场景：

预过滤不存在的数据（如黑名单检查、爬虫URL去重）。
容忍一定误判率（可降低后续查询压力）。

实现步骤

初始化一个长度为m的位数组（全0）。
插入数据时，用k个哈希函数计算位置，将对应位设为1。
查询时，若所有哈希位均为1 → 可能存在；否则一定不存在。

关键参数

误判率公式：p≈(1-e-kn/m)kp≈(1-e-kn/m)k

增大m（位数组长度）或k（哈希函数数量）可降低误判率。

示例代码

python

复制

import mmh3  

class BloomFilter:  
    def __init__(self, size, hash_num):  
        self.size = size  
        self.hash_num = hash_num  
        self.bit_array = [0] * size  

    def add(self, item):  
        for seed in range(self.hash_num):  
            index = mmh3.hash(item, seed) % self.size  
            self.bit_array[index] = 1  

    def contains(self, item):  
        for seed in range(self.hash_num):  
            index = mmh3.hash(item, seed) % self.size  
            if self.bit_array[index] == 0:  
                return False  
        return True  # 可能存在（有一定误判率）

4. B树/B+树（B-Tree/B+ Tree）

核心思想

多路平衡搜索树，减少磁盘I/O次数（适合数据库索引）。
时间复杂度：O(log n)（树高度决定）
适用场景：

数据存储在磁盘（如数据库、文件系统）。
支持范围查询（B+树叶子节点链表连接）。

核心特性

B树：每个节点存储键和数据，适合随机访问。
B+树：数据仅存于叶子节点，叶子节点通过指针连接，适合顺序扫描。

实现示例

（以B+树为例）

text

复制

构建过程：  
1. 定义节点容量（如最多3键值）。  
2. 插入数据时，按排序规则找到叶子节点，若溢出则分裂节点。  
3. 查询时，从根节点逐层向下查找，直到叶子节点。

5. 倒排索引（Inverted Index）

核心思想

建立关键词到文档的映射表，加速搜索（如搜索引擎）。
时间复杂度：O(1)（哈希表实现关键词定位）。
适用场景：

文本内容检索（如根据关键词找文章）。
多条件组合查询（如“北京 AND 旅游”）。

实现步骤

分词：将文档内容拆分为关键词。
构建索引：记录每个关键词出现的文档ID列表。
查询时，取关键词对应的文档ID交集/并集。

示例结构

text

复制

倒排索引表：  
"算法" → [1, 3, 5]  
"数据" → [2, 3, 4]  
查询“算法 AND 数据” → 交集 [3]

总结

算法	适用场景	优点	缺点
二分查找	有序数据精确查找	简单高效	要求数据预排序
哈希表	内存中精确查找	平均O(1)时间复杂度	内存消耗大，无法范围查询
布隆过滤器	快速排除不存在的数据	空间效率高	存在误判率
B+树	磁盘存储数据索引	适合范围查询，减少I/O	实现复杂度较高
倒排索引	文本内容检索	支持关键词组合查询	需预处理构建索引

选择建议：

数据有序 → 二分查找。
内存足够且需精确查找 → 哈希表。
预过滤不存在的键 → 布隆过滤器。
磁盘存储且需范围查询 → B+树。
文本搜索 → 倒排索引。

python取模

上一篇：小六壬起卦的小程序
下一篇：2025-05-11:安排活动的方案数。用go语言，有 n 位表演者和 x 个节目

面试题:上亿条数据快速找到一条你想要的数据(几种简单的算法)

1. 二分查找（Binary Search）

核心思想

实现步骤

优化变种

示例代码

2. 哈希表（Hash Table）

核心思想

实现步骤

关键问题

示例代码

3. 布隆过滤器（Bloom Filter）

核心思想

实现步骤

关键参数

示例代码

4. B树/B+树（B-Tree/B+ Tree）

核心思想

核心特性

实现示例

5. 倒排索引（Inverted Index）

核心思想

实现步骤

示例结构

总结

相关推荐

取消回复欢迎你发表评论:

中华人民共和国历届领导（中华人民共和国历届领导班子成员及照片）

网盘在哪里打开（华为网盘在哪里打开）

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

win7系统还原步骤图解（win7还原电脑系统的步骤）

苹果手机怎么下载软件并安装

夜晚十大禁用直播app（未成年人禁止出镜直播）

python入门到脱坑输入与输出—str()函数

面试题:上亿条数据快速找到一条你想要的数据(几种简单的算法)

1. 二分查找（Binary Search）

核心思想

实现步骤

优化变种

示例代码

2. 哈希表（Hash Table）

核心思想

实现步骤

关键问题

示例代码

3. 布隆过滤器（Bloom Filter）

核心思想

实现步骤

关键参数

示例代码

4. B树/B+树（B-Tree/B+ Tree）

核心思想

核心特性

实现示例

5. 倒排索引（Inverted Index）

核心思想

实现步骤

示例结构

总结

相关推荐

取消回复欢迎 你 发表评论:

中华人民共和国历届领导（中华人民共和国历届领导班子成员及照片）

网盘在哪里打开（华为网盘在哪里打开）

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

win7系统还原步骤图解（win7还原电脑系统的步骤）

苹果手机怎么下载软件并安装

夜晚十大禁用直播app（未成年人禁止出镜直播）

python入门到脱坑 输入与输出—str()函数

取消回复欢迎你发表评论:

python入门到脱坑输入与输出—str()函数