FastDfs-架构及原理
off999 2025-03-10 19:20 17 浏览 0 评论
1、架构图解析
客户端(client)
- 作为请求的发起方,也就是上传下载等请求的发起方。
跟踪服务器(tracker server)
- 主要任务是调度和负载均衡作用。
- 内存中存储了集群中所有storage server的group和状态信息
- 不记录文件的索引信息,主要存储一些元数据信息(完全由storage提供给),占用内存很少
- tracker根据storage的心跳信息建立group和storage服务列表的映射关系
- 因为元数据完全由storage提供,因此不需要持久化任何数据,所以tracker无状态,各个节点对等,非常容易扩展
存储服务器(storage server)
- 真正存储数据的服务器,文件和文件的元数据信息都保存在storage中,storage本身没有实现文件系统,而是直接使用操作系统调度管理文件
- storage以组(group)或卷(volume)划分集群,一个组可以由多个storage.这多个storage护卫备份,相当于数据是一样的。用于定制副本的数量
- 存储空间将会以group内容量最小的storage为准,也就是短板效应。因为互为备份,超过最小空间就没办法备份了
- 不同数据放在不同的组就能实现数据隔离,同时还可以通过nginx代理到不同的group
- group的容量收到单机存储的限制,如果group内有机器坏掉,只能依赖group内的其他计起恢复,恢复时间会很长。
- storage依赖本地系统,可以配置多个数据存储目录。有10块磁盘的话,都可以挂载为数据目录
- 为了避免同一个目录下文件过多,会创建两级子目录,默认每级256个,总过65535个文件夹。新上传的文件会通过hash方式路由到不同的子目录,然后将整个文件放在该目录。
2、设计思想
轻量级
- 1、tracker server不持久化数据,节点对等,不会成为性能瓶颈
- 2、不对文件分块,对应中小文件没有必要,不分块更加简单,高效
- 3、文件Id包含了组名,我呢见相对路径,文件名可以直接定位文件位置。所以不需要文件索引
- 4、代码量非常少,不到5.2万行
分组存储
- 1、集群由一个或多个组构成,集群容量为所有组的容量总和。
- 2、同组内堕胎Storage互为备份,上传,下载,删除等可以在任何一台上操作。
- 3、因为同组内的容量为容量最小的storage中。就是短板效应。容量不足可以横向增加组实现。
- 4、下载时直接通过apache、nginx等web server即可。
对等结构
- tracker server和storage server均不存在单点问题,节点都是对等的。
3、文件上传原理
文件上传流程分析
1、如何选择tracker和group?
因为tracker server是支持集群,并且节点之间是对等的。
所以客户端在上传文件时,可以随意选择一个tracker server。
而tracker server接收到文件上传时,会通过配置策略为该文件分配一个group.
根据tracker.conf配置文件配置策略
# the method for selecting group to upload files
# 0: round robin 轮询
# 1: specify group 指定group, 与下面的store_group联合使用
# 2: load balance, select the max free space group to upload file 负载均衡,选择一个空闲空间最大的group上传文件。默认策略
store_lookup = 2
# which group to upload file
# when store_lookup set to 1, must set store_group to the group name
# 如果store_lookup为1时,指定group的名称
store_group = group2
2、选择group后,如何选择storage server ?
我们知道,选择group后,因为组内可能存在多个storage server, 并且互为备份,所以我们需要根据策略选择一个执行上传操作。
选择的策略通过tracker.conf配置storaged的选择
# which storage server to upload file
# 0: round robin (default) 轮询,默认策略
# 1: the first server order by ip address 通过ip排序的第一个
# 2: the first server order by priority (the minimal) 通过优先级排序后的第一个(优先级在storage.conf中配置)
# Note: if use_trunk_file set to true, must set store_server to 1 or 2
store_server = 0
storage.conf中配置优先级
# the priority as a source server for uploading file.
# the lower this value, the higher its uploading priority.
# default value is 10 文件上传的优先级,默认值为10
upload_priority=10
3、选择了storage后,我们有可能有多块数据盘,数据存放在哪个盘呢?
因为fastdfs直接使用操作系统的文件管理,容量收到操作系统限制,可以通过多挂载几块磁盘来增大存储空间。数据会根据策略存储在不同的磁盘上。
在storage.conf中如何配置多块磁盘呢
# path(disk or mount point) count, default value is 1, 磁盘或者挂载点的数量
store_path_count=1
# store_path#, based 0, if store_path0 not exists, it's value is base_path
# the paths must be exist 多块磁盘配置多个存储路径,比如可以把store_path_count设置为2,将store_path1的注释打开,配置第二块磁盘的挂载目录
store_path0=/home/fastdfs
#store_path1=/home/yuqing/fastdfs2
4、数据有了存放的地方,会生成文件,文件名称有什么生成规则呢?
由storage的ip,文件创建时间,文件大小,文件crc32和一个随机数拼接而成,然后将该二进制串进行base64编码。组+目录+二级子目录+文件名.后缀 最终组成了文件的id。根据文件id可以直接定位文件,从而省去了一般文件存储需要存索引,通过索引定位文件内容。
4、文件下载原理
文件下载原理跟文件上传前面部分基本一样。只是选择哪个storage服务器下载文件的策略有些不一样。
在tracker.conf中专门为文件下载选择storage有一个配置项
# which storage server to download file
# 0: round robin (default) 轮询,默认策略
# 1: the source storage server which the current file uploaded to 选择该文件上传的那台服务器,也叫做源storage
download_server = 0
5、文件同步原理
因为同一个组内的storage是互为备份的,并且文件上传只会传到其中的一台。那么另外的服务器如何备份的呢?此时我们可能想到mysql的binlog日志。
- fastdfs也有自己的binlog日志,在每个storage写入后,会将文件的元数据写入binlog日志
- storage也会记录组内其他storage对该文件的同步进度,以便异常情况能够实现增量同步
- 进度通过时间戳记录,所以需要保证集群内的时钟同步
- 同步进度同样会上报tracker,tracker在选择storage时会以进度为参考
6、文件删除
文件删除和文件下载类似,只是下载是找到文件进行下载,删除是找到文件进行删除
相关推荐
- Python设计模式 第 13 章 中介者模式(Mediator Pattern)
-
在行为型模式中,中介者模式是解决“多对象间网状耦合”问题的核心模式。它就像“机场调度中心”——多个航班(对象)无需直接沟通起飞、降落时间,只需通过调度中心(中介者)协调,避免航班间的冲突与混乱...
- 1.3.1 python交互式模式的特点和用法
-
什么是Python交互模式Python交互模式,也叫Python交互式编程,是一种在Python解释器中运行的模式,它允许用户在解释器窗口中输入单个Python语句,并立即查看结果,而不需要编写整个程...
- Python设计模式 第 8 章 装饰器模式(Decorator Pattern)
-
在结构型模式中,装饰器模式是实现“动态功能扩展”的核心模式。它就像“手机壳与手机的关系”——手机(原始对象)具备通话、上网等基础功能,手机壳(装饰器)可在不改变手机本身的前提下,为其新增保护、...
- python设计模式 综合应用与实战指南
-
经过前面16章的学习,我们已系统掌握创建型模式(单例、工厂、建造者、原型)、结构型模式(适配器、桥接、组合、装饰器、外观、享元、代理)、行为型模式(责任链、命令、迭代器、中介者、观察者、状态、策略...
- Python入门学习教程:第 16 章 图形用户界面(GUI)编程
-
16.1什么是GUI编程?图形用户界面(GraphicalUserInterface,简称GUI)是指通过窗口、按钮、菜单、文本框等可视化元素与用户交互的界面。与命令行界面(CLI)相比,...
- Python 中 必须掌握的 20 个核心:str()
-
str()是Python中用于将对象转换为字符串表示的核心函数,它在字符串处理、输出格式化和对象序列化中扮演着关键角色。本文将全面解析str()函数的用法和特性。1.str()函数的基本用法1.1...
- Python偏函数实战:用functools.partial减少50%重复代码的技巧
-
你是不是经常遇到这样的场景:写代码时同一个函数调用了几十次,每次都要重复传递相同的参数?比如处理文件时总要用encoding='utf-8',调用API时固定传Content-Type...
- 第2节.变量和数据类型【第29课-输出总结】
-
同学们,关于输出的知识点讲解完成之后,把重点性的知识点做一个总结回顾。·首先对于输出这一章节讲解的比如有格式化符号,格式化符号这里需要同学们额外去多留意的是不是百分号s格式化输出字符串。当然课上也说百...
- AI最火语言python之json操作_python json.loads()
-
JSON(JavaScriptObjectNotation,JavaScript对象表示法)是一种开放标准的文件格式和数据交换格式,它易于人阅读和编写。JSON是一种常用的数据格式,比如对接各种第...
- python中必须掌握的20个核心函数—split()详解
-
split()是Python字符串对象的方法,用于将字符串按照指定的分隔符拆分成列表。它是文本处理中最常用的函数之一。一、split()的基本用法1.1基本语法str.split(sep=None,...
- 实用方法分享:pdf文件分割方法 横向A3分割成纵向A4
-
今天在街上打印店给儿子打印试卷时,我在想:能不能,把它分割成A4在家中打印,这样就不需要跑到街上的打印店打印卷子了。原来,老师发的作业,是电子稿,pdf文件,A3格式的试卷。可是家中的打印机只能打印A...
- 20道常考Python面试题大总结_20道常考python面试题大总结免费
-
20道常考Python面试题大总结关于Python的面试经验一般来说,面试官会根据求职者在简历中填写的技术及相关细节来出面试题。一位拿了大厂技术岗SpecialOffer的网友分享了他总结的面试经...
- Kotlin Data Classes 快速上手_kotlin快速入门
-
引言在日常开发中,我们常常需要创建一些只用来保存数据的类。问题是,这样的类往往需要写一堆模板化的方法:equals()、hashCode()、toString()……每次都重复,既枯燥又容易出错。//...
- python自动化RobotFramework中Collections字典关键字使用(五)
-
前言介绍安装好robotframework库后,跟之前文章介绍的BuiltIn库一样BuiltIn库使用介绍,在“python安装目录\Lib\site-packages\robot\librarie...
- Python中numpy数据分析库知识点总结
-
Python中numpy数据分析库知识点总结二、对已读取数据的处理②指定一个值,并对该值双边进行修改③指定两个值,并对第一个值的左侧和第二个值的右侧进行修改2.4数组的拼接和行列交换①竖直拼接(np...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- Python设计模式 第 13 章 中介者模式(Mediator Pattern)
- 1.3.1 python交互式模式的特点和用法
- Python设计模式 第 8 章 装饰器模式(Decorator Pattern)
- python设计模式 综合应用与实战指南
- Python入门学习教程:第 16 章 图形用户界面(GUI)编程
- Python 中 必须掌握的 20 个核心:str()
- Python偏函数实战:用functools.partial减少50%重复代码的技巧
- 第2节.变量和数据类型【第29课-输出总结】
- AI最火语言python之json操作_python json.loads()
- python中必须掌握的20个核心函数—split()详解
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)