百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

如何清理误提交到git的历史大文件?

off999 2025-08-05 20:27 14 浏览 0 评论

前言

哈喽!好久不见~

最近在思考转型的事情,好久没有更新文章了

不过看到我之前开发的视频剪辑工具 Clipify[1] 收获了不少 star ,让我想起之前画的饼似乎才实现了一点点,所以利用了周末的空闲时间给 Clipify 项目重构了一下界面以及开发一些新功能。

预告一下,这是重构之后的新界面,后面我会写一篇文章介绍一下。

中途意识到现在使用的 WinForms + Blazor 技术栈,就像马拉火车,有种蒸汽朋克的复古感,虽然使用前端技术开发的界面很好看,但 WinForms 不能跨平台终究不是长久之计。

于是我便着手尝试迁移到 MAUI,虽然还不能支持 Linux,至少 Mac 还是可以的,也算是跨平台了吧…

然而我还没把项目跑起来呢,一不小心把一堆静态资源给提交进去了

就是下面这些文件

Clipify.Maui/wwwroot/lib/
Clipify.Maui/wwwroot/css/*.min.css
Clipify.Maui/wwwroot/temp/

这下 git push 超级慢,而且会占用大量空间

还好最终在大模型爷爷的帮助下解决了这个问题

不过我想总不能老是去打扰大模型爷爷啊,问题解决了还是得记录一下,以后遇到类似的情况也好处理。

使用git原生命令

这个问题其实老生常谈了

网上能查到的很多文章都会告诉你可以用以下命令解决

git rm -r --cached Clipify.Maui/wwwroot/lib
git rm --cached Clipify.Maui/wwwroot/css/*.min.css
git rm -r --cached Clipify.Maui/wwwroot/temp

这些命令会移除已提交的文件,但不会删除本地文件

但我这样做了之后还是不行,git push 的时候还是很慢

分析原因

那么问题来了,为什么 git rm --cached 没用呢?

原因是 git rm --cached 只会从当前 commit(工作区)中移除指定文件的 Git 跟踪,它不会修改过去的提交记录

它解决的是「现在开始不要再跟踪」的问题, 但历史上它已经跟踪过的文件,Git 还会一直保留在对象数据库(.git/objects)里

我在前面几个 commit 已经把 Clipify.Maui/wwwroot/lib 这类文件夹提交进去了

所以这个命令对于这个场景来说是没用的

简单来说,Git 是个版本管理工具,它不会忘记你历史上做过的提交,哪怕现在 git rm --cached 移除了 lib/ 文件夹

Git 仍然记得之前在第 N 次 commit 时曾经加入过它,所以 .git 目录依然保存了那些 大 blob 文件push 时照样要传。

解决方法

那么如何解决呢?

以前看到的方法是编写脚本,循环从每个 commit 里删除已提交的文件

现在不用这么麻烦了,有了 git-filter-repo 工具,这是一个 python 写的可以用来重写 git 历史记录的工具

https://github.com/newren/git-filter-repo

感谢 scoop ,让我在 Windows 上也能获得类似 Linux/MacOS 类似的软件安装体验

# 安装 Git Filter Repo
brew install git-filter-repo # macOS
scoop install git-filter-repo # Windows
# 或者用 Python 安装
pip install git-filter-repo

使用方法

git filter-repo --path Clipify.Maui/wwwroot/lib/ --invert-paths --force

这个命令会彻底删除历史中所有与该路径相关的文件和提交记录

重写整个 Git 提交历史之后,仓库大小会明显减小git push 更快,历史提交中指定文件将完全移除。可能需要使用 --force 强制推送代码。

经过这一通操作之后,我再使用 git push 提交明显快了很多。

拓展:如何分析git提交历史里的大文件

用 [git rev-list + git verify-pack] 可以找出 Git 提交历史中的大对象(大文件)

不过 git 原生的命令比较复杂

我还是选择借助工具的力量,这次是 git-sizer 工具

git-sizer[2]是 GitHub 官方出的工具,用于分析 Git 仓库大小、提交体积等问题。

brew install git-sizer
# or
scoop install git-sizer
# or
cargo install git-sizer

PS:再次感谢 scoop !

直接在项目根目录下执行 git-sizer 即可

这个工具会输出以下信息:

  • 最大的提交
  • 最大的 blob(文件内容)
  • 最大的目录
  • 含大文件的分支
  • 是否存在历史中隐藏的肥胖对象(hidden bloats)

我使用这个工具生成的结果是这样

Processing blobs: 2448 
Processing trees: 218
Processing commits: 42
Matching commits to trees: 42
Processing annotated tags: 0
Processing references: 3
| Name | Value | Level of concern |
| ---------------------------- | --------- | ------------------------------ |
| Biggest objects | | |
| * Trees | | |
| * Maximum entries [1] | 1.40 k | * |

[1] 77b7ff2aa0456193bee83eebe9dfb76ebd4f35ac (2d9cc135f1aff0863ce2ef8ceff3cbf6984ee499:Clipify.Maui/wwwroot/lib/font-awesome/svgs/solid)

这样就能很方便定位到最大的文件,给 git 仓库瘦身~

参考资料
[1]

Clipify: https://blog.deali.cn/Blog/Post/6a903b1c6fb2487f

[2]

git-sizer: https://github.com/github/git-sizer


解锁AI驱动的生产力跃迁

程序设计实验室 专注前沿技术落地,每周解析代码级解决方案。

关注获取:

《DeepSeek极速上手手册》24页干货:零基础3天玩转智能编码

清华独家课程三部曲:

  • 《DeepSeek从入门到精通》104页精讲(附30+代码实例)
  • 《职场效能革命指南》35页实战:7大行业应用场景深度拆解
  • 《AI红利捕获手册》65页秘籍:普通人快速构建竞争壁垒的5种路径

与万千技术人共建智能开发新范式。


相关推荐

龙建股份:工程项目中标_龙建股份有限公司招聘网

404NotFoundnginx/1.6.1【公告简述】2016年9月8日公告,公司于2016年9月6日收到苏丹共和国(简称“北苏丹”)喀土穆州基础设施与运输部公路、桥梁和排水公司出具的中标通知书...

福田汽车:获得政府补助_福田 补贴

404NotFoundnginx/1.6.1【公告简述】2016年9月1日公告,自2016年8月17日至今,公司共收到产业发展补助、支持资金等与收益相关的政府补助4笔,共计5429.08万元(不含...

翰宇药业:获得发明专利_翰宇药业创新产业

404NotFoundnginx/1.6.1【公告简述】2016年9月2日公告,申请的一项发明专利获得中华人民共和国国家知识产权局颁发的发明专利证书,公司于2016年9月1日取得了该专利证书,该专...

川金诺:取得发明专利证书_川金诺(300505)

404NotFoundnginx/1.6.1【公告简述】2016年9月1日公告,近日,公司申请的一项发明专利获得国家知识产权局颁发的发明专利证书:一种提高和稳定湿法磷酸中和脱氟浓度方法。本发明是稀...

使用WTM框架创建博客系统后台并在云服务器发布

阅读导航关于lqclass.com博客后台前后端部署2.1已部署访问链接2.2nginx部署2.2.1后台后端发布2.2.2后台前端发布2.2.3云服务器部署下次分享1.关于lqcl...

Nginx的location匹配规则,90%的人都没完全搞懂,一张图让你秒懂

为什么你的Nginx配置总是不生效?改了Nginx配置无数次,reload命令执行了几十遍,浏览器访问时却依然返回404?运维工程师小张上周就遇到了这个问题:明明配置了location/static...

全网最新的Dify(1.7.2)私有化离线部署教程(ARM架构)

Hello,大家好!近期工作中有涉及到Dify私有化离线部署,特别是针对于一些国产设备。因此特别整理了该教程,实测有效!有需要的小伙伴可以参考下!本文主要针对Dify1.7.2最新版本+国产操作系...

如何使用 Certbot 为域名配置永久免费的 HTTPS 证书

本文手把手教你如何在Linux上使用Certbot配置HTTPS,包括安装Certbot、修改Nginx配置、设置server_name、申请证书及证书续期。文章内容C一.安装...

docker run 中 --name 参数介绍_docker run -itd --name

在Docker中,--name是dockerrun命令的一个重要参数,用于为新创建的容器指定一个唯一的自定义名称。以下是详细介绍和使用场景:一、--name的功能与语法作用:为容器分配一个...

403 Forbidden:无权限访问请求的资源如何处理

403Forbidden错误表示客户端(如浏览器或应用)已成功连接服务器,但服务器拒绝了该请求。这通常是由于用户或请求没有足够的权限访问目标资源。以下是常见的可能原因和解决方法:1.常见原因1....

使用docker compose实现最简单的容器伸缩、健康检查和负载均衡

跟K8S的自动伸缩配置类似,仅使用dockercompose也可以实现低配版的autoscale哟!本文非常的接地气,从头一步步开始,连带Dockerfile制作,容器健康检查,Nginx负载均衡...

Nginx反向代理和正向代理详解(4大核心区别)

关注△mikechen△,十余年BAT架构经验倾囊相授!Nginx是大型架构的必备中间件,本篇重点详解Nginx代理@mikechen文章来源:mikechen.cc1.服务对象不同服务对象不同,这...

docker真的好难用啊,为什么说它移植性好啊?

刚刚接触docker,真的好麻烦啊,不明白为什么要选择docker,我都搞了两天还在搭环境,又告诉我Windows版本过低不适配docker,转而在Ubuntu里装docker,然后MySQL、php...

Nginx动静分离技术详解(原理+配置+案例)

关注△mikechen△,十余年BAT架构经验倾囊相授!Nginx是大型架构的必备技能,下面我详解Nginx动静分离技术@mikechen文章来源:mikechen.ccNginx动静分离动静分离:是...

zabbix搭建+排错+批量监控_zabbix批量添加监控项

Zabbix软件的概念Zabbix是一款开源的、免费的监控软件、项目,主要是7x24小时去监控网络设备、操作系统、应用程序、带宽等资源,一旦发现异常和故障能够给SA管理员发送告警信息。Zabbix软件...

取消回复欢迎 发表评论: