大文件分片上传技术实践:分片上传、断点续传与MD5秒传

2025/3/16
本文详细介绍了大文件分片上传的技术实践方案,包括分片上传、断点续传和MD5秒传的实现步骤。通过前端与后端的协作,显著提升大文件上传的效率和用户体验。

大文件分片上传是现代Web应用中常见的需求,尤其是在处理大文件上传时,分片上传、断点续传和MD5秒传技术可以显著提升用户体验和上传效率。以下是一个详细的技术实践方案:

1. 分片上传

分片上传是将大文件分割成多个小块(chunks),然后逐个上传到服务器。这样可以减少单次上传的数据量,降低网络波动对上传的影响。

实现步骤:

  1. 文件分片:使用File对象的slice方法将文件分割成多个小块。

    const chunkSize = 5 * 1024 * 1024; // 5MB
    const chunks = [];
    let start = 0;
    
    while (start < file.size) {
        const chunk = file.slice(start, start + chunkSize);
        chunks.push(chunk);
        start += chunkSize;
    }
    
  2. 上传分片:使用FormData将每个分片上传到服务器。

    const uploadChunk = async (chunk, index) => {
        const formData = new FormData();
        formData.append('file', chunk);
        formData.append('chunkIndex', index);
        formData.append('totalChunks', chunks.length);
        formData.append('fileId', fileId); // 文件唯一标识
    
        await fetch('/upload', {
            method: 'POST',
            body: formData,
        });
    };
    
  3. 合并分片:所有分片上传完成后,通知服务器合并分片。

    const mergeChunks = async () => {
        await fetch('/merge', {
            method: 'POST',
            body: JSON.stringify({ fileId, fileName: file.name }),
            headers: {
                'Content-Type': 'application/json',
            },
        });
    };
    

2. 断点续传

断点续传允许用户在上传过程中断后,从中断的地方继续上传,而不需要重新上传整个文件。

实现步骤:

  1. 记录上传进度:在客户端记录已上传的分片索引。

    const uploadedChunks = new Set();
    
  2. 检查已上传分片:在上传前,向服务器查询已上传的分片。

    const getUploadedChunks = async () => {
        const response = await fetch(`/uploaded-chunks?fileId=${fileId}`);
        const data = await response.json();
        return data.uploadedChunks;
    };
    
  3. 跳过已上传分片:在上传时跳过已上传的分片。

    const uploadedChunks = await getUploadedChunks();
    for (let i = 0; i < chunks.length; i++) {
        if (!uploadedChunks.includes(i)) {
            await uploadChunk(chunks[i], i);
        }
    }
    

3. MD5秒传

MD5秒传是通过计算文件的MD5值,与服务器上的文件进行比对,如果文件已存在,则直接返回文件地址,无需重复上传。

实现步骤:

  1. 计算文件MD5:使用spark-md5等库计算文件的MD5值。

    const calculateMD5 = (file) => {
        return new Promise((resolve, reject) => {
            const blobSlice = File.prototype.slice || File.prototype.mozSlice || File.prototype.webkitSlice;
            const chunkSize = 2 * 1024 * 1024; // 2MB
            const chunks = Math.ceil(file.size / chunkSize);
            let currentChunk = 0;
            const spark = new SparkMD5.ArrayBuffer();
            const fileReader = new FileReader();
    
            fileReader.onload = function (e) {
                spark.append(e.target.result);
                currentChunk++;
    
                if (currentChunk < chunks) {
                    loadNext();
                } else {
                    resolve(spark.end());
                }
            };
    
            fileReader.onerror = function () {
                reject('MD5 calculation failed');
            };
    
            const loadNext = () => {
                const start = currentChunk * chunkSize;
                const end = start + chunkSize >= file.size ? file.size : start + chunkSize;
                fileReader.readAsArrayBuffer(blobSlice.call(file, start, end));
            };
    
            loadNext();
        });
    };
    
  2. 检查文件是否存在:将MD5值发送到服务器,检查文件是否已存在。

    const checkFileExists = async (md5) => {
        const response = await fetch(`/check-file?md5=${md5}`);
        const data = await response.json();
        return data.exists ? data.fileUrl : null;
    };
    
  3. 秒传处理:如果文件已存在,直接返回文件地址;否则,继续上传。

    const md5 = await calculateMD5(file);
    const fileUrl = await checkFileExists(md5);
    
    if (fileUrl) {
        console.log('File already exists:', fileUrl);
    } else {
        await uploadFile(file);
    }
    

4. 服务器端处理

服务器端需要处理分片上传、合并分片、记录上传进度、检查文件MD5等逻辑。

示例(Node.js + Express):

  1. 分片上传

    app.post('/upload', (req, res) => {
        const { fileId, chunkIndex } = req.body;
        const chunk = req.files.file;
        const chunkPath = `./uploads/${fileId}-${chunkIndex}`;
    
        chunk.mv(chunkPath, (err) => {
            if (err) return res.status(500).send(err);
            res.send('Chunk uploaded');
        });
    });
    
  2. 合并分片

    app.post('/merge', (req, res) => {
        const { fileId, fileName } = req.body;
        const mergedFilePath = `./uploads/${fileName}`;
        const writeStream = fs.createWriteStream(mergedFilePath);
    
        for (let i = 0; i < totalChunks; i++) {
            const chunkPath = `./uploads/${fileId}-${i}`;
            const chunk = fs.readFileSync(chunkPath);
            writeStream.write(chunk);
            fs.unlinkSync(chunkPath);
        }
    
        writeStream.end();
        res.send('File merged');
    });
    
  3. 检查文件MD5

    app.get('/check-file', (req, res) => {
        const { md5 } = req.query;
        const filePath = `./uploads/${md5}`;
    
        if (fs.existsSync(filePath)) {
            res.json({ exists: true, fileUrl: `/uploads/${md5}` });
        } else {
            res.json({ exists: false });
        }
    });
    

总结

通过分片上传、断点续传和MD5秒传技术,可以显著提升大文件上传的效率和用户体验。前端负责文件分片、上传进度管理和MD5计算,后端负责分片存储、合并和文件校验。这种方案不仅适用于Web应用,也可以扩展到移动端和桌面端应用。

上次更新:

相关文章

npx完全指南:前端开发必备工具详解 | 20年架构师深度解析

本文由20年前端架构师深入解析npx工具,涵盖其核心功能、优势、高级用法、最佳实践及与npm/yarn的区别比较,帮助开发者掌握这一现代前端开发利器。

·前端开发

Astro 静态站点生成器:构建高性能网站的最佳选择

Astro 是一个专注于构建快速、轻量级网站的静态站点生成器,支持多种前端框架,采用岛屿架构减少 JavaScript 加载,提升性能。

·前端开发

Weex 跨平台移动开发框架:核心特性与使用指南

Weex 是由阿里巴巴开源的跨平台移动开发框架,支持使用 Vue.js 或 Rax 构建高性能的 iOS、Android 和 Web 应用。本文详细解析了 Weex 的核心特性、架构、工作流程、组件和模块、开发工具、优缺点、应用场景及未来发展。

·前端开发

ECharts 与 DataV 数据可视化工具对比分析 | 选择指南

本文详细对比了 ECharts 和 DataV 两个常用的数据可视化工具,包括它们的设计目标、优缺点、使用场景和技术栈,帮助读者根据具体需求选择合适的工具。

·前端开发

前端部署后通知用户刷新页面的常见方案 | 单页应用更新提示

本文介绍了在前端部署后通知用户刷新页面的几种常见方案,包括WebSocket实时通知、轮询检查版本、Service Worker版本控制、版本号对比、自动刷新、使用框架内置功能以及第三方库。每种方案的优缺点和示例代码均有详细说明。

·前端开发

file-saver:前端文件下载的 JavaScript 库使用指南

file-saver 是一个用于在浏览器端保存文件的 JavaScript 库,支持生成和下载多种文件格式,如文本、JSON、CSV、图片、PDF 等。本文详细介绍其安装、基本用法、兼容性及与其他工具(如 jszip)的结合使用。

·前端开发

MSW(Mock Service Worker):API 模拟工具的核心优势与使用指南

MSW(Mock Service Worker)是一个用于浏览器和 Node.js 的 API 模拟工具,通过 Service Worker 拦截网络请求,支持 REST 和 GraphQL,适用于开发、测试和调试场景。本文详细介绍 MSW 的核心优势、快速上手步骤、高级用法、适用场景及与其他 Mock 工具的对比。

·前端开发

Preact:轻量级 JavaScript 库,React 的高性能替代方案

Preact 是一个轻量级的 JavaScript 库,提供与 React 相似的 API 和开发体验,但体积更小(约 3-4KB,gzip 后)。它专注于高性能和低资源消耗,特别适合对性能敏感或需要快速加载的 Web 应用。

·前端开发

WASI标准与WebAssembly跨平台生态的未来趋势分析 | 技术深度解析

本文深入探讨了WASI(WebAssembly System Interface)标准的背景、意义及其对WebAssembly跨平台生态的影响。文章分析了WASI在服务器端应用、边缘计算和IoT设备中的应用,以及技术栈和工具链的演进,最后展望了WASI对未来前端开发的影响和最佳实践建议。

·前端开发

WebAssembly沙箱逃逸风险解析及缓解方案 | 前端安全指南

本文深入探讨了WebAssembly(Wasm)在前端开发中的应用及其面临的安全风险,特别是沙箱逃逸问题。文章详细解析了沙箱逃逸的常见途径,并提供了包括内存安全、API安全、JIT安全和宿主环境安全在内的综合缓解方案,以及工程化实践建议,旨在帮助开发人员有效降低安全风险,确保应用的安全性和稳定性。

·前端开发