东毅居士

In the Hugging Face transformers library, managing large models efficiently is crucial, especially when working with limited disk space or specific file size requirements. Two key features that help with this are sharding and the use of SafeTensors.

Save Hugging Face Model with One Bin

作者：XD / 发表： 2023年8月7日 02:41 / 编程笔记/ 阅读量：1857

Save Hugging Face Model with One Bin

max_shard_size (int or str, optional, defaults to "10GB") — Only applicable for models. The maximum size for a checkpoint before being sharded. Checkpoints shard will then be each of size lower than this size. If expressed as a string, needs to be digits followed by a unit (like "5MB").

EADST

Transformers DeepSeek V3 模型代码中文注释 modeling_deepseek_v3.py

作者：XD / 发表： 2025年4月24日 05:46 / 编程笔记/ 阅读量：756

Transformers Qwen2 模型代码中文注释 modeling_qwen2.py

作者：XD / 发表： 2025年4月24日 05:32 / 编程笔记/ 阅读量：765

Transformers Mixtral MOE模型代码中文注释 modular_mixtral.py

作者：XD / 发表： 2025年4月24日 05:11 / 编程笔记/ 阅读量：541

Transformers Llama 分词器代码中文注释 tokenization_llama.py

作者：XD / 发表： 2025年4月23日 04:55 / 编程笔记/ 阅读量：489

Transformers Llama 模型代码中文注释 modeling_llama.py

作者：XD / 发表： 2025年4月23日 04:50 / 编程笔记/ 阅读量：743

Transformers Llama 参数配置代码中文注释 configuration_llama.py

作者：XD / 发表： 2025年4月23日 04:24 / 编程笔记/ 阅读量：505

Print Transformers Pytorch Model Information

作者：XD / 发表： 2025年4月23日 04:15 / 编程笔记/ 阅读量：417

Transformers Demo for DeepSeek-R1-Distill-Qwen-7B

作者：XD / 发表： 2025年2月13日 00:18 / 编程笔记/ 阅读量：804

Sharding and SafeTensors in Hugging Face Transformers

作者：XD / 发表： 2024年7月29日 22:01 / 编程笔记/ 阅读量：2517

Save Hugging Face Model with One Bin

作者：XD / 发表： 2023年8月7日 02:41 / 编程笔记/ 阅读量：1857

LLAMA Model Save with INT8 Format

作者：XD / 发表： 2023年7月31日 02:51 / 编程笔记/ 阅读量：1751

Check "bert-base-uncased" Model Structure

作者：XD / 发表： 2023年4月25日 01:46 / 编程笔记/ 阅读量：1917

原 Transformers DeepSeek V3 模型代码中文注释 modeling_deepseek_v3.py

作者：XD / 发表： 2025年4月24日 05:46 / 编程笔记/ 阅读量：756

原 Transformers Qwen2 模型代码中文注释 modeling_qwen2.py

作者：XD / 发表： 2025年4月24日 05:32 / 编程笔记/ 阅读量：765

原 Transformers Mixtral MOE模型代码中文注释 modular_mixtral.py

作者：XD / 发表： 2025年4月24日 05:11 / 编程笔记/ 阅读量：541

原 Transformers Llama 分词器代码中文注释 tokenization_llama.py

作者：XD / 发表： 2025年4月23日 04:55 / 编程笔记/ 阅读量：489

原 Transformers Llama 模型代码中文注释 modeling_llama.py

作者：XD / 发表： 2025年4月23日 04:50 / 编程笔记/ 阅读量：743

原 Transformers Llama 参数配置代码中文注释 configuration_llama.py

作者：XD / 发表： 2025年4月23日 04:24 / 编程笔记/ 阅读量：505

原 Print Transformers Pytorch Model Information

作者：XD / 发表： 2025年4月23日 04:15 / 编程笔记/ 阅读量：417

原 Transformers Demo for DeepSeek-R1-Distill-Qwen-7B

作者：XD / 发表： 2025年2月13日 00:18 / 编程笔记/ 阅读量：804

原 Sharding and SafeTensors in Hugging Face Transformers

作者：XD / 发表： 2024年7月29日 22:01 / 编程笔记/ 阅读量：2517

原 Save Hugging Face Model with One Bin

作者：XD / 发表： 2023年8月7日 02:41 / 编程笔记/ 阅读量：1857

原 LLAMA Model Save with INT8 Format

作者：XD / 发表： 2023年7月31日 02:51 / 编程笔记/ 阅读量：1751

原 Check "bert-base-uncased" Model Structure

作者：XD / 发表： 2023年4月25日 01:46 / 编程笔记/ 阅读量：1917

Transformers DeepSeek V3 模型代码中文注释 modeling_deepseek_v3.py

Transformers Qwen2 模型代码中文注释 modeling_qwen2.py

Transformers Mixtral MOE模型代码中文注释 modular_mixtral.py

Transformers Llama 分词器代码中文注释 tokenization_llama.py

Transformers Llama 模型代码中文注释 modeling_llama.py

Transformers Llama 参数配置代码中文注释 configuration_llama.py

Print Transformers Pytorch Model Information

Transformers Demo for DeepSeek-R1-Distill-Qwen-7B

Sharding and SafeTensors in Hugging Face Transformers

Save Hugging Face Model with One Bin

LLAMA Model Save with INT8 Format

Check "bert-base-uncased" Model Structure