EADST

gemma-3n-E4B-it配置文件config.json解析

{
  "architectures": ["Gemma3nForConditionalGeneration"]  // 模型主架构名称
  "audio_config": {  // 音频模型配置开始
    "conf_attention_chunk_size": 12,  // 注意力块大小
    "conf_attention_context_left": 13,  // 注意力左上下文窗口
    "conf_attention_context_right": 0,  // 注意力右上下文窗口
    "conf_attention_logit_cap": 50.0,  // logits 截断上限
    "conf_conv_kernel_size": 5,  // 卷积核大小
    "conf_num_attention_heads": 8,  // 注意力头数量
    "conf_num_hidden_layers": 12,  // transformer 层数
    "conf_positional_bias_size": 256,  // 位置偏置大小
    "conf_reduction_factor": 4,  // 降采样因子
    "conf_residual_weight": 0.5,  // 残差连接权重
    "gradient_clipping": 10000000000.0,  // 梯度裁剪值
    "hidden_size": 1536,  // 隐藏层维度
    "input_feat_size": 128,  // 输入特征维度
    "model_type": "gemma3n_audio",  // 音频模型类型
    "rms_norm_eps": 1e-06,  // RMSNorm 的 epsilon
    "sscp_conv_channel_size": [128, 32],  // 卷积层通道数量
    "sscp_conv_eps": 0.001,  // 卷积层 epsilon
    "sscp_conv_kernel_size": [[3, 3], [3, 3]],  // 每层卷积核大小
    "sscp_conv_stride_size": [[2, 2], [2, 2]],  // 每层卷积步幅
    "torch_dtype": "bfloat16",  // 数据类型为 bfloat16
    "vocab_offset": 262272,  // 词表偏移
    "vocab_size": 128  // 音频词表大小
  },
  "audio_soft_tokens_per_image": 188,  // 每段音频的软 token 数
  "audio_token_id": 262273,  // 音频 token 的 ID
  "boa_token_id": 256000,  // 音频开始 token ID
  "boi_token_id": 255999,  // 图像开始 token ID
  "eoa_token_id": 262272,  // 音频结束 token ID
  "eoi_token_id": 262144,  // 图像结束 token ID
  "eos_token_id": [1, 106],  // 文本结束 token ID
  "image_token_id": 262145,  // 图像 token ID
  "initializer_range": 0.02,  // 参数初始化范围
  "model_type": "gemma3n",  // 总体模型类型
  "text_config": {  // 文本模型配置开始
    "activation_sparsity_pattern": [...],  // 激活稀疏性配置
    "altup_active_idx": 0,  // ALTUP 激活索引
    "altup_coef_clip": 120.0,  // ALTUP 系数裁剪
    "altup_correct_scale": true,  // 是否修正缩放
    "altup_lr_multiplier": 1.0,  // ALTUP 学习率因子
    "altup_num_inputs": 4,  // ALTUP 输入数
    "attention_bias": false,  // 是否使用注意力 bias
    "attention_dropout": 0.0,  // 注意力 dropout
    "final_logit_softcapping": 30.0,  // logits 最终上限
    "head_dim": 256,  // 每个注意力头的维度
    "hidden_activation": "gelu_pytorch_tanh",  // 激活函数类型
    "hidden_size": 2048,  // 隐藏层维度
    "hidden_size_per_layer_input": 256,  // 每层输入维度
    "initializer_range": 0.02,  // 初始化范围
    "intermediate_size": 16384,  // FeedForward 中间层大小
    "laurel_rank": 64,  // Laurel 模块秩值
    "layer_types": [...],  // 每层使用的注意力类型
    "max_position_embeddings": 32768,  // 最大位置编码长度
    "model_type": "gemma3n_text",  // 文本模型类型
    "num_attention_heads": 8,  // 注意力头数
    "num_hidden_layers": 35,  // 文本模型层数
    "num_key_value_heads": 2,  // KV 头数量
    "num_kv_shared_layers": 15,  // 共享 KV 的层数
    "query_pre_attn_scalar": 256,  // 注意力前缩放因子
    "rms_norm_eps": 1e-06,  // RMSNorm 的 epsilon
    "rope_local_base_freq": 10000.0,  // RoPE 的局部基频
    "rope_scaling": null,  // RoPE 缩放参数
    "rope_theta": 1000000.0,  // RoPE 的 theta 参数
    "sliding_window": 512,  // 滑动窗口大小
    "torch_dtype": "bfloat16",  // 数据类型为 bfloat16
    "use_cache": true,  // 启用缓存
    "vocab_size": 262400,  // 总词表大小
    "vocab_size_per_layer_input": 262144  // 每层词表输入大小
  },
  "vision_config": {  // 图像模型配置开始
    "architecture": "mobilenetv5_300m_enc",  // 使用的视觉骨干网络
    "do_pooling": true,  // 是否进行池化
    "hidden_size": 2048,  // 隐藏层大小
    "initializer_range": 0.02,  // 初始化范围
    "label_names": ["LABEL_0", "LABEL_1"],  // 类别标签名
    "model_type": "gemma3n_vision",  // 视觉模型类型
    "num_classes": 2,  // 分类数
    "rms_norm_eps": 1e-06,  // RMSNorm 的 epsilon
    "torch_dtype": "bfloat16",  // 数据类型为 bfloat16
    "vocab_offset": 262144,  // 图像 token 偏移
    "vocab_size": 128  // 图像词表大小
  },
  "vision_soft_tokens_per_image": 256  // 每张图的软 token 数
}
相关标签
About Me
XD
Goals determine what you are going to be.
Category
标签云
BeautifulSoup DeepSeek AI Cloudreve FP16 CSV Freesound COCO Anaconda 图形思考法 Land CTC Docker transformers Template SAM LoRA FP32 Github git Firewall v2ray NLTK Password GoogLeNet XML FP8 Jetson ResNet-50 OpenCV Clash Statistics C++ Zip Tiktoken Crawler 财报 diffusers 继承 Nginx Review Vim Mixtral DeepStream SVR Breakpoint Plate InvalidArgumentError 公式 uWSGI tar Card tqdm NameSilo Excel Augmentation LLAMA Heatmap Quantization Ptyhon Quantize VPN Safetensors Michelin GGML Jupyter Pandas 飞书 Image2Text PIP Baidu FlashAttention Animate Transformers torchinfo Paper SPIE BTC 顶会 GIT Logo PyTorch Hotel 多线程 BF16 MD5 YOLO Web Input Random logger 证件照 Food PDF JSON Dataset Domain RAR Paddle 签证 CAM Hilton Tensor Tracking 阿里云 uwsgi Datetime Algorithm 云服务器 git-lfs 净利润 多进程 第一性原理 Agent GPTQ 论文速读 Django PDB ModelScope Disk 递归学习法 Bert 论文 Qwen2.5 CEIR Python 版权 GPT4 Markdown API PyCharm HaggingFace Proxy ChatGPT TensorRT TSV Color XGBoost Pytorch Qwen Qwen2 Website Pickle FastAPI LaTeX Search Attention WAN VSCode 图标 域名 Video QWEN UNIX IndexTTS2 VGG-16 printf Diagram Gemma CV UI scipy Vmess CUDA LLM v0.dev CLAP Distillation NLP TensorFlow Windows Streamlit Rebuttal Hungarian WebCrawler Bipartite 算法题 Ubuntu TTS Claude Google 腾讯云 强化学习 Permission Linux Numpy Magnet Bitcoin Sklearn OpenAI News hf Data SQL Git 搞笑 Plotly FP64 报税 Interview Translation 音频 Llama ONNX Pillow Knowledge Use HuggingFace Miniforge OCR RGB Math Shortcut Conda Base64 mmap SQLite 关于博主 Bin llama.cpp CC LeetCode EXCEL icon
站点统计

本站现有博文327篇,共被浏览833157

本站已经建立2538天!

热门文章
文章归档
回到顶部