人工智能+聊天机器人+深度学习+学习与开发实践 2MB

qq_41392489

资源文件列表:

AI_chatbot.zip 大约有29个文件

AI_chatbot/
AI_chatbot/AI聊天机器人入门项目.pdf 1.77MB
__MACOSX/AI_chatbot/._AI聊天机器人入门项目.pdf 312B
AI_chatbot/.DS_Store 6KB
__MACOSX/AI_chatbot/._.DS_Store 120B
AI_chatbot/requirements.txt 1.19KB
AI_chatbot/webui.py 245B
AI_chatbot/Dockerfile 465B
AI_chatbot/models/
AI_chatbot/model.py 1.04KB
AI_chatbot/flagged/
AI_chatbot/main.py 361B
AI_chatbot/models/.DS_Store 6KB
__MACOSX/AI_chatbot/models/._.DS_Store 120B
AI_chatbot/models/chat/
AI_chatbot/flagged/log.csv 4.23KB
AI_chatbot/models/chat/.DS_Store 6KB
__MACOSX/AI_chatbot/models/chat/._.DS_Store 120B
AI_chatbot/models/chat/chatlm/
AI_chatbot/models/chat/chatlm/.DS_Store 6KB
__MACOSX/AI_chatbot/models/chat/chatlm/._.DS_Store 120B
AI_chatbot/models/chat/chatlm/tokenizer_config.json 1.39KB
AI_chatbot/models/chat/chatlm/special_tokens_map.json 75B
AI_chatbot/models/chat/chatlm/config.json 803B
AI_chatbot/models/chat/chatlm/tokenizer.json 1.03MB
AI_chatbot/models/chat/chatlm/generation_config.json 142B
AI_chatbot/models/chat/chatlm/README.md 187.41KB
AI_chatbot/models/chat/chatlm/configuration_chat_model.py 95B
AI_chatbot/models/chat/chatlm/modeling_chat_model.py 3.13KB

资源介绍:

深度学习资源包：本套资料专为初学者和进阶者设计的AI聊天机器人项目，包括Python编程、PyTorch框架应用、T5模型及Huggingface模型库使用，旨在帮助用户快速掌握人工智能领域的关键技术，适用于学术研究、项目开发及个人技能提升。

--- license: apache-2.0 datasets: - BelleGroup/train_3.5M_CN - wangrui6/Zhihu-KOL language: - zh library_name: transformers pipeline_tag: text-generation metrics: - perplexity - bleu tags: - text-generation-inference --- <div align="center"> # 中文对话0.2B小模型 ChatLM-Chinese-0.2B 中文 | [English](https://github.com/charent/ChatLM-mini-Chinese/blob/main/README.en.md) </div> 最新的readme文档请移步Github仓库[ChatLM-mini-Chinese](https://github.com/charent/ChatLM-mini-Chinese) # 一、👋介绍现在的大语言模型的参数往往较大，消费级电脑单纯做推理都比较慢，更别说想自己从头开始训练一个模型了。本项目的目标是整理生成式语言模型的训练流程，包括数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等。 ChatLM-mini-Chinese为中文对话小模型，模型参数只有0.2B（算共享权重约210M），可以在最低4GB显存的机器进行预训练（`batch_size=1`，`fp16`或者` bf16`），`float16`加载、推理最少只需要512MB显存。 - 公开所有预训练、SFT指令微调、DPO偏好优化数据集来源。 - 使用`Huggingface`NLP框架，包括`transformers`、`accelerate`、`trl`、`peft`等。 - 自实现`trainer`，支持单机单卡、单机多卡进行预训练、SFT微调。训练过程中支持在任意位置停止，及在任意位置继续训练。 - 预训练：整合为端到端的`Text-to-Text`预训练，非`mask`掩码预测预训练。 - 开源所有数据清洗（如规范化、基于mini_hash的文档去重等）、数据集构造、数据集加载优化等流程； - tokenizer多进程词频统计，支持`sentencepiece`、`huggingface tokenizers`的tokenizer训练； - 预训练支持任意位置断点，可从断点处继续训练; - 大数据集（GB级别）流式加载、支持缓冲区数据打乱，不利用内存、硬盘作为缓存，有效减少内存、磁盘占用。配置`batch_size=1, max_len=320`下，最低支持在16GB内存+4GB显存的机器上进行预训练； - 训练日志记录。 - SFT微调：开源SFT数据集及数据处理过程。 - 自实现`trainer`支持prompt指令微调，支持任意断点继续训练； - 支持`Huggingface trainer`的`sequence to sequence`微调； - 支持传统的低学习率，只训练decoder层的微调。 - 偏好优化：使用DPO进行全量偏好优化。 - 支持使用`peft lora`进行偏好优化； - 支持模型合并，可将`Lora adapter`合并到原始模型中。 - 支持下游任务微调：[finetune_examples](https://github.com/charent/ChatLM-mini-Chinese/blob/main/finetune_examples/info_extract/finetune_IE_task.ipynb)给出**三元组信息抽取任务**的微调示例，微调后的模型对话能力仍在。 🟢**最近更新** <details close> <summary> 2024-01-07 </summary> - 添加数据清洗过程中基于mini hash实现的文档去重（在本项目中其实数据集的样本去重），防止模型遇到多次重复数据后，在推理时吐出训练数据。 - 添加`DropDatasetDuplicate`类实现对大数据集的文档去重。 </details> <details close> <summary> 2023-12-29 </summary> - 更新模型代码（权重不变），可以直接使用`AutoModelForSeq2SeqLM.from_pretrained(...)`加载模型使用。 - 更新readme文档。 </details> <details close> <summary> 2023-12-18 </summary> - 补充利用`ChatLM-mini-0.2B`模型微调下游三元组信息抽取任务代码及抽取效果展示。 - 更新readme文档。 </details> <details close> <summary> 2023-12-14 </summary> - 更新SFT、DPO后的模型权重文件。 - 更新预训练、SFT及DPO脚本。 - 更新`tokenizer`为`PreTrainedTokenizerFast`。 - 重构`dataset`代码，支持动态最大长度，每个批次的最大长度由该批次的最长文本决定，节省显存。 - 补充`tokenizer`训练细节。 </details> <details close> <summary> 2023-12-04 </summary> - 更新`generate`参数及模型效果展示。 - 更新readme文档。 </details> <details close> <summary> 2023-11-28 </summary> - 更新dpo训练代码及模型权重。 </details> <details close> <summary> 2023-10-19 </summary> - 项目开源，开放模型权重供下载。 </details> # 二、🛠️ChatLM-0.2B-Chinese模型训练过程 ## 2.1 预训练数据集所有数据集均来自互联网公开的**单轮对话**数据集，经过数据清洗、格式化后保存为parquet文件。数据处理过程见`utils/raw_data_process.py`。主要数据集包括： 1. 社区问答json版webtext2019zh-大规模高质量数据集，见：[nlp_chinese_corpus](https://github.com/brightmart/nlp_chinese_corpus)。共410万，清洗后剩余260万。 2. baike_qa2019百科类问答，见：<https://aistudio.baidu.com/datasetdetail/107726>，共140万，清醒后剩余130万。 3. 中国医药领域问答数据集，见：[Chinese-medical-dialogue-data](https://github.com/Toyhom/Chinese-medical-dialogue-data)，共79万，清洗后剩余79万。 4. ~~金融行业问答数据，见：<https://zhuanlan.zhihu.com/p/609821974>，共77万，清洗后剩余52万。~~**数据质量太差，未采用。** 5. 知乎问答数据，见：[Zhihu-KOL](https://huggingface.co/datasets/wangrui6/Zhihu-KOL)，共100万行，清洗后剩余97万行。 6. belle开源的指令训练数据，介绍：[BELLE](https://github.com/LianjiaTech/BELLE)，下载：[BelleGroup](https://huggingface.co/BelleGroup)，仅选取`Belle_open_source_1M`、`train_2M_CN`、及`train_3.5M_CN`中部分回答较短、不含复杂表格结构、翻译任务（没做英文词表）的数据，共370万行，清洗后剩余338万行。 7. 维基百科（Wikipedia）词条数据，将词条拼凑为提示语，百科的前`N`个词为回答，使用`202309`的百科数据，清洗后剩余119万的词条提示语和回答。Wiki下载：[zhwiki](https://dumps.wikimedia.org/zhwiki/)，将下载的bz2文件转换为wiki.txt参考：[WikiExtractor](https://github.com/apertium/WikiExtractor)。数据集总数量1023万：Text-to-Text预训练集：930万，评估集：2.5万（因为解码较慢，所以没有把评估集设置太大）。~~测试集：90万。~~ SFT微调和DPO优化数据集见下文。 ## 2.2 模型 T5模型（Text-to-Text Transfer Transformer），详情见论文: [Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer](https://arxiv.org/abs/1910.10683)。模型源码来自huggingface，见：[T5ForConditionalGeneration](https://github.com/huggingface/transformers/blob/main/src/transformers/models/t5/modeling_t5.py#L1557)。模型配置见[model_config.json](https://huggingface.co/charent/ChatLM-mini-Chinese/blob/main/config.json)，官方的`T5-base`：`encoder layer`和`decoder layer `均为为12层，本项目这两个参数修改为10层。模型参数：0.2B。词表大小：29298，仅包含中文和少量英文。 ## 2.3 训练过程硬件： ```bash # 预训练阶段： CPU: 28 vCPU Intel(R) Xeon(R) Gold 6330 CPU @ 2.00GHz 内存：60 GB 显卡：RTX A5000(24GB) * 2 # sft及dpo阶段： CPU: Intel(R) i5-13600k @ 5.1GHz 内存：32 GB 显卡：NVIDIA GeForce RTX 4060 Ti 16GB * 1 ``` 1. **tokenizer 训练**：现有`tokenizer`训练库遇到大语料时存在OOM问题，故全量语料按照类似`BPE`的方法根据词频合并、构造词库，运行耗时半天。 2. **Text-to-Text 预训练**：学习率为`1e-4`到`5e-3`的动态学习率，预训练时间为8天。 3. **prompt监督微调（SFT）**：使用`belle`指令训练数据集（指令和回答长度都在512以下），学习率为`1e-7`到`5e-5`的动态学习率，微调时间2天。 4. **dpo直接偏好优化**：数据集[alpaca-gpt4-data-zh](https://huggingface.co/datasets/c-s-ale/alpaca-gpt4-data

标题	大小	时间
vue多页面vite配置	250.78KB	7月前

A*和DWA融合理论实现	65.87KB	7月前
56075472969450webShopping--idea.zip	50.1MB	7月前
STM32驱动MPU6050文件	413.87KB	7月前
CXDownload，支持下载超星学习通课件的ppt、zip、mp4	5.83KB	7月前

基于MicroPython的ESP32控制RGB灯软硬件设计方案Wokwi仿真	146.25KB	7月前
SQLMAP源文件下载	7.24MB	7月前
百度百科目录显示隐藏效果	98.06KB	7月前