cpm-原始教程

百度优化工程师 2023-02-09

特别说明（一）

1、本教程只针对SEO，自媒体引流等网络营销从业人员，对行业文章大量生成有需求者使

用学习。对于毕业论文、研究报告、演讲稿等专业性极强的文本生成，本系统无法满足！

2、本教程，需要需要一定计算机相关基础，但绝大部分seo 人员均可操作。无任何基础慎

拍！

3、本套系统无图形化界面，无GUi 封装（既无exe 文件），但操作简单，绝大部分时候只

需要三条命令即可（预处理、训练、生成），无需pycharm 等繁琐操作。

4、训练需要自行采集大量行业文章。

5、本系统训练后可批量生成文章（txt 文件）及日志。

至于双标题，带图片，聚合等功能，请自行寻找相关软件，只有相关专业软件才能达到好的

效果。

（某宝某鱼可以买到，全套不超过10 元，这里不做硬搭配，无教程，如有需求，可以推荐）

6、生成质量：文章生成质量根据训练次数、语料库等因素影响。

7、生成速度：训练速度由显卡决定，生成速度由字数、显卡等决定。

8、版本：只此一版，无更新，无套路。

（无更新原因：本系统核心算法是GPT2，是全球顶尖的AI 团队研发的。清华大学根据这个

进行优化，适合中文的模型，叫CPM，也就是卖的这个。什么V1 版本、V3、V5、V8 版本

都是包装和套路，底层算法不更新，哪来的版本升级；要是能升级算法，可以进入人工智能

全球TOP，还能再这儿忽悠人。）

9、不绑定机器

10、售后：单教程无附带指导及协助，可在售后群内交流！如实在不会可补差价远程安装。

硬件要求

训练、生成主要为GPU（显卡），内存最低16G，GPU 最低显存在8G 以上。

训练比较消耗显存及内存，越大越好！16+8 是最低配置！

比如：1080ti 11G / 3060 12G 目前性价比较高。

无需GPU 也可以正常使用，但训练、生成文章的速度会非常非常非常慢！

系统要求

Win10 专业版64 位

需检查是否安装vc

本教程分为三个方面

1、环境配置（难一些）

2、系统使用（非常简单）

3、常见问题解释

特别说明（二）

如果觉得训练生成很麻烦，又要换显卡，买机器很浪费时间和精力，或者

对下述操作觉得麻烦，可以联系店主。

店主可以提供多种合作方式（需要付一定费用）：

1、店主帮你采集数据、训练模型；然后把模型发给你，你进行生成即可。

2、你自己采集数据，店主提供机器进行训练。可按天付费！

3、采集、训练、生成均有店主负责；按照文章量进行购买。

4、等等

店主比较实在，只赚自己该赚的钱；价格合理，全网最低，欢迎咨询。

如果有其他事项或合作方案，均可探讨合作。

最后！AI 文章生成刚刚兴起，知道的人、做的人并不多。

对于做网站、SEO、自媒体、百家号、养域名等等，效果非常非常好！

希望大家抓住时机，共同进步！

环境配置

一、安装python

下载python

https://www.python.org/ftp/python/3.8.2/python-3.8.2-amd64.exe

双击python-3.8.2-amd64.exe

1、勾选下面的Add Python3.8 to PATH

2、点击Customize installation 全勾选（图1）

3、点击next

4、全勾选（图2）

下面的安装路径，不能出现中文，默认即可。

5、点击下一步

6、最后

点击disable path length limit （意思为禁用系统的Path 长度自动限制）

7、打开命令提示符（win+r 后cmd 回车）或者windows powershell

输入python，回车（图3）

出现版本即可。

二、安装cu'da

1、检查显卡支持的cuda 版本

win+R 打开cmd,输入nvidia-smi,我的显卡是3060,支持的cuda 版本是11.7

2、下载cuda

在官网https://developer.nvidia.com/cuda-toolkit-archivee 下载cuda11.7 安装包。

或者：https://developer.nvidia.com/cuda-downloads

注意1：安装包大小2.5G 左右，如果官网速度慢或者打不开，或者找不到相应版本的安装

包，可百度搜索，找到对应版本号的安装包下载。

注意2：这个版本号要跟上一步的版本号对应，下载相应的版本软件

注意3：国外官网，打开非常慢，需要注册一个账号才能下载

2.5G 左右

3、安装cuda

一路默认即可

之后打开控制台win+R 打开cmd,输入nvcc -V 出现NVIDIA 就说明安装成功了。

三、下载cudnn

1、官网地址：https://developer.nvidia.com/rdp/cudnn-archive

700M 左右

注意1：下载与cuda 版本号相一致的cudnn 版本，不要下错版本

注意2：cudnn 文件包大小700M 左右，如果官网速度慢或者打不开，或者找不到相应版本

的安装包，可百度搜索，找到对应版本

2、解压之后是这样的：

复制所有文件到

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0(版本号会不-样)

3、检查是否安装正确

分别运行下面这两个程序，

1、cmd 里运行方式，win+r 输入cmd 回车，

2、输入cd C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.0\extras\demo_suite

（注意，这个路径是你安装cudnn 的路径里面的）

3、然后输入bandwidthTest.exe 回车，会看到以下界面：

出现result=pass 为正确。

四、cuda 和cudnn 的一些事项

版本要和显卡支持的cuda 版本号对应

如失败，则重新安装。

先卸载，卸载最好用360 卸载工具，卸载的干净，卸载后重启，删除下面两个文件夹

然后重新安

五、安装环境

1、打开window powershell

（可以再左下角windows 图标右侧的放大镜里搜索pow）

（可以右键，固定到任务栏，以后会经常用到。）

打开powershell

2、第三方库安装

首先要升级以下pip 版本

升级pip 版本命令： python -m pip install --upgrade pip

需要安装的第三方库为：

transformers==4.6.0、sentencepiece==0.1.94、torch==1.7.0、Flask==1.1.2

安装命令如下：

安装命令pip install transformers==4.6.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

安装命令pip install sentencepiece==0.1.94 -i https://pypi.tuna.tsinghua.edu.cn/simple

安装命令pip install Flask==1.1.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

注意1：以上三条命令，一条一条输入，会自动安装，顺序安装。

注意2：官方服务器在国外，所以选用国内的镜像，速度会快很多，但极少情况可能出现中

断报错。重新执行即可！也可更换腾讯、阿里、豆瓣等镜像。也有其他方法加速，比如大家

可百度自行搜索下，做出选择。

注意3：安装过程如果顺利则为全部白字，如果出现红字则为报错，可以复制下来在百度搜

索解决办法。这种情况很正常，网上都能搜到解决办法。

如果执行pip install 出现Could not install packages due to an EnvironmentError: [WinError 5] 拒

绝访问的错误，可以参考https://www.cnblogs.com/CSGO-416482145/p/12589995.html

安装torch==1.7.0 比较特殊，仔细看

torch==1.7.0 无法自动下载安装，需要对应CUDA 版本的torch 离线安装包

打开https://download.pytorch.org/whl/torch_stable.html

下载对应CUDA 版本与对应Python 版本的torch1.7.0

最前面的cu110 表示cuda 11.X（版本号11.几的都可以用），接着是torch，再接着是版本，

Py后面的cp 表示Python 版本，比如cp38 表示Python 3.8，接着是系统和架构。Windows 就是

win。

这里千万不要下错！！！！！

下载对应的whl 文件之后放入c 盘

然后再powershell 里输入pip install pip 后面跟c:\你下载文件名

如：pip install pip c:\torch-1.7.0+cu110-cp38-cp38-win_amd64.whl

就会自动安装

六、其他

训练需要安装以下

命令：

pip install scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install func-timeout -i https://pypi.tuna.tsinghua.edu.cn/simple

以上如果全部顺利安装，则环境配置完成

解压cpm 主程序，会出现一下文件

主要用到的是以上三个文件

Preprocess.py 用于预处理数据

Train.py 用于训练预处理之后的数据

Generate.py 用于生成文章

下面开始使用说明，按照步骤来

1、需要学习的文章要按照格式处理

程序学习锻炼所需要的文章为txt 格式，每篇文章一个txt 文件

Txt 文档格式要求如下：

第一行为标题

第二行为空

第三行开始为正文，且第三行不能为空（正文中可以有换行）

2、我们把采集好的大量文件放到一个文件夹里，比如文件全部存D 盘下1 这个文件夹里

3、预处理数据

进入主程序目录右键preprocess.py 用记事本打开，

第一条红线为我们存放文件的位置，第二条第三条可以不用动

运行preprocess.py 预处理数据

首先进入到powershell 中，输入cd D:\CPM-main 回车进入到主程序目录

运行preprocess.py

输入python preprocess.py

然后回车

系统就会预处理我们存放在文件里的数据

速度根据文件多少而定

处理之后会在data 文件夹下生成train.pkl 文件。

4、训练

回到主程序，右键train.py，用记事本打开。

第一条红线

训练时，文章的长度

第二条红线

训练次数，训练次数越多，文章生成的效果越通顺

第三个红框

GPU 的训练大小，

可以理解为速度，数值越高，训练速度越快

注意1：这里面的数值请根据显卡做评估。显卡越高端，数值可以大一些。参考：三张1080ti

满跑为设置为50

第四条红线

训练成功后，模型存放位置

第五条红线

如果是全新的训练，默认为False，如果训练已经有的模型，则为模型地址

开始训练

首先进入到powershell 中，输入cd D:\CPM-main 回车进入到主程序目录

运行train.py

输入python train.py

注意：也要先进入主程序目录

回车后，程序开始根据之前的预处理数据开始训练数据

训练完成之后每一轮之后都会再model 里生成一个epoch+序号的文件夹，里面存着我们训

练好的数据。

注意：我们生成的时候只需要用到最后一轮数据

5、生成

进入主程序目录右键generate.py 用记事本打开，

第一个框为生成字数

第二个为训练好的模型存放位置

简单修改保存即可

接下来

与预处理数据及训练一样，先进入到主程序目录

然后运行generate.py

输入python generate.py

回车，依次输入标题与开头（标题与开头可以相同）

等待即可生成文章

这是训练16 轮的生成效果，建议50 轮以上

6、批量生成

在主程序目录中有test.csv，将要批量生成的标题放在A 列，文章开头放在B 列，保存。

批量生成与generate.py 类似

在主程序目录中有批量生成.py

右键用记事本打开，

修改生成字数及模型存放位置。

运行批量生成.py 即可

生成的文件会存放在主程序目录wenjian 这个文件夹中

一篇文章为一个txt

7、中断继续

如果数据量大，那么训练速度会很慢，会占用大量的时间

这时候如果需要重启机器或者电脑突然断电，就要继续操作。

操作方式：

修改train.py 里面的代码，如图：

将False 改为'model/epoch10'

这里要注意

1、引号别忘了

2、比如停止前训练了16 轮，那么在主程序model 文件内会生成16 个文件夹，epoch1-16，

这时，我们删除前15 个，仅保留最后一个即可，代码中设置为'model/epoch16'即可。重新

运行train.py 即可。

3、重新运行之后，model 中生成的文件夹会重新从epoch1 开始，但是数据是延续之前第

16 轮的数据。训练的数值如loss 等也是延续之前第16 轮的数值。

8、新数据添加

设置方式与中断继续一样。

这里说明一下，虽然设置方式一样，

但本质不同，中断继续用的是同一个pkl 文件，数据相同。

而新数据添加，则用的是与之前不同的pkl 数据。

至此，所有教程结束。由于时间匆忙，只简单做了这些，购买后的用户可以加店主微信，

进入微信群，后续还会有其他相关工具的使用教程，如双标题，聚合，图片等等。

教程肯定会上，但由于时间有限，只能有空的时

<<Ubuntu16.04 完全配置教程（各类软件安装、配置、界面美化等）

Ubuntu 18.04 安装NVIDIA显卡驱动教程>>

cpm-原始教程

您可能还会对下面的文章感兴趣：

随便看看