Metadata-Version: 2.1
Name: mindformers
Version: 1.3.0
Summary: mindformers platform: linux, cpu: x86_64
Home-page: https://www.mindspore.cn
Download-URL: https://gitee.com/mindspore/mindformers/tags
Author: The MindSpore Authors
Author-email: contact@mindspore.cn
License: Apache 2.0
Project-URL: Sources, https://gitee.com/mindspore/mindformers
Project-URL: Issue Tracker, https://gitee.com/mindspore/mindformers/issues
Keywords: mindformers
Platform: linux
Classifier: Development Status :: 5 - Production/Stable
Classifier: Environment :: Console
Classifier: Environment :: Web Environment
Classifier: Intended Audience :: Science/Research
Classifier: Intended Audience :: Developers
Classifier: License :: OSI Approved :: Apache Software License
Classifier: Programming Language :: Python :: 3 :: Only
Classifier: Programming Language :: Python :: 3.7
Classifier: Programming Language :: Python :: 3.8
Classifier: Programming Language :: Python :: 3.9
Classifier: Topic :: Scientific/Engineering
Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
Classifier: Topic :: Software Development
Classifier: Topic :: Software Development :: Libraries
Classifier: Topic :: Software Development :: Libraries :: Python Modules
Requires-Python: >=3.7
Description-Content-Type: text/markdown
License-File: LICENSE
Requires-Dist: setuptools
Requires-Dist: sentencepiece (>=0.1.97)
Requires-Dist: ftfy (>=6.1.1)
Requires-Dist: regex (>=2022.10.31)
Requires-Dist: tqdm (>=4.65.0)
Requires-Dist: pyyaml (>=6.0)
Requires-Dist: jieba (>=0.42.1)
Requires-Dist: rouge-chinese (>=1.0.3)
Requires-Dist: nltk (>=2.0)
Requires-Dist: mindpet (==1.0.4)
Requires-Dist: mdtex2html
Requires-Dist: opencv-python-headless
Requires-Dist: pyarrow (==12.0.1)
Requires-Dist: tokenizers (==0.15.0)
Requires-Dist: astunparse (>=1.6.3)
Requires-Dist: numpy (<2.0.0)
Requires-Dist: datasets (==2.18.0)
Requires-Dist: tiktoken
Requires-Dist: jinja2
Requires-Dist: setproctitle
Requires-Dist: safetensors

# ������������MindSpore Transformers���MindFormers���

[![LICENSE](https://img.shields.io/github/license/mindspore-lab/mindformers.svg?style=flat-square)](https://github.com/mindspore-lab/mindformers/blob/master/LICENSE)
[![Downloads](https://static.pepy.tech/badge/mindformers)](https://pepy.tech/project/mindformers)
[![PyPI](https://badge.fury.io/py/mindformers.svg)](https://badge.fury.io/py/mindformers)
[![PyPI - Python Version](https://img.shields.io/pypi/pyversions/mindformers.svg)](https://pypi.org/project/mindformers)

## ������������

MindSpore Transformers���������������������������������������������������������������������������������������������������������������������������������Transformer���������������������SOTA���������������������������������������������������������������������������������������������������������������������

MindSpore Transformers������������MindSpore���������������������������������������������������������������

- ���������������������������������������������������������������������
- ���������������������������������������������
- ������������������������������������������������������������������������������������
- ���������������������������������/������������������������������������������������
- ������������������������������������������������������������������������������������������������
- ������Trainer���pipeline���AutoClass���������������������������
- ������������SOTA������������������������������������
- ���������������������������������������������������

������������MindSpore Transformers���������������������������issue������������������������������������������

- ���� **[MindFormers������](https://www.mindspore.cn/mindformers/docs/zh-CN/dev/index.html)**
- ���� [���������������������](https://www.mindspore.cn/mindformers/docs/zh-CN/dev/usage/parameter_efficient_fine_tune.html)
- ���� [AICC������������](docs/readthedocs/source_zh_cn/docs/practice/AICC.md)

### ������������

MindFormers���������������������������[LoRA������](https://www.mindspore.cn/mindformers/docs/zh-CN/dev/usage/parameter_efficient_fine_tune.html)������[LoRA������������](https://www.mindspore.cn/mindformers/docs/zh-CN/dev/function/transform_weight.html#lora������������)������������������������������������������������������LoRA���������������

������MindFormers������������������������������

<table>
  <thead>
    <tr>
      <th> ������ </th>
      <th> ������ </th>
      <th> ������ </th>
      <th> ��������� </th>
      <th> ������ </th>
      <th> ������ </th>
      <th> <a href="docs/feature_cards/Pet_Tuners.md"> LoRA </a> </th>
      <th> ������ </th>
      <th> ������ </th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td rowspan="3"> <a href="docs/model_cards/llama2.md"> LLaMA2 </a> </td>
      <td> 7B </td>
      <td> 4K </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/llama2/run_llama2_predict.sh"> generate </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> PPL </td>
    </tr>
    <tr>
      <td> 13B </td>
      <td> 4K </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/llama2/run_llama2_predict.sh"> generate </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> PPL </td>
    </tr>
    <tr>
      <td> 70B </td>
      <td> 4K </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/llama2/run_llama2_predict.sh"> generate </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> PPL </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="2"> <a href="research/llama3/llama3.md"> LLaMA3 </a> </td>
      <td> 8B </td>
      <td> 8K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/llama3/run_llama3_predict.sh"> generate </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
    <tr>
      <td> 70B </td>
      <td> 8K </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/llama3/run_llama3_predict.sh"> generate </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
<tbody>
    <tr>
      <td rowspan="2"> <a href="research/llama3_1/llama3_1.md"> LLaMA3.1 </a> </td>
      <td> 8B </td>
      <td> 8K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/llama3_1/llama3_1.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
    <tr>
      <td> 70B </td>
      <td> 8K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/llama3_1/llama3_1.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="2"> <a href="research/baichuan2/baichuan2.md"> Baichuan2 </a> </td>
      <td> 7B </td>
      <td> 4K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/baichuan2/run_baichuan2_predict.sh"> generate </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> PPL </td>
    </tr>
    <tr>
      <td> 13B </td>
      <td> 4K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/baichuan2/run_baichuan2_predict.sh"> generate </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> PPL </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="1"> <a href="docs/model_cards/glm2.md"> GLM2 </a> </td>
      <td> 6B </td>
      <td> 2K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/glm2/run_glm2_predict.sh"> generate </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> PPL / Rouge </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="1"> <a href="docs/model_cards/glm3.md"> GLM3 </a> </td>
      <td> 6B </td>
      <td> 2K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/glm3/run_glm3_predict.sh"> generate </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="1"> <a href="docs/model_cards/glm3.md"> GLM3-32K </a> </td>
      <td> 6B </td>
      <td> 32K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/glm32k/run_glm32k_predict.sh"> generate </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="1"> <a href="docs/model_cards/glm4.md"> GLM4 </a> </td>
      <td> 9B </td>
      <td> 8K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/glm4/run_glm4_predict.sh"> generate </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="1"> <a href="docs/model_cards/cogvlm2_video.md"> CogVLM2-Video </a> </td>
      <td> 13B </td>
      <td> 2K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="docs/model_cards/cogvlm2_video.md"> docs </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="1"> <a href="docs/model_cards/cogvlm2_image.md"> CogVLM2-Image </a> </td>
      <td> 19B </td>
      <td> 4K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> <a href="docs/model_cards/cogvlm2_image.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="2"> <a href="research/qwen/qwen.md"> Qwen </a> </td>
      <td> 7B </td>
      <td> 8K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/qwen/qwen.md"> docs </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> C-Eval </td>
    </tr>
    <tr>
      <td> 14B </td>
      <td> 8K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/qwen/qwen.md"> docs </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> C-Eval </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="7"> <a href="research/qwen1_5/qwen1_5.md"> Qwen1.5 </a> </td>
      <td> 0.5B </td>
      <td> 8K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> <a href="research/qwen1_5/qwen1_5.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
    <tr>
      <td> 1.8B </td>
      <td> 8K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> <a href="research/qwen1_5/qwen1_5.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
    <tr>
      <td> 4B </td>
      <td> 8K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> <a href="research/qwen1_5/qwen1_5.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
    <tr>
      <td> 7B </td>
      <td> 32K </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/qwen1_5/qwen1_5.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
    <tr>
      <td> 14B </td>
      <td> 32K </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/qwen1_5/qwen1_5.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
    <tr>
      <td> 32B </td>
      <td> 8K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> <a href="research/qwen1_5/qwen1_5.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
    <tr>
      <td> 72B </td>
      <td> 32K </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/qwen1_5/qwen1_5.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="6"> <a href="research/qwen2/qwen2.md"> Qwen2 </a> </td>
      <td> 0.5B </td>
      <td> 32K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/qwen2/qwen2.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
    <tr>
      <td> 1.5B </td>
      <td> 32K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/qwen2/qwen2.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
    <tr>
      <td> 7B </td>
      <td> 32K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/qwen2/qwen2.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
    <tr>
      <td> 57B-A14B </td>
      <td> 8K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> <a href="research/qwen2/qwen2.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
    <tr>
      <td> 57B </td>
      <td> 32K </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/qwen2/qwen2.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
    <tr>
      <td> 72B </td>
      <td> 128K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/qwen2/qwen2.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="1"> <a href="research/qwenvl/qwenvl.md"> QwenVL </a> </td>
      <td> 9.6B </td>
      <td> 2K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/qwenvl/run_qwenvl_predict.sh"> generate </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="2"> <a href="research/internlm/internlm.md"> InternLM </a> </td>
      <td> 7B </td>
      <td> 2K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/internlm/run_internlm_predict.sh"> generate </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> PPL </td>
    </tr>
    <tr>
      <td> 20B </td>
      <td> 2K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/internlm/run_internlm_predict.sh"> generate </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> PPL </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="2"> <a href="research/internlm2/internlm2.md"> InternLM2 </a> </td>
      <td> 7B </td>
      <td> 2K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/internlm2/run_internlm2_predict.sh"> generate </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
    <tr>
      <td> 20B </td>
      <td> 4K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
      <td> <a href="scripts/examples/internlm2/run_internlm2_predict.sh"> generate </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="2"> <a href="research/yi/yi.md"> Yi </a> </td>
      <td> 6B </td>
      <td> 2K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/yi/run_yi_predict.sh"> generate </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
    <tr>
      <td> 34B </td>
      <td> 4K </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/yi/run_yi_predict.sh"> generate </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="1"> <a href="research/mixtral/mixtral.md"> Mixtral </a> </td>
      <td> 8x7B </td>
      <td> 32K </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/mixtral/mixtral.md"> docs </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="1"> <a href="research/deepseek/deepseek.md"> DeepSeek Coder </a> </td>
      <td> 33B </td>
      <td> 4K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/deepseek/deepseek.md"> docs </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="1"> <a href="research/deepseek1_5/deepseek1_5.md"> DeepSeek Coder1.5 </a> </td>
      <td> 7B </td>
      <td> 4K </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/deepseek1_5/deepseek1_5.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="1"> <a href="research/deepseek2/deepseek2.md"> DeepSeekV2 </a> </td>
      <td> 236B </td>
      <td> 4K </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> <a href="research/deepseek2/deepseek2.md"> docs </a> </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="1"> <a href="docs/model_cards/codellama.md"> CodeLlama </a> </td>
      <td> 34B </td>
      <td> 4K </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/codellama/run_codellama_predict.sh"> generate </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> HumanEval </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="1"> <a href="docs/model_cards/gpt2.md"> GPT2 </a> </td>
      <td> 13B </td>
      <td> 2K </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td> <a href="scripts/examples/gpt2/run_gpt2_predict.sh"> generate </a> </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> PPL </td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="1"> <a href="docs/model_cards/whisper.md"> Whisper </a> </td>
      <td> 1.5B </td>
      <td> - </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> &#x2713 </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
      <td style="text-align: center"> - </td>
    </tr>
  </tbody>
</table>

## ������������

### ������������������

������������������������[Atlas 800T A2](https://www.hiascend.com/hardware/ai-server?tag=900A2)������������������

���������������������������Python���������3.10���

| MindFormers | MindPet | MindSpore | CANN |                                  ������������                                  | ������������ |  ������  |
|:-----------:|:-------:|:---------:|:----:|:----------------------------------------------------------------------:|:----:|:----:|
|    1.3.0    |  1.0.4  |   2.4.0   |  -   | [driver](https://www.hiascend.com/hardware/firmware-drivers/community) |  -   | ������������ |

������MindFormers������������������������������������������������CANN������������������������������������������������������������������������������������������������������������������

#### ���������������

MindFormers���MindSpore������������������������

| MindFormers | MindSpore | ��������� |
|:-----------:|:---------:|:---:|
|    1.3.0    |    2.3    |  ���  |
|    1.2.0    |    2.4    |  ���  |

### ������������������

MindFormers������������������������������������������������������������������������������

```shell
git clone -b r1.3.0 https://gitee.com/mindspore/mindformers.git
cd mindformers
bash build.sh
```

## ������������������

MindFormers���������������������������������������������������������������������������[������������](#������������)���������������������������������������������������������������������������������������������������������

MindFormers������������������������������������������������������������������������������`scripts/msrun_launcher.sh`���������������������������������������������������������`msrun`������������������������[msrun������](https://www.mindspore.cn/tutorials/experts/zh-CN/r2.3.1/parallel/msrun_launcher.html)���
������������������������������������������

  | **������**           | **������������������** | **������������������** |     **���������**      | **������**           |
  |------------------|:----------:|:----------:|:----------------:|------------------|
  | WORKER_NUM       |  &check;   |  &check;   |        8         | ���������������������������������������    |
  | LOCAL_WORKER     |     -      |  &check;   |        8         | ���������������������������������������    |
  | MASTER_ADDR      |     -      |  &check;   |    127.0.0.1     | ���������������������������������ip    |
  | MASTER_PORT      |     -      |  &check;   |       8118       | ���������������������������������������    |
  | NODE_RANK        |     -      |  &check;   |        0         | ���������������������rank id   |
  | LOG_DIR          |     -      |  &check;   | output/msrun_log | ������������������������������������������������ |
  | JOIN             |     -      |  &check;   |      False       | ���������������������������������������    |
  | CLUSTER_TIME_OUT |     -      |  &check;   |       7200       | ���������������������������������������������  |

> ������������������������`device_id`���������������������������������`ASCEND_RT_VISIBLE_DEVICES`���������������������2���3������������`export ASCEND_RT_VISIBLE_DEVICES=2,3`���

### ������������

```shell
# 1. ���������������������������������������8���������
bash scripts/msrun_launcher.sh "run_mindformer.py \
  --config {CONFIG_PATH} \
  --run_mode {train/finetune/eval/predict}"

# 2. ������������������������������������������������������������
bash scripts/msrun_launcher.sh "run_mindformer.py \
  --config {CONFIG_PATH} \
  --run_mode {train/finetune/eval/predict}" WORKER_NUM

# 3. ���������������������������������
bash scripts/msrun_launcher.sh "run_mindformer.py \
  --config {CONFIG_PATH} \
  --run_mode {train/finetune/eval/predict}" \
  WORKER_NUM MASTER_PORT LOG_DIR JOIN CLUSTER_TIME_OUT
 ```

- ������������

  ```shell
  # ���������������������������������������8���������
  bash scripts/msrun_launcher.sh "run_mindformer.py \
    --config path/to/xxx.yaml \
    --run_mode finetune"

  # ������������������������������
  bash scripts/msrun_launcher.sh "run_mindformer.py \
    --config path/to/xxx.yaml \
    --run_mode finetune" 8

  # ���������������������������������
  bash scripts/msrun_launcher.sh "run_mindformer.py \
    --config path/to/xxx.yaml \
    --run_mode finetune" \
    8 8118 output/msrun_log False 300
  ```

### ������������

���������������������������������������������������������������������������������������������������MASTER_ADDR���������������������ip���������
���������������������ip������������������������������������������NODE_RANK���������

  ```shell
  # ���������������������������������
  bash scripts/msrun_launcher.sh "run_mindformer.py \
   --config {CONFIG_PATH} \
   --run_mode {train/finetune/eval/predict}" \
   WORKER_NUM LOCAL_WORKER MASTER_ADDR MASTER_PORT NODE_RANK LOG_DIR JOIN CLUSTER_TIME_OUT
  ```

- ������������

  ```shell
  # ������0���������ip���192.168.1.1���������������������������8������������������4���
  bash scripts/msrun_launcher.sh "run_mindformer.py \
    --config {CONFIG_PATH} \
    --run_mode {train/finetune/eval/predict}" \
    8 4 192.168.1.1 8118 0 output/msrun_log False 300

  # ������1���������ip���192.168.1.2���������0���������1���������������������NODE_RANK������
  bash scripts/msrun_launcher.sh "run_mindformer.py \
    --config {CONFIG_PATH} \
    --run_mode {train/finetune/eval/predict}" \
    8 4 192.168.1.1 8118 1 output/msrun_log False 300
  ```

### ������������

MindFormers������`run_mindformer.py`������������������������������������������������������������������������������������������������������������������������������������������������

```shell
# ������run_mindformer.py������������������������������������������������
python run_mindformer.py --config {CONFIG_PATH} --run_mode {train/finetune/eval/predict}
```

## ������������

������������������������������������MindSpore������������[Contributor Wiki](https://www.mindspore.cn/mindformers/docs/zh-CN/dev/faq/mindformers_contribution.html)���

## ���������������

[Apache 2.0���������](LICENSE)
