Qwen2.5+Qwen3安装(Windows和raspberrypi-4GB)

时间: 2025-05-19 admin 互联网

前言

近几天阿里发布了Qwen2.5, 比起Qwen2确实好了不少, 现在我们一起开始吧

Qwen2.5介绍

  • 密集、易用、仅限解码器的语言模型,提供 0.5B1.5B3B7B14B32B 和 72B 大小,以及 base 和 instruct 变体。
  • 在我们最新的大规模数据集上进行预训练,包含高达 18T 的 token。
  • 在指令跟随、生成长文本(超过 8K 个标记)、理解结构化数据(例如表格)以及生成结构化输出(尤其是 JSON)方面有了显著改进。
  • 对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实现和条件设置。
  • 上下文长度最多支持 128K 个令牌,并且可以生成最多 8K 个令牌。
  • 多语言支持超过 29 种语言,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

Qwen2.5有三种模型, 分别是

  • Qwen2.5:0.5B、1.5B、3B、7B、14B、32B 和 72B
  • Qwen2.5-Coder:1.5B、7B
  • Qwen2.5-Math:1.5B、7B 和 72B。

这个是官网对Qwen2.5性能的指标

再来看一看Qwen2.5与Llama-3.1-70B  Mistral-Large-V2  Qwen2的对比

可见Qwen2.5确实有所提升

Qwen3介绍

Qwen3 是阿里巴巴集团旗下的通义实验室自主研发的新一代超大规模语言模型,是继 Qwen1、Qwen2、Qwen2.5 等版本之后的重要迭代。该模型在多个维度进行了深度优化与升级,旨在提供更强大、更灵活、更可靠的语言理解与生成能力。

Qwen3 的发布标志着通义千问系列模型在通用性、推理能力、多模态支持、部署灵活性和国际化程度 等方面迈上了新的台阶,适用于从科研探索到工业级落地的多种应用场景。


🔬 核心特性

1. 更强更全的基座模型架构

  • Qwen3 基于更大规模的语料进行训练,参数量达到超大规模级别 (具体数字未公开,但据推测应为数百亿至数千亿参数量级)。
  • 提供了多个版本,包括:
    • Dense 模型 :适用于需要高精度推理的场景。
    • MoE(Mixture of Experts)模型 :通过稀疏激活机制,在保持高性能的同时显著降低计算资源消耗。
  • 支持多种量化版本(如 Int4、Int8),便于在边缘设备或移动端部署。

2. 多模式推理能力增强

Qwen3 支持两种主要推理模式切换:

  • Chat 模式 :面向日常对话交互,注重流畅性、上下文连贯性和自然语言理解。
  • Reasoning 模式 :专注复杂推理任务,如逻辑推导、数学运算、编程生成等,提升推理准确率与稳定性。

这种设计使得模型能够根据不同使用场景动态调整行为,实现“一模多用”。

工具以及要求

要求

  1. CPU以及2GB以上的内存
  2. NVIDIA显卡(不一定要, 有的话可以大大提升速度)

工具

  1. Linux要curl
  2. 其他Ollama自动安装

安装ollama

先打开ollama官网点击Download, 选择系统:

Windows系统

打开安装包, 一键安装。

加速下载

Ollama加速

Linux系统

运行以下代码

curl -fsSL https://ollama/install.sh | sh

验证安装

  • Windows终端按Win + R输入powershell , 按下Enter、
  • Linux按下Ctrl + Alt  + T打开

输入命令启动Ollama

ollama serve

如果安装成功你会看到提示

Error: listen tcp 127.0.0.1:11434: bind: address already in use

 证明Ollama已经在运行了

下载Qwen3

下载并运行

 打开下载界面, 选择你的版本

黄色是MOE架构的,A2B是激活2B,A22B是激活22B,点击复制你想要的

运行

ollama run qwen3

这个下载速度取决于你的网速,模型文件比较大的话下载可能比较慢, 耐心等待。如果速度只有几KB的话,可以按Ctrl + C把它停之后,重新开始。Ollama有缓存不用担心会重新开始下载(重启会删除),基本上重新打开之后速度应该就会恢复。

如果你的网络, 可能不太好的话会报错, 帮我们需要修改hosts文件

Windows:"C:\Windows\System32\drivers\etc\hosts"(需要管理员权限)

Linux:"/etc/hosts"(需要管理员权限)

hosts文件中添加一下代码, 再一次运行应该可以成功

172.67.182.229 registry.ollama.ai

下载好之后就可以开始对话了

~ ollama run qwen3:0.6b
>>> 你好
<think>
嗯,用户发来的是“你好”,我需要回应。首先,用户打招呼,可以友好回应,比如“你好!有什么可以帮到你的吗?”这样既保持
了友好,又没有过于生硬。

接下来,用户可能会继续对话,所以回应需要保持开放性。比如可以询问他们的需求,这样能引导对话继续下去。同时,也要注意语
气的自然,避免显得生硬或机械。

另外,用户可能在测试我的反应,或者只是简单的问候。这时候保持回应的灵活性很重要,避免机械地回复,而是根据情境调整语气
。比如,如果用户有具体的问题,可以主动询问,而不是直接回答问题,这样能更好地引导对话。

还要考虑用户可能的深层需求。比如,他们可能希望得到情感支持,或者在寻求帮助。这时候回应要体现出关心,比如用“我理解”
或者“我在这里”这样的表达,让用户感到被重视。

最后,确保整个回应简洁,避免冗长。保持自然的交流,让对话继续下去,同时维护良好的互动氛围。这样既能满足用户的初始请求
,又不会显得生疏或疏离。
</think>

你好!有什么可以帮到你的吗?😊

>>> S

下载Qwen2.5

下载Qwen2.5

同上打开下载界面, 选择你的版本, 或者点击View more

如果是CPU运行下载的模型大小不能超过内存大小(比如我的Raspberry Pi 4 4GB就不能超过3GB), 使用GPU不能大于显存, 点击你要的模型

点击复制命令, 到终端运行命令, 例如我是下载7b-instruct-q2_K, 就运行

ollama run qwen2.5:7b-instruct-q2_K

后面他还要进行验证文件CPU占用率一般是100%

但你看到⠦的时候就是下载了好了, 应该是这样, 把它加载模型就可以开始聊天了

pulling manifest
pulling 799735a41f23... 100% ▕████████████████████████████████████████████████████████▏ 3.0 GB
pulling 66b9ea09bd5b... 100% ▕████████████████████████████████████████████████████████▏   68 B
pulling eb4402837c78... 100% ▕████████████████████████████████████████████████████████▏ 1.5 KB
pulling 832dd9e00a68... 100% ▕████████████████████████████████████████████████████████▏  11 KB
pulling b3e5c1460be4... 100% ▕████████████████████████████████████████████████████████▏  485 B
verifying sha256 digest
writing manifest
success

比如说

>>> 你好
好的,你有详细的时间序列数据和相应的价格、数量等信息。请问你在说些什么?我可以帮助你解答或提供有关这个时间段的财务分
析建议。请继续分享相关信息,我会尽力为你提供支持。

Cherry Studio使用 

下载

打开下载链接下载Cherry Studio安装之后打开

 打开安装包,点击下一步

点击安装

 

 启动

点击设置图标

点击模型服务的Ollama

 

如图填写配置后点击管理

 

添加你的模型

 

返回

 

选择模型

 

然后完成设置,开始聊天 

Ollama常用命令

输入ollama你会看到

Usage:
  ollama [flags]
  ollama [command]

Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  pull        Pull a model from a registry
  push        Push a model to a registry
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command

Flags:
  -h, --help      help for ollama
  -v, --version   Show version information

Use "ollama [command] --help" for more information about a command.

Ollama基本命令使用说明 

命令

作用

ollama list

列出模型

ollama run 模型名称运行模型
ollama rm 模型名称删除模型
ollama -v查看版本
ollama serve

启动Ollama服务

Ollama常用控制指令

多行输入

使用三个双引号括起来

>>>"""
你的消息
1.
2.
3.
"""

帮助

输入”/?“ 或”/help"查看帮助 

>>> /?
Available Commands:
  /set            Set session variables
  /show           Show model information
  /load <model>   Load a session or model
  /save <model>   Save your current session
  /clear          Clear session context
  /bye            Exit
  /?, /help       Help for a command
  /? shortcuts    Help for keyboard shortcuts

Use """ to begin a multi-line message.

清空对话

输入“/clear”清空以前的对话历史

>>> /clear
Cleared session context

退出

输入“/bye”可以退出

>>> /bye