Infernet 提供与 OpenAI 完全兼容的 API 接口。如果你已经在使用 OpenAI API,只需修改 base_url 即可无缝迁移。
前往 注册页面 创建账号,或 登录 现有账号。在控制台的"API Keys"页面点击"创建新 Key"。
所有 API 请求均需在 HTTP Header 中携带 API Key:
Infernet API 的 endpoint 为 https://api.infernet.ai/v1,与 OpenAI 格式完全一致:
设置 stream=True 开启流式返回,适用于实时对话场景:
响应示例:
每个套餐有对应的请求频率限制。当超过限制时,API 返回 429 Too Many Requests,响应头中包含:
| HTTP 状态码 | 错误类型 | 说明 |
|---|---|---|
401 | invalid_api_key | API Key 无效或已过期 |
402 | insufficient_balance | 账户余额不足,请充值 |
404 | model_not_found | 指定的模型不存在 |
429 | rate_limit_exceeded | 超过请求频率限制,参考 Retry-After |
503 | no_available_node | 当前无可用节点,请稍后重试 |
500 | server_error | 平台内部错误,已自动告警 |
将你的 GPU 设备接入 Infernet 算力网络,在设备闲置时自动承接推理任务并赚取收益。
前往 供给方注册页面,选择"贡献算力"角色,填写邮箱和密码完成注册。注册完成后在"账号设置"页面生成 Provider Token(与 API Key 不同,专用于 Agent 认证)。
前往 下载页面 选择对应平台的版本:
Agent 配置保存在 ~/.infernet/agent.json,可手动编辑后重启 Agent 生效:
| 字段 | 类型 | 默认值 | 说明 |
|---|---|---|---|
max_vram_pct | int | 80 | 最大显存占用百分比(0-100) |
max_disk_cache_gb | int | 200 | 模型缓存最大磁盘占用 GB |
smart_idle_mode | bool | false | 仅在检测到键鼠空闲时接单 |
heartbeat_interval | string | "10s" | 心跳间隔,建议不低于 5s |
dashboard_addr | string | "127.0.0.1:9090" | 本地仪表盘监听地址 |
平台按每完成任务实时计算收益,每小时结算一次到账户余额。分润比例根据节点信誉分动态确定:
| 信誉分区间 | Provider 分润比例 | 平台抽成 |
|---|---|---|
| 0.9 – 1.0 | 85% | 15% |
| 0.7 – 0.9 | 80% | 20% |
| 0.5 – 0.7 | 75% | 25% |
| < 0.5 | 节点被暂停接单,需人工审核 | |
以下为当前支持的全部推理模型,持续扩充中。
| 模型 ID | 参数量 | 上下文 | 输入价格 | 输出价格 | 特点 |
|---|---|---|---|---|---|
llama-3-8b-instruct | 8B | 8K | $0.10 | $0.15 | 高速,性价比最优 |
llama-3-70b-instruct | 70B | 8K | $0.30 | $0.50 | 高质量,多语言 |
qwen2.5-7b-instruct | 7B | 32K | $0.10 | $0.15 | 中文优化,长上下文 |
qwen2.5-72b-instruct | 72B | 128K | $0.35 | $0.55 | 最强中文,超长上下文 |
deepseek-v3 | 671B MoE | 64K | $0.45 | $0.65 | 推理能力强 |
deepseek-r1 | 671B MoE | 128K | $0.60 | $0.90 | 链式推理,复杂问题 |
mistral-7b-instruct | 7B | 32K | $0.10 | $0.15 | 轻量,速度快 |
mixtral-8x7b-instruct | 56B MoE | 32K | $0.25 | $0.40 | MoE,高效推理 |
codellama-34b-instruct | 34B | 16K | $0.20 | $0.30 | 代码专用 |
yi-34b-chat | 34B | 4K | $0.20 | $0.30 | 中文,多轮对话 |
价格单位为每百万 tokens($/1M tokens)。
不同硬件支持的模型量化范围不同,Agent 会根据你的设备自动推荐最优配置:
| 硬件 | 推荐运行时 | 支持量化 | 最大模型 |
|---|---|---|---|
| NVIDIA RTX 4090 (24GB) | vLLM | FP16, BF16, Q4 | 70B Q4 |
| NVIDIA RTX 3060 (12GB) | llama.cpp | Q4_K_M, Q5_K_M | 13B Q4 |
| Apple M2 Max (96GB) | llama.cpp (Metal) | Q4_0, Q4_1 | 70B Q4 |
| Apple M1 (8GB) | llama.cpp (Metal) | Q2_K, Q3_K_S | 7B Q2 |
| AMD RX 7900 XTX | llama.cpp (ROCm) | Q4_K_M | 13B Q4 |
Infernet 采用预付费模式,需先充值再使用。充值后立即到账,可随时在控制台查看余额和用量明细。