robots.txt 告诉搜索引擎爬虫该抓什么,llms.txt 则告诉大语言模型你的网站是什么。这个新兴协议正在成为 GEO 优化的标配。
什么是 llms.txt
llms.txt 是一个放置在网站根目录的纯文本文件(https://yoursite.com/llms.txt),专门为大语言模型(LLMs)设计。它用结构化的方式描述你的网站,帮助 AI 快速理解你的网站是做什么的、核心内容在哪里、如何正确引用你。
这个协议由 Jeremy Howard(fast.ai 创始人)在 2024 年提出,目前已被越来越多的网站采用。虽然还不是正式标准,但主流 AI 搜索引擎已经开始识别和使用这个文件。
为什么需要 llms.txt
AI 模型在理解网站时面临几个挑战:
- 上下文有限:AI 不能像人类一样浏览整个网站,它需要快速获取核心信息
- 结构不明确:仅靠 HTML 结构,AI 很难判断哪些是核心页面、哪些是辅助内容
- 引用困难:AI 不知道你希望被如何引用(品牌名、网站名、作者名)
- 内容优先级:AI 无法判断哪些内容是最新的、最权威的
llms.txt 解决了这些问题,它就像是你给 AI 的一份「网站说明书」。
llms.txt 格式规范
llms.txt 使用 Markdown 格式,结构清晰。以下是标准格式:
# 网站名称
> 一句话描述你的网站
## 关于
详细描述你的网站、公司或产品。
## 核心页面
- [页面标题](URL): 简短描述
- [页面标题](URL): 简短描述
## 文档
- [文档标题](URL): 简短描述
## 可选
- [其他资源](URL): 简短描述关键原则:
- 使用 Markdown 格式,保持简洁
- 第一行是网站名称(H1)
- 引用块(blockquote)用于一句话描述
- 链接使用完整 URL
- 每个链接附带简短描述
- 总长度建议控制在 500-2000 字
llms.txt vs robots.txt
这两个文件的作用完全不同:
- robots.txt:控制爬虫的访问权限(「你能抓什么」)
- llms.txt:帮助 AI 理解网站内容(「我的网站是什么」)
它们是互补关系,不是替代关系。你需要同时维护两个文件。robots.txt 管理访问控制,llms.txt 提供内容导航。
另外还有一个相关文件 llms-full.txt,它是 llms.txt 的扩展版本,包含更详细的内容,适合 AI 深度理解你的网站。
如何创建和部署 llms.txt
第一步:梳理网站结构
列出你的网站最重要的页面,按优先级排序。通常包括:
- 首页和核心产品页
- 最重要的博客文章或指南
- API 文档(如果有)
- 关于页面和联系方式
第二步:编写 llms.txt
按照上述格式规范编写文件。确保描述准确、链接有效。
第三步:部署到根目录
将文件放置在网站根目录,确保可以通过 https://yoursite.com/llms.txt 访问。
第四步:验证
访问文件 URL 确认可以正常加载,检查格式是否正确。
最佳实践
- 保持更新:当网站结构变化时,同步更新 llms.txt
- 突出核心内容:不要列出所有页面,只列最重要的 10-30 个
- 描述要精准:每个链接的描述应该准确反映页面内容
- 使用完整 URL:避免使用相对路径
- 控制长度:太长的 llms.txt 反而会降低效果,AI 的上下文窗口有限
- 包含引用指南:告诉 AI 如何正确引用你的品牌和内容
- 多语言支持:如果网站有多语言版本,可以在 llms.txt 中标注
工具推荐
手动编写 llms.txt 可能比较繁琐,以下工具可以帮助你:
- SEO智检 llms.txt 生成器:输入网址,自动分析网站结构并生成 llms.txt
- llmstxt.org:llms.txt 协议的官方网站,包含规范文档和示例
- 手动编写:对于小型网站,手动编写是最精确的方式