llms-txt
综合介绍
llms-txt是一个简单实用的标准化方案。它通过创建/llms.txt文件,为大型语言模型(LLM)在推理时访问网站提供必要信息。这个方案解决了LLM在浏览网页时缺乏标准化数据源的问题。
该方案模仿了robots.txt的做法,但专门服务于LLM。网站管理员可以在根目录下放置llms.txt文件,明确指定哪些内容允许或禁止LLM使用。这种做法既保护了网站内容,又为LLM提供了规范的访问指南。
功能列表
- "标准化格式":采用简单易懂的文本格式,便于人工编写和机器解析
- "访问控制":明确指定允许或禁止LLM访问的内容范围
- "信息提供":为LLM提供网站的基本信息和内容使用指南
- "兼容性强":可以与现有robots.txt方案并存,互不冲突
使用帮助
使用llms-txt方案非常简单,不需要安装任何额外软件。只需按照以下步骤操作:
1. 创建文件:在网站根目录下新建一个名为"llms.txt"的纯文本文件
2. 编写内容:使用标准格式填写LLM访问规则。基本格式如下:
- 以#开头的行是注释
- Allow: 指定允许访问的路径
- Disallow: 指定禁止访问的路径
- Contact: 提供网站管理员联系方式
3. 上传文件:将llms.txt上传到网站根目录,与robots.txt并列
4. 验证访问:确保文件可通过https://您的域名/llms.txt访问
示例文件内容:
# llms.txt示例文件 Allow: /public/ Disallow: /private/ Contact: admin@example.com
高级用法:
1. 路径匹配:可以使用通配符*匹配多个路径
2. 多语言支持:可以为不同语言版本的LLM提供特定指引
3. 内容说明:添加Description字段说明网站主要内容
注意事项:
- 文件必须使用UTF-8编码
- 每行指令必须单独一行
- 大小写不敏感,但建议统一使用首字母大写
- 建议保持文件大小在10KB以内
产品特色
为大型语言模型提供标准化的网站访问指南。
适用人群
- 网站管理员:需要控制LLM对网站内容的访问权限
- AI开发者:开发基于LLM的网络应用需要标准化数据源
- 内容创作者:希望明确指定哪些内容可以被AI使用
应用场景
- 内容保护:防止LLM抓取敏感或付费内容
- 数据提供:主动为LLM提供结构化网站信息
- 权限管理:精细控制不同LLM的访问范围
常见问题
- llms.txt和robots.txt有什么区别?robots.txt针对搜索引擎爬虫,llms.txt专门为大型语言模型设计。
- 如果网站没有llms.txt会怎样?LLM会默认遵循robots.txt规则,或自行决定访问策略。
- 如何测试llms.txt是否生效?直接访问域名/llms.txt,确认文件可读且内容正确。