※この記事はアフィリエイト広告を含みます
[AI小新闻快讯] AI对策会消灭网络历史?大型媒体对Internet Archive的封锁警报
📰 新闻概要
- 大型报纸的封锁: 像《纽约时报》和《卫报》等主要报社已经开始技术性地封锁Internet Archive的爬虫访问。
- 历史记录的危机: Internet Archive保存了超过1万亿网页,是验证文章篡改或删除的唯一公共记录。
- AI斗争的余波: 出版社为了防止AI公司未经授权的学习而采取的措施,然而排除非营利性图书馆则被批评为抹杀历史。
💡 重要要点
- 超越robots.txt的限制: 使用超越传统robots.txt规则的技术手段来排除Internet Archive的情况。
- 巨大的依赖性: 仅维基百科就有超过260万篇新闻文章链接到Internet Archive,封锁将使这些内容的验证变得困难。
- 公正使用的法律背景: 类似于搜索引擎的索引,档案保存也应作为“变形使用”受到法律保护的主张。
🦈 鲨鱼的视角(策展人的观点)
此次事件中值得关注的是,出版社为了对抗AI公司而采取了“超越传统robots.txt规则的技术措施”!这意味着不仅是商业AI爬虫,连守护近30年网络记忆的Internet Archive都被一并排除。当文章被秘密编辑或删除时,失去唯一的证据手段将对新闻业造成直接伤害!为了阻止AI公司的斗争,最终可能会焚烧人类共享的“历史记录”,这是一种非常危险的平衡。在法律争议的阴影中,公共基础设施的图书馆成为牺牲品是应该避免的!
🚀 未来展望
- 数字资料的空白: 随着大型媒体档案的中断,未来的研究者将面临无法访问2020年代准确报道记录的风险。
- 司法判断的加速: 关于AI学习的公正使用与网络档案合法性的法律讨论将更加活跃。
💬 鲨鱼的简评
担心AI的同时消灭自己的过去,这真是本末倒置!为了保护未来而抛弃过去,鲨鱼无法理解这种做法!🦈🔥
📚 术语解说
-
Wayback Machine: Internet Archive提供的服务,可以保存和查看过去的网页状态。
-
robots.txt: 网站管理员用来指定爬虫收集权限的文件。
-
公正使用: 在不需要版权持有者许可的情况下,出于教育、研究、评论等目的使用著作的法律思想。
-
信息来源: Blocking Internet Archive Won’t Stop AI, but Will Erase Web’s Historical Record