[AI小新闻快报] 将1TB的混沌转化为RAG！本地LLM构建的“血与汗”全纪录

※この記事はアフィリエイト広告を含みます

📰 新闻概要

将10年及超过1TB的内部资料转化为RAG：包含过去项目报告、技术文档、仿真数据（如OrcaFlex等）的大量非结构化数据，实现自然语言搜索的项目全貌被公开。
采用本地完结型技术栈：为了保护机密，避开外部API，构建了结合了Python、Ollama（LLaMA模型）、LlamaIndex和nomic-embed-text的本地环境。
通过数据清洗实现显著改善：最初由于内存不足导致系统崩溃，但通过过滤视频、备份和临时文件等不必要的数据，成功将索引文件减少了54%。

“什么都装”是失败的根源：将1TB的数据直接投入LlamaIndex会导致RAM溢出，操作系统冻结。排除视频和大型数值计算文件的过滤处理是构建RAG的关键。
文件格式转换：将PDF、DOCX、XLSX等转换为纯文本后再处理，从而稳定了LlamaIndex的处理负荷。
实用的技术选择：从学习成本和开发效率的角度来看，结合了Python的Ollama和LlamaIndex被认为是最具生产力的选择。

将1TB的庞大“信息墓地”升华为实际运作的系统的泥泞过程真是酷毙了！特别是从最初的“内存爆炸”开始，逐步建立扩展名基础的过滤列表（视频、图片、可执行文件等），将索引目标减少到一半的判断非常敏锐。RAG并非魔法，而是这种彻底的数据预处理分开了成功与失败的基本要素！

随着本地LLM性能的提升和像LlamaIndex这样的编排工具的成熟，能够高度利用保密性强的内部文档而不外泄的“完全封闭RAG”将会在专业制造业和工程行业进一步加速应用！

“先把所有东西都放进来”就像鲨鱼的吞噬一样，会弄坏肚子（RAM）！好好咀嚼（过滤）整理是打造强大RAG的关键哦！🦈🔥