这个情况下可以尝试训练专门的语

Reddi1 · Post by **Reddi1** » Wed Feb 19, 2025 5:01 am

义理解小模型，然后使用实际语义进行句子拆分，使拆分出来的知识片段语义更加完整。另外一种方法是构建元数据，增加内容摘要、时间戳、用户可能提出的问题等附加信息来丰富知识库，而元数据不需要被向量化。

此外，我们还可以添加诸如章节或小节的引用，文本的关键信息、小节标题或关键词等作为元数据，有助于改进知识检索的准确性。还有一种更加有效的方式是建立知识图谱。

嵌入模型虽然简单，但是没法有效捕捉实体之间的复杂关系和阿尔巴尼亚 whatsapp 号码列表层次结构，所以导致传统RAG在面对复杂查询的时候特别吃力。比如，用户询问“《跨越鸿沟》这本书的主旨是什么”，传统Rag技术是肯定回答不出来的。

但是知识图谱技术可以做到，因为利用知识图谱对数据集建立索引的时候，会做提取实体以及实体之间的关系，这样就能构建一种全局性的优势，从而提升RAG的精确度。

但是，知识图谱虽然很强大，可惜成本太高了，会大幅提升token使用量，大家需要综合产品体验和成本进行评估。用户query改写 Step-Back Prompting：如果果原始查询太复杂或返回的信息太广泛，我们可以选择生成一个抽象层次更高的“退后”问题，与原始问题一起用于检索，以增加返回结果的数量。

例如，对于问题“勒布朗詹姆斯在年至年在哪些球队？”这个问题因为有时间范围的详细限制，比较难直接解决，可以提出一个后退问题“勒布朗詹姆斯的职业生涯是怎么样的？”，从这个回答的召回结果中再检索上一个问题的答案。

数据召回图谱召回：如果在知识分块环节使用了知识图谱，那么我们就可以直接用图谱召回，大幅提升召回准确度。 Agentic-rag：RAG应用退化成一个Agent使用的知识工具。