义理解小模型,然后使用实际语义进行句子拆分,使拆分出来的知识片段语义更加完整。 另外一种方法是构建元数据,增加内容摘要、时间戳、用户可能提出的问题等附加信息来丰富知识库,而元数据不需要被向量化。
此外,我们还可以添加诸如章节或小节的引用,文本的关键信息、小节标题或关键词等作为元数据,有助于改进知识检索的准确性。 还有一种更加有效的方式是建立知识图谱。
嵌入模型虽然简单,但是没法有效捕捉实体之间的复杂关系和 阿尔巴尼亚 whatsapp 号码列表 层次结构,所以导致传统RAG在面对复杂查询的时候特别吃力。 比如,用户询问“《跨越鸿沟》这本书的主旨是什么”,传统Rag技术是肯定回答不出来的。
但是知识图谱技术可以做到,因为利用知识图谱对数据集建立索引的时候,会做提取实体以及实体之间的关系,这样就能构建一种全局性的优势,从而提升RAG的精确度。
但是,知识图谱虽然很强大,可惜成本太高了,会大幅提升token使用量,大家需要综合产品体验和成本进行评估。 用户query改写 Step-Back Prompting:如果果原始查询太复杂或返回的信息太广泛,我们可以选择生成一个抽象层次更高的“退后”问题,与原始问题一起用于检索,以增加返回结果的数量。
例如,对于问题“勒布朗詹姆斯在年至年在哪些球队?”这个问题因为有时间范围的详细限制,比较难直接解决,可以提出一个后退问题“勒布朗詹姆斯的职业生涯是怎么样的?”,从这个回答的召回结果中再检索上一个问题的答案。
数据召回 图谱召回:如果在知识分块环节使用了知识图谱,那么我们就可以直接用图谱召回,大幅提升召回准确度。 Agentic-rag:RAG应用退化成一个Agent使用的知识工具。