维基百科和维基数据目前（仍然）是最重要的数据来源

Reddi1 · Post by **Reddi1** » Wed Feb 12, 2025 5:33 am

十多年来，谷歌一直在努力把像现在的知识图谱这样的知识数据库做得越来越大。无数的专利证明了这一点。整个在线社区也对尽可能完整地存档、网络化和映射人类知识表现出了极大的兴趣，正如许多知识数据库所表明的那样，其中大多数都是在自愿的基础上维护的。这些数据库已经成为人类曾经在大型图书馆中收集和维护的内容。

谷歌希望成为这些知识的头号守门人。

但还有很长的路要走，特别是在完整性方面。Wikidata、Wikipedia等数据库和门户网站已经发展欧洲华人华侨数据成为包含结构化和半结构化数据的庞大知识数据库。DBpedia和YAGO等服务为 Google 和其他处理实例形成了一种接口。

维基百科提供了一个非常易于访问且值得信赖的有关实体的知识数据库。

最大的缺点是：维基百科和维基数据中仅描述了所有命名实体和概念的一小部分。

为了获得所有实体、概念和主题的大致概述，这些主要由人类手动维护的数据库不足以作为基础。

目标必须是捕获互联网上所有可用的知识。为了实现这个目标，人们会发现自己处于有效性和完整性之间的紧张关系中。此外，必须停止操纵。

必须制定考虑到这些要点的技术程序。没有办法绕过非结构化数据源的自动化处理。这也是谷歌继续推动机器学习承诺的原因之一。

这就是为什么我的下一篇文章将讨论处理非结构化数据。

我希望这篇文章对您关于半结构化数据、维基百科实体和知识图谱有所帮助。传播这个消息！