基于语料库的数字人文学科文本和其他材料研究[1]受到德国版权法的限制,该法仅允许在狭窄的范围内共享受保护作品的研究数据及其存档。[2] 这些限制使得遵守良好的科学实践和研究数据基础设施的FAIR 原则变得困难。[3]因此,出于务实的原因,许多项目完全避免包含受版权保护的文本。这通常意味着当代文本——以及其中的某些问题——几乎被完全忽视。[4]然而,如此大范围地缩减学科领域不仅会导致研究格局的扭曲(这对于人文学科和特定学科而言都是有问题的),而且还常常意味着算法程序的开发必须使用非常小的数据集和/或异构的来源组合。
[ 2 ]当然,研究人员有机会与权利人就受保护文本的研究进行谈判。如果可以提前协商达成许可协议,包括将受保护的文本无限制地分发给第三方用于研究目的,那是最佳的;然而,这并非在所有情况下都可行,并且需要为每个要使用的数据源投入大量的精力和准备时间。这意味着该方法仅与数据密集型计算机建模的实践部分兼容,其中对数据库的不同扩展进行的探索性实验仅会导致对一小部分数据的长期跟踪。
,都需要建立一个支持探索性方法的研究数据基础设施,这样版权问题就不再是使用文本或文本语料库的排除标准。除了改善研究版权状况的长期(政治)目标之外,还应利用现有的法律渠道来传播受保护文本的研究成果。
[ 4 ]Schöch 等人为了应对现有的法律状况,我们建议将文本转换为所谓的衍生格式,这种格式适用于一系列数字分析方法,但从版权角度来看,这足以使文本异化。[5]例如,这些派生的文本格式仅记录文本段(如章节或节)中包含的单个单词或n-gram(即短词序列)的频率。在此基础上,可以应用常见的宏观分析方法[6] ,即利用词汇指标来描述文本流的动态。通过分解文本结构来取消 新西兰电报数据 版权保护,因此对数据集的存档、共享和发布限制不再适用。因此,派生文本格式的概念对研究的可复制性和研究数据的可重用性做出了重大贡献。
[ 5 ]然而,当实际文本形式与研究相关时,衍生格式的概念就达到了其极限。这不仅适用于微观分析,例如细读(这无疑需要完全访问已获得版权许可的文本)。在人文相关问题的背景下,对聚合宏观分析结果的解释往往需要查阅一些相关的完整文本段落。
[ 6 ]因此, XSample项目开发了一种可以与派生文本格式概念互补的方法(见图1)。这种方法利用现有的为科学研究目的而分发受保护作品的百分比限制摘录的权利(《版权法》第 60c 条),并将其转移到语料库摘录的出版。尽管这些摘录的允许范围通常只有作品的 15%,但 XSample 方法可以根据个人研究目的动态选择›最有帮助的 15%‹。为此,后续用户可以在文本和任何现有注释的搜索查询中准确指定语料库的哪些部分与他们相关。 XSample 方法可确保后续用户在建模搜索查询时看不到受保护的主要数据。通过这种方式,可以有针对性地利用法律可能性,并在不取消版权保护的情况下鼓励对受版权保护的文本进行可持续研究。特别是,还可以解决需要借助所选文本段落的确切措辞和更广泛的背景的研究问题。研究基础设施机构发挥着特殊的作用,例如通过向科学家提供数字工具等方式在机构层面为他们提供支持。 B. 用于管理和发布他们的研究数据。如今,这些研究基础设施主要包括学术图书馆。该项目开发的工具将与斯图加特大学的本地基础设施和那里的研究数据存储库相连。该项目开发的软件可免费使用,以便其他研究基础设施机构可以使用它和必要的基础设施。