在我们的数据库中,对于任何资助,我们报告说,从个人的调查正在进行中的项目的更新“相关项目”。我们希望通过识别“相关项目”更普遍地改善这种在基于抽象的文字,我们组不同的补助。

我们分析的相似之处2013 NIH资助摘要有至少100个字的长度(不考虑公共卫生相关语句)。对于该所得50000集合中的每个抽象的,我们计算出每个单词的频率。不同摘要的相似度是通过比较词频率在成对的方式进行评价。然后,我们使用聚类分析,以确定最相似的字的内容摘要,发现有个案当中,超过500抽象双(约1%)具有高度相似的文本。请注意,此分析,我们删除了具有相同的项目数量或完全相同的文字,从而降低误报数量的任何补助。

我们发现在上面的互动情节的结果。每橙色圆圈代表具有相似摘要文本,其中,所述簇内的每个许可是通过用大小正比于奖的货币价值的灰度圆圈表示补助的集群。点击橙色的文字将带你到我们的搜索工具,它揭示了在集群内的所有授权的详细信息。有些信息是在剧情本身,点击任何橙色圆圈揭示了补助的标题显示相关联的抽象的称号,并进一步点击可用。

许多文本相似性,可以很容易解释。例如,有14个类似项目摘要最大的集群属于国家儿童研究项目。这多机构研究遵循全国各地有超过10万名儿童的健康和发展。同样的,第二大集群属于医学图书馆全国网络,其中每一个抽象的不同主要是由通过给定的项目数资助机构的名称。随着集群规模减小,以及获奖类型变得越来越普遍,它变得越来越难帐户的摘要文本之间的相似性。例如,R21和DP2奖项有不同的称谓和货币价值超过10倍的差异,但有一些是几乎相同的项目总结的对。同样,人们可以找到的R01大奖许多情况下,不同的标题和研究部分资金他们。同样,有13个奖项在2013年其中NIH R01有高度相似的文本到VA I01补助。最后一点,这也许并不奇怪,也有少数例子有关F *和R *补助金,其中PI和他/她的学员有几乎相同的建议。

虽然它不应该是充分研究计划的细节其实都是相同的情况下,这将是,如果该项目总结中写到恰当地反映补助的内容是有益的。不久,Grantoraybet电竞me开发人员希望这种新算法集成到搜索结果中,这样的“相关项目”将不只是个别报告研究项目的延续,也是相关内容不同的项目。

如果您需要一个想法的一个可资助的项目,也许上述摘要的一个可以作为完美的蓝图?当然在授权机构不会介意另一一段文字,用相关内容。

发表于2014年5月24日,