什么是公平数据原则?

公平数据原则是在洛伦兹中心根据莱顿大学的一页上所描述的原则,2014年1月的研讨会。他们是培育的FORCE11之前正式发表于《自然科学数据》在2016年。

FAIR代表可查找、可访问、可互操作和可重用


CCDC FAIR是怎样的?

公平数据原则有助于指导我们所有的数据决策。CCDC制定公平数据原则的方式包括:

  • 确保机器能够使用标准格式和词汇可靠地理解晶体学实验、数据和知识。
  • 采用持久标识符来标识数据集及其贡献者。
  • 利用标准标识符(如InChI)将数据集链接到一系列化学资源。
  • 确保机器可以获取元数据,以实现与其他信息资源的互操作性。
  • 提供可搜索的资源,通过为人和机器设计的接口来发现数据。

剑桥结构数据库是如何实现FAIR的?

剑桥结构数据库(CSD)的结构和设计是我们FAIR活动的核心。特别是:

  • 它使人类和机器能够发现和重用历史晶体信息。
  • 它允许从这些信息中获得知识并跨领域应用。
  • 人们可以通过各种网络和桌面工具访问它。
  • 计算机可以通过CSD Python API访问它。

为什么要采用公平数据原则?

分析生命和物理科学中不断增长的数据已经是一项艰巨的任务,而且数据量每天都在增长,越来越多样化。此外,人工智能和机器学习计划需要高质量的、机器可读的、语义关联的数据。遵守公平数据原则有助于确保您的数据:

  • 支持全球的下一代研究。
  • 适用于机器学习(ML)和人工智能(AI)模型。
  • 在组织的各个层次保持有序和可访问性。
  • 可以支持对过去工作的迭代学习,节省时间和资源。

公平对待人类和机器

公平数据原则强调人类和机器都需要数据的可查找性、可访问性、互操作性和可重用性。今天的机器学习和人工智能技术需要机器能够有意义地、准确地解释数据。一个满足公平数据原则规定的标准的数据集更有可能满足这些要求,并完全为人工智能做好准备。

知识图谱:CCDC的物化学图项目

我们在CCDC仍然致力于根据公平数据原则不断改进我们的数据。2020年7月,我们开始与欧洲蛋白质数据库(PDBe)和chembl(均位于欧洲生物信息学研究所(EBI))合作BioChemGRAPH项目.知识图作为数据分析的关键推动者正日益突出,但它们的设计和填充需要仔细的规划和有序的数据。

BioChemGRAPH项目将创建一个知识库,将PDB中与生物大分子相关的3D结构数据、ChEMBL中具有类药物性质的分子的生物活性数据以及CSD中小分子的结构化学数据连接在一起。这将允许研究人员:

  • 快速访问可信但完全不同的数据集的相关信息。
  • 利用各种实验确定和计算的性质的小分子。
  • 在靶标验证、药物开发、药物再利用和交叉反应等领域的进展工作。

通过将我们对公平原则的贡献扩大到更广泛的社区,我们正在帮助确保世界各地的研究人员能够全面和立即获得世界上最好的结构数据和知识。新利18是真的吗

了解更多

Baidu