<div dir="ltr">Yes, Val made a similar point that "functional annotation" may also be taken to mean ENCODE-type experimental data, which in their raw form would not be considered knowledge bases.<div><br></div><div>Even allowing for some ambiguities around this term, the overall distinction they attempt to draw doesn't seem to make sense. The text is here:</div><div><br></div><div>"""</div><div><b style="font-weight:normal" id="gmail-docs-internal-guid-0667e026-03b2-61c9-4035-5aaf38078c68"><p dir="ltr" style="line-height:1.2;margin-top:0.1pt;margin-bottom:0pt;text-align:justify"><span style="font-size:11pt;font-family:Arial;color:rgb(178,161,199);background-color:transparent;font-weight:400;font-style:italic;font-variant:normal;text-decoration:none;vertical-align:baseline;white-space:pre-wrap">Databases and Knowledgebases: What’s the Difference?</span></p><p dir="ltr" style="line-height:1.2;margin-top:0.1pt;margin-bottom:0pt;text-align:justify"><span style="font-size:11pt;font-family:Arial;color:rgb(178,161,199);background-color:transparent;font-weight:400;font-style:italic;font-variant:normal;text-decoration:none;vertical-align:baseline;white-space:pre-wrap">Databases are data repositories that store, organize, validate, and make accessible the core data related to a particular system or systems. For example, the core data for a model organism database might include genome, transcriptome, and protein sequences and functional annotations of gene products.</span></p><br><p dir="ltr" style="line-height:1.2;margin-top:0.1pt;margin-bottom:0pt;text-align:justify"><span style="font-size:11pt;font-family:Arial;color:rgb(178,161,199);background-color:transparent;font-weight:400;font-style:italic;font-variant:normal;text-decoration:none;vertical-align:baseline;white-space:pre-wrap">Knowledgebases accumulate, organize, and link growing bodies of information related to core datasets. A knowledgebase may contain information about expression patterns, splicing variants, localization, and protein- protein interaction and pathway networks related to an organism or set of organisms. Knowledgebases typically require significant curation beyond the quality assurance/quality control and annotation needed for databases.</span></p></b></div><div>"""</div><div><br></div><div>As others have mentioned in this thread, we believe MODs fall into the KB category but here it's used as an example of a database. The attempt to define in terms of "core data" just leaves open the problem of what core data is...</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Mar 6, 2018 at 1:10 PM, Guy Plunkett III <span dir="ltr"><<a href="mailto:guy.plunkett@wisc.edu" target="_blank">guy.plunkett@wisc.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">



<div style="word-wrap:break-word">
<div>I agree with Jim: <b><i>curation</i></b> is a critical aspect of the distinction. Part of the confusion is the phrase "functional annotation,” which in NCBI parlance often means "the result of an automated pipeline," like a bacterial genome annotated via
 RAST or their own PGAAP. Any post-pipeline curation presumably lifts the database contents to knowledge base level.</div>
<br>
<div>
<div style="color:rgb(0,0,0);letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;word-wrap:break-word">
<div style="color:rgb(0,0,0);letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;word-wrap:break-word">
<div style="color:rgb(0,0,0);letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;word-wrap:break-word">
Dr. Guy Plunkett III<br>
Senior Scientist Emeritus, UW-Madison<br>
Senior Scientist, DNASTAR, Inc.</div>
<div style="color:rgb(0,0,0);letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;word-wrap:break-word">
<a href="http://www.genome.wisc.edu/information/gplunkett.html" target="_blank">http://www.genome.wisc.edu/<wbr>information/gplunkett.html</a></div>
<br class="m_-1338650685371314231Apple-interchange-newline">
</div>
<br class="m_-1338650685371314231Apple-interchange-newline">
</div>
<br class="m_-1338650685371314231Apple-interchange-newline">
<br class="m_-1338650685371314231Apple-interchange-newline">
</div>
<br>
<div>
<div>On Mar 6, 2018, at 2:24 PM, Jim Hu <<a href="mailto:jimhu@tamu.edu" target="_blank">jimhu@tamu.edu</a>> wrote:</div>
<br class="m_-1338650685371314231Apple-interchange-newline">
<blockquote type="cite">
<div style="word-wrap:break-word">
My reading of that is less alarming, but I agree that better wording would be important for GO and similar projects.
<div><br>
</div>
<div>The full text of the box at the bottom of page 10 of the report </div>
<div><br>
</div>
<div>
<div class="m_-1338650685371314231page" title="Page 10">
<div class="m_-1338650685371314231section">
<div class="m_-1338650685371314231layoutArea">
<div class="m_-1338650685371314231column">
<div><br class="m_-1338650685371314231webkit-block-placeholder">
</div>
<blockquote type="cite">
<p><span style="font-size:12pt;font-family:Calibri;color:rgb(31,55,99)">Databases and Knowledgebases: What’s the Difference?
</span></p>
<p><span style="font-size:10.000000pt;font-family:'Calibri';font-style:italic">Databases
</span><span style="font-size:10.000000pt;font-family:'Calibri'">are data repositories that store, organize, validate, and make accessible the core data related to a particular system or systems. For example, the core data for a model organism database
 might include genome, transcriptome, and protein sequences and functional annotations of gene products.
</span></p>
<p><span style="font-size:10.000000pt;font-family:'Calibri';font-style:italic">Knowledgebases
</span><span style="font-size:10.000000pt;font-family:'Calibri'">accumulate, organize, and link growing bodies of information related to core datasets. A knowledgebase may contain information about expression patterns, splicing variants, localization,
 and protein- protein interaction and pathway networks related to an organism or set of organisms. Knowledgebases typically require significant curation beyond the quality assurance/quality control and annotation needed for databases. </span></p>
</blockquote>
</div>
</div>
</div>
</div>
</div>
<div><br>
</div>
<div>I think we would agree with the part that says that curation is part of the difference. I’m reading the functional annotation in databases part as those cases where the functional annotations in a less curated database are automatically sucked
 in from a curated knowledgebase. Even the proteins sequences come from curation of the structural annotation. </div>
<div><br>
</div>
<div>Jim</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
<div>
<blockquote type="cite">
<div>On Mar 6, 2018, at 1:56 PM, Chris Mungall <<a href="mailto:cjmungall@lbl.gov" target="_blank">cjmungall@lbl.gov</a>> wrote:</div>
<br class="m_-1338650685371314231Apple-interchange-newline">
<div>
<div>
<div style="font-family:sans-serif">
<div style="white-space:normal">
<p dir="auto">The NIH has put at an RFI together with a draft strategic plan:<br>
<a href="https://urldefense.proofpoint.com/v2/url?u=https-3A__grants.nih.gov_grants_guide_notice-2Dfiles_NOT-2DOD-2D18-2D134.html&d=DwMFaQ&c=ODFT-G5SujMiGrKuoJJjVg&r=dwlw_8MTfn8wsIOfxPKv9g&m=NPRZTTmvrjPqkT0MtQ3OVPPMftwIO9LUCbO4PTU-aXU&s=c1J-CYmLYNJ7h1l0-HY9wfIPZtGteliwOuuakbMlkuU&e=" style="color:#3983c4" target="_blank">https://grants.nih.gov/grants/<wbr>guide/notice-files/NOT-OD-18-<wbr>134.html</a></p>
<p dir="auto">I want to draw people's attention to p10 of the report</p>
<p dir="auto"><em>"NIH will distinguish between <strong>
databases</strong> and <strong>knowledgebases</strong> (see text box “Databases and Knowledgebases: What’s the Difference?”) and will
<strong>support each separately from one another</strong>"</em></p>
<p dir="auto">OK, this is interesting. But caution advised, these are two pretty squishy terms that are used differently by different communities. For those of us with an AI background, "databases" are typically closer to the raw data, are curated
 at the level of metadata rather than data, whereas "knowledge bases" contain curated generalizations of the data. GO is a classic knowledge base (or Knowledge Graph, now that google has made that trendy). However it's historically been called a "database"
 since that is the term the community normally uses.</p>
<p dir="auto">Anyway, the distinction that the NIH makes in the report (box at bottom of p10 of the report) doesn't make any sense to me:</p>
<ul>
<li>an example of what might be in a database is <em>"functional annotations of gene products"</em>
</li><li>an example of what might be in a knowledgebase is <em>"protein-protein interaction networks"</em>
</li></ul>
<p dir="auto">To me this is precisely reversed. PPI networks are often raw data, e.g. coIP. A functional annotation is as absolutely paradigmatic case of knowledge as you could wish for.</p>
<p dir="auto">Normally I save terminological minutiae such as "what's the difference between an ontology and terminology" to the bar or to the filing cabinet marked Pointless Discussions We Used To Have In The Early Days of GO. However, if the NIH
 is going to make important funding decisions based on a difference between "Database" and "Knowledge Base", it's crucial that we educate them. This is important for GO (and for other knowledge databases/repositories/<wbr>resources/whatever you want to call them).
 Given that functional annotation is explicitly called out in the draft report, I think this calls for a specific response from the entire GO community.</p>
</div>
</div>
</div>
______________________________<wbr>_________________<br>
go-friends mailing list<br>
<a href="mailto:go-friends@lists.stanford.edu" target="_blank">go-friends@lists.stanford.edu</a><br>
<a href="https://mailman.stanford.edu/mailman/listinfo/go-friends" target="_blank">https://mailman.stanford.edu/<wbr>mailman/listinfo/go-friends</a><br>
</div>
</blockquote>
</div>
<br>
<div>
<div style="font-family:Helvetica;font-size:12px;font-style:normal;font-weight:normal;letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px">
==============================<wbr>=======<br>
Jim Hu<br>
Professor<br>
Dept. of Biochemistry and Biophysics<br>
2128 TAMU<br>
Texas A&M Univ.<br>
College Station, TX 77843-2128<br>
<a href="tel:(979)%20862-4054" value="+19798624054" target="_blank">979-862-4054</a></div>
</div>
<br>
</div>
</div>
______________________________<wbr>_________________<br>
go-friends mailing list<br>
<a href="mailto:go-friends@lists.stanford.edu" target="_blank">go-friends@lists.stanford.edu</a><br>
<a href="https://mailman.stanford.edu/mailman/listinfo/go-friends" target="_blank">https://mailman.stanford.edu/<wbr>mailman/listinfo/go-friends</a><br>
</blockquote>
</div>
<br>
</div>

</blockquote></div><br></div>