<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div><div><div>On 2008.09.08 Mon, at 18:09, Judith Blake wrote:</div><blockquote type="cite">Gabriel,<br><br>The gene association files are non-redundant.  Primary model organisms<br>have responsibility for integrating annotations from mulitple sources<br>and submitting a non-redundant file to the GOdb.  QC checks on the files<br>also remove redundancies.</blockquote></div><div><br class="webkit-block-placeholder"></div><div><br class="webkit-block-placeholder"></div><div>Hi, Judy.  My word choice was not a very good one when I wrote of "redundancies", so let me give an example of what I meant.  It comes from the latest gene_association.rgd.gz file.  (This example is the first one I followed up on of the 1000 or so that I mentioned in my previous email.)</div><div><br class="webkit-block-placeholder"></div><div>The latest gene_association.rgd.gz file contains 15 associations for RGD ID 1302948, and 4 associations for ENSEMBL ID ENSRNOP00000034933.  In fact, according to both Ensembl and RGD (<a href="http://rgd.mcw.edu/tools/genes/genes_view.cgi?id=1302948">http://rgd.mcw.edu/tools/genes/genes_view.cgi?id=1302948</a>) these two identifiers both refer to the same entity (transforming acidic coiled-coil containing protein 3, aka Tacc3).  Hence, the file uses two names for the same thing.  Why?</div><div><br class="webkit-block-placeholder"></div><div>The reason why I bring this problem up is that, in our work, we compute statistics that are very sensitive to how many genes have a particular GO attribute, therefore it is crucial for us to count the associations in this example as being 19 belonging to the same protein, rather than 15 belonging to one and 4 belonging to another.  This accounting task is made significantly more difficult by the fact that the association file uses two different names for the same thing.</div><div><br class="webkit-block-placeholder"></div><div>Maybe I'm wrong here, but this looks to me like a bug rather than a feature:  I can't see that any good could come of using multiple names for the same thing in a document like this.</div><div><br class="webkit-block-placeholder"></div><div>If it is indeed a bug, would it be too difficult to fix?  I.e. would it be too difficult for GO and the purveyors of associations files to use a consistent nomenclature whenever possible?</div><div><br class="webkit-block-placeholder"></div><div>If it's of any help with this, we have a tool, called Synergizer, for bulk mapping of identifiers from one namespace to another, and it is a simple matter to set up a pipeline to do it automatically (see http://llama.med.harvard.edu/synergizer/doc).  We'd be happy to help with this in any way we can.  (Although I imagine that the organizations that generate such associations files are the ultimate experts for resolving such nomenclature issues.)</div><div><br></div><div>Also, as I said earlier, the example above is not isolated.  For R. norvegicus alone there are about 1000, and that's only focusing on RGD vs. ENSEMBL IDs.  And the problem is not limited to R. norvegicus.  Among the organisms that I have analyzed, I found a similar nomenclature inconsistencies with several others, including B. taurus, G. gallus, C. elegans, and H. sapiens.</div><div><br></div><div>Thanks for your comments!</div><div><br class="webkit-block-placeholder"></div><div>Gabriel Berriz</div></div><div> <span class="Apple-style-span" style="border-collapse: separate; border-spacing: 0px 0px; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; text-align: auto; -khtml-text-decorations-in-effect: none; text-indent: 0px; -apple-text-size-adjust: auto; text-transform: none; orphans: 2; white-space: normal; widows: 2; word-spacing: 0px; "><div style="word-wrap: break-word; -khtml-nbsp-mode: space; -khtml-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; border-spacing: 0px 0px; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; text-align: auto; -khtml-text-decorations-in-effect: none; text-indent: 0px; -apple-text-size-adjust: auto; text-transform: none; orphans: 2; white-space: normal; widows: 2; word-spacing: 0px; "><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><font class="Apple-style-span" color="#540000"><span class="Apple-style-span" style="color: rgb(84, 0, 0); "><span class="Apple-style-span" style="color: rgb(84, 0, 0); ">=============================================================</span></span></font><font class="Apple-style-span" color="#540000"></font></div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><font class="Apple-style-span" color="#540000"><span class="Apple-style-span" style="color: rgb(84, 0, 0); "><span class="Apple-style-span" style="color: rgb(84, 0, 0); ">Gabriel F. Berriz, PhD</span></span></font></div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><font class="Apple-style-span" color="#540000"><span class="Apple-style-span" style="color: rgb(84, 0, 0); "><span class="Apple-style-span" style="color: rgb(84, 0, 0); ">Bioinformatics Developer</span></span></font></div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><font class="Apple-style-span" color="#540000"><span class="Apple-style-span" style="color: rgb(84, 0, 0); "><span class="Apple-style-span" style="color: rgb(84, 0, 0); ">Roth Lab</span></span></font></div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><font class="Apple-style-span" color="#540000"><span class="Apple-style-span" style="color: rgb(84, 0, 0); "><span class="Apple-style-span" style="color: rgb(84, 0, 0); ">Biological Chemistry and Molecular Pharmacology -- Harvard Medical School</span></span></font></div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><font class="Apple-style-span" color="#540000"><span class="Apple-style-span" style="color: rgb(84, 0, 0); "><span class="Apple-style-span" style="color: rgb(84, 0, 0); ">Seeley G. Mudd Building 322B</span></span></font></div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><font class="Apple-style-span" color="#540000"><span class="Apple-style-span" style="color: rgb(84, 0, 0); "><span class="Apple-style-span" style="color: rgb(84, 0, 0); ">Boston, MA 02115-5701</span></span></font></div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><font class="Apple-style-span" color="#540000"><span class="Apple-style-span" style="color: rgb(84, 0, 0); "><span class="Apple-style-span" style="color: rgb(84, 0, 0); ">Telephone: 617.432.3555</span></span></font></div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><font class="Apple-style-span" color="#540000"><span class="Apple-style-span" style="color: rgb(84, 0, 0); "><span class="Apple-style-span" style="color: rgb(84, 0, 0); ">Fax: 617.432.3557</span></span></font></div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><br class="khtml-block-placeholder"></div><br class="Apple-interchange-newline"></span></div></span> </div><br></body></html>