腾讯工程师提议用中文索引算法创建DNA搜索引擎
科学家解码了越来越多的基因组,但对遗传学家或研究人员来说,寻找有机体的共享基因组是一件十分艰巨的任务——因为要对比的DNA字母难以计数。如何快速搜索巨大的生物信息学数据库?多数研究人员使用的是BLAST或FASTA算法,它们本质上逐一比较每个基因组。现在中国第三大搜索引擎、腾讯旗下搜搜(SOSO.com)的一位计算机科学家王亮(Wang Liang)提出应用中文索引算法去检索生物信息。
王亮指出,中文的每个字之间没有留下间隔,因此索引中文文档的一种方法是将文本分解成N个片段(n-grams),N代表字数,1-grams表示一个汉字,2-grams表示两个汉字,3-grams表示三个汉字,一些中文搜索引擎就只索引2-grams。王亮称,DNA序列的统计分布应该遵循齐夫定律(Zipf's law)。齐夫定律是指一个单词出现的频率与它在频率表里的排名成反比,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。王亮应用同样标准去寻找拟南芥、曲霉、果蝇和老鼠的基因组字母平均长度,他发现平均长度为12个字母,因此用12-gram索引基因组数据也许最优。
知名风险投资公司
红杉资本|瑞华投资|同创伟业|达晨创投|深创投|IDG|创东方|君联资本|中科招商|经纬中国|启明创投|松禾资本|英特尔投资|优势资本|东方富海|天堂硅谷|九鼎投资|晨兴创投|江苏高科投|北极光创投|德同资本|凯雷投资|中国风投|天图资本|真格基金|DCM|IFC|凯鹏华盈|高盛投资|启迪创投|戈壁|荷多投资|纪源资本|鼎晖投资|华平投资|金沙江投资|海纳亚洲|永宣创投|险峰华兴创投|中投|海通开元|中信资本|力鼎资本|平安创新资本|天使湾创投|和君资本|祥峰集团|招商湘江投资|元禾控股|力合创投|复星创富|陕西高投|光速创投|富达亚洲|成为资本|中信产业基金|GIC|基石资本|金茂资本|富坤创投|盈富泰克|重庆科投|鼎晖创投|北工投资|海富投资|招商局资本|新天域资本|中路集团|摩根士丹利|青云创投|建银国际|德丰杰|弘毅投资|CVC|蓝驰创投|宽带资本|秉鸿资本|金石投资|天创资本|证大投资|中经合|信中利|兰馨亚洲|淡马锡|浙商创投|华睿投资|景林资产|挚信资本|高特佳|清科创投|华登国际|山东高新投|集富亚洲|腾讯|无锡创投|创新工场|智基创投|策源创投|软银中国|
创业联合网是创业者和投资人的交流平台。平台拥有5000+名投资人入驻。帮助创业企业对接投资人和投资机构,同时也是创业企业的媒体宣传和交流合作平台。
热门标签
精华文章
