《搜狗知識(shí)圖譜方案》由會(huì)員分享,可在線閱讀,更多相關(guān)《搜狗知識(shí)圖譜方案(38頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四
2、級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二
3、級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),#,搜狗搜索,面向知識(shí)圖譜的搜索技術(shù),張坤,
4、網(wǎng)頁(yè)搜索的技術(shù)發(fā)展,自然語(yǔ)言文本表示,普通,網(wǎng)頁(yè),音頻,圖片,視頻,索引,自然語(yǔ)言查詢,排序,網(wǎng)頁(yè)結(jié)果,檢索,向量模型,互聯(lián)網(wǎng)的圖分析:,Anchor,和,Pagerank,互聯(lián)網(wǎng)的商業(yè)價(jià)值和社會(huì)價(jià)值,排序函數(shù)的構(gòu)造,(Learning to Rank,),搜索結(jié)構(gòu)的變化,自然語(yǔ)言文本表示,普通,網(wǎng)頁(yè),音頻,圖片,視頻,索引,自然語(yǔ)言查詢,排序,網(wǎng)頁(yè)結(jié)果,檢索,自然語(yǔ)言文本表示,普通,網(wǎng)頁(yè),音頻,圖片,視頻,自然語(yǔ)言查詢,豐富展現(xiàn),查詢翻譯,結(jié)果翻譯,推理,預(yù)測(cè),統(tǒng)計(jì),推薦,復(fù)雜查詢,信息翻譯,知識(shí)庫(kù),半結(jié)構(gòu)化信息抽取,半結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù),文本數(shù)據(jù),實(shí)體對(duì)齊,推理補(bǔ)充數(shù)據(jù),異構(gòu)數(shù)據(jù)整合,
5、重要度計(jì)算,實(shí)體抽取屬性抽取,屬性值決策,關(guān)系建立,知立方數(shù)據(jù),本體,生成系統(tǒng),索引生成,檢索系統(tǒng),實(shí)體識(shí)別,本體庫(kù),Pattern,挖掘,標(biāo)簽消岐,SPARQL,查詢語(yǔ)句,排序,推理,推薦,統(tǒng)計(jì),Query,整體架構(gòu)圖,展現(xiàn),檢索系統(tǒng),索引生成,知立方數(shù)據(jù)庫(kù)構(gòu)建,本體構(gòu)建,各類型實(shí)體挖掘、屬性名稱挖掘,編輯系統(tǒng),實(shí)例構(gòu)建,純文本屬性、實(shí)體抽取,半結(jié)構(gòu)化數(shù)據(jù)抽取,異構(gòu)數(shù)據(jù)整合,實(shí)體對(duì)齊、屬性值決策、關(guān)系建立,實(shí)體重要度計(jì)算,推理完善數(shù)據(jù),國(guó)際上流行的知識(shí)庫(kù),Wolframalpha,計(jì)算知識(shí)引擎,而不是搜索引擎,10,萬(wàn)億條的信息,Freebase,6800,萬(wàn)實(shí)體,10,億的關(guān)系,DBped
6、ia,W,ikipedia,結(jié)構(gòu)化,364,萬(wàn)個(gè)條目(本體),Yago,6.4,億條,數(shù)據(jù),本體建立,實(shí)體、屬性抽取,半結(jié)構(gòu)化網(wǎng)頁(yè),屬性名計(jì)算和聚類,屬性,+,屬性值,(,候選,),實(shí)體,+,屬性,查詢?nèi)罩?劉德華年齡,張學(xué)友年齡,($,人,),年齡,查詢?nèi)罩痉治?本體建立,本體編輯,13,信息抽取系統(tǒng)建立,14,信息抽取系統(tǒng)建立,數(shù)據(jù)管理和自動(dòng)抽樣系統(tǒng),網(wǎng)頁(yè)庫(kù),可視化,UI,系統(tǒng),模板庫(kù),模板監(jiān)控系統(tǒng),結(jié)構(gòu)化數(shù)據(jù),抓取器,文本挖掘,步步驚心,新西游記,電視劇,主題曲,插曲,片尾曲,歌曲,歌手,不同數(shù)據(jù)源的整合,實(shí)體對(duì)齊實(shí)例,對(duì)齊過(guò)程,Step 0,Step 1,Step 2,Step 3,S
7、tep 4,b,d,c,e,a,a b,d e,c d e,a b c d e,Step 4,Step 3,Step 2,Step 1,Step 0,agglomerative,(AGNES),divisive,(DIANA),屬性值決策與關(guān)系建立,屬性值的決策:,關(guān)系建立與補(bǔ)齊,出生日期,身高,實(shí)體的重要性,實(shí)體搜索,李娜,實(shí)體名稱,知立方實(shí)體庫(kù),按重要度排序,0.9,0.8,0.7,0.6,1,,初始化:根據(jù)實(shí)體的屬性及實(shí)體間關(guān)系初始化實(shí)體的重要度,2,,迭代:重要度在實(shí)體關(guān)系圖中傳遞,Entity-rank vs Page-rank,推理補(bǔ)充數(shù)據(jù)與驗(yàn)證,從原始三元組數(shù)據(jù),推理生成新的數(shù)據(jù)
8、,建立更多的實(shí)體間的鏈接關(guān)系,增加知識(shí)圖的邊的密度,例如:,entity id=“1”name=“,莫言,”,莫言的作品:,紅高粱家族,生死疲勞,白棉花,推理,作者,=,作品,人物關(guān)系,配偶,+,男性,=,丈夫,配偶,+,女性,=,妻子;,電影演員,電影的主演,=,演員出演了這部電影,半結(jié)構(gòu)化信息抽取,半結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù),文本數(shù)據(jù),實(shí)體對(duì)齊,推理補(bǔ)充數(shù)據(jù),異構(gòu)數(shù)據(jù)整合,重要度計(jì)算,實(shí)體抽取屬性抽取,屬性值決策,關(guān)系建立,知立方數(shù)據(jù),本體,生成系統(tǒng),索引生成,檢索系統(tǒng),實(shí)體識(shí)別,本體庫(kù),Pattern,挖掘,標(biāo)簽消岐,SPARQL,查詢語(yǔ)句,排序,推理,推薦,統(tǒng)計(jì),Query,整體架構(gòu)圖,
9、展現(xiàn),檢索系統(tǒng),索引生成,查詢語(yǔ)義理解,用戶輸入查詢?cè)~,預(yù)處理,語(yǔ)義分析,查詢語(yǔ)句生成,查詢糾錯(cuò),分詞,基于,CFG,的句法分析,基于詞典和,CRF,的分詞和實(shí)體識(shí)別,基于模式挖掘的屬性識(shí)別,基于模版匹配的,SPARQL,生成,基于需求重要度的,SPARQL,排序,知識(shí)庫(kù),通用,詞典,屬性模式,實(shí)體別名,基于規(guī)則的挖掘策略,實(shí)體的識(shí)別和歸一,網(wǎng)頁(yè)對(duì)齊,百科,Sogou,點(diǎn)擊日志,知識(shí)庫(kù),實(shí)體,實(shí)體,別名,自然語(yǔ)言查詢,基于字典的序列標(biāo)注模型,CRF,實(shí)體標(biāo)記,實(shí)體歸一,美國(guó) 羅恩尼 女搶匪,美國(guó),羅恩尼,女搶匪,美國(guó),喬阿吉姆,羅恩尼,俠盜魅影,屬性的模式挖掘,互聯(lián)網(wǎng)問(wèn)題答案庫(kù),知識(shí)庫(kù),打上標(biāo)
10、記后的問(wèn)題答案,屬性的表達(dá)模式,去噪,頻繁模式挖掘,標(biāo)記實(shí)體和屬性值,1.,無(wú)間道誰(shuí)演的,?,劉德華,2.,誰(shuí)是無(wú)間道的主演,?,劉德華,3.,讓子彈飛誰(shuí)演的,?,葛優(yōu),無(wú)間道,主演,劉德華,讓子彈飛,主演,葛優(yōu),主演的,Pattern,1.,誰(shuí)演的,2.,誰(shuí)是,的主演,1.,誰(shuí)演的,?,2.,誰(shuí)是,的主演,?,3.,誰(shuí)演的,?,基于,CFG,的句法分析,實(shí)體推薦技術(shù),LDA,實(shí)體過(guò)濾,半結(jié)構(gòu)化信息抽取,半結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù),文本數(shù)據(jù),實(shí)體對(duì)齊,推理補(bǔ)充數(shù)據(jù),異構(gòu)數(shù)據(jù)整合,重要度計(jì)算,實(shí)體抽取屬性抽取,屬性值決策,關(guān)系建立,知立方數(shù)據(jù),本體,生成系統(tǒng),索引生成,檢索系統(tǒng),實(shí)體識(shí)別,本體庫(kù),
11、Pattern,挖掘,標(biāo)簽消岐,SPARQL,查詢語(yǔ)句,排序,推理,推薦,統(tǒng)計(jì),Query,整體架構(gòu)圖,展現(xiàn),檢索系統(tǒng),索引生成,后臺(tái)檢索系統(tǒng),SPARQL,解析,正排,索引,推理,展現(xiàn)層,倒排,索引,SPARQL,支持,按屬性篩選,索引層,檢索層,計(jì)算層,推薦,預(yù)測(cè),統(tǒng)計(jì),排序,本體,知立方數(shù)據(jù),圖檢索系統(tǒng),半結(jié)構(gòu)化信息抽取,半結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù),文本數(shù)據(jù),實(shí)體對(duì)齊,推理補(bǔ)充數(shù)據(jù),異構(gòu)數(shù)據(jù)整合,重要度計(jì)算,實(shí)體抽取屬性抽取,屬性值決策,關(guān)系建立,知立方數(shù)據(jù),本體,生成系統(tǒng),索引生成,檢索系統(tǒng),實(shí)體識(shí)別,本體庫(kù),Pattern,挖掘,標(biāo)簽消岐,SPARQL,查詢語(yǔ)句,排序,推理,推薦,統(tǒng)計(jì),Query,整體架構(gòu)圖,展現(xiàn),檢索系統(tǒng),索引生成,知立方信息展現(xiàn),提供知識(shí)庫(kù)信息的展示載體,將知識(shí)庫(kù)中的信息轉(zhuǎn)化為用戶可消費(fèi)的內(nèi)容,提供更加豐富的富文本信息,提供文本之外的圖片、列表、動(dòng)畫等更加豐富的展現(xiàn)形式,提供更友好的用戶交互體驗(yàn),更多的交互元素,如圖片瀏覽,點(diǎn)擊試聽等,能夠引導(dǎo)用戶在更短的時(shí)間獲取更多的信息,單實(shí)體展現(xiàn)及交互,重名、系列實(shí)體展現(xiàn)及交互,問(wèn)答展現(xiàn)樣式,增加篩選條件,謝謝!,Email:,