鍍金池/ 問答/PHP  數(shù)據(jù)庫/ 各位親,多關(guān)鍵詞搜索時(shí),存儲(chǔ)過程怎么寫好?

各位親,多關(guān)鍵詞搜索時(shí),存儲(chǔ)過程怎么寫好?

我正在寫一個(gè)信息檢索程序,PHP+MYSQL,數(shù)據(jù)庫是這么設(shè)計(jì)的(為簡(jiǎn)化省去和問題無關(guān)的列):
詞表T: id, term;其中term列表示關(guān)鍵詞,做了唯一索引;
數(shù)據(jù)樣例:[1,'云計(jì)算'],[2,'大數(shù)據(jù)']
文檔表D:id, length;其中l(wèi)ength列表示文檔長(zhǎng)度,用于計(jì)算排名以便排序搜索結(jié)果;
數(shù)據(jù)樣例:[1,300],[2,500]
關(guān)系表C:tid,did,count; 表示哪個(gè)詞出現(xiàn)在哪個(gè)文檔多少次?前兩列是外鍵,count列也用于計(jì)算排名;
數(shù)據(jù)樣例:[1,1,3],[1,2,5],[2,2,10]

對(duì)文檔集編制索引,也就是向這三個(gè)表插入數(shù)據(jù),這一步已經(jīng)完成。

接下來處理查詢,用戶輸入的是自然語言,例如“今年云計(jì)算和大數(shù)據(jù)發(fā)展趨勢(shì)”。
我用PHP提取出關(guān)鍵詞“云計(jì)算”“大數(shù)據(jù)”,現(xiàn)在是兩個(gè),然后調(diào)用存儲(chǔ)過程來快速檢索:
CALL SP2('云計(jì)算','大數(shù)據(jù)');
存儲(chǔ)過程會(huì)返回文檔id數(shù)組,并根據(jù)相關(guān)度排序,相關(guān)度的計(jì)算比較復(fù)雜,會(huì)用到D.length和C.count,以及一些統(tǒng)計(jì)數(shù)據(jù),比如文檔總共有多少個(gè)?其中包含詞'云計(jì)算'的文檔有多少個(gè)?……

我的問題是,目前我寫了SP(K),SP2(K1,K2);可PHP提取出來的關(guān)鍵詞數(shù)量可以任意多,總不能為每種數(shù)量編寫一個(gè)存儲(chǔ)過程吧?請(qǐng)問如何編寫一個(gè)存儲(chǔ)過程,能高效的處理任意多個(gè)關(guān)鍵詞呢?

我先簡(jiǎn)要展示一下SP2的偽代碼(可能有語法錯(cuò)誤,您湊付看,明白意思就好):

-- 計(jì)算文檔總數(shù),包含關(guān)鍵詞K1、K2的文檔數(shù)
select count(*) into TotalD from D;

select count(*) into TotalDK1 from D
join C on C.did = D.id
join T on C.tid = T.id
where T.term = K1;

select count(*) into TotalDK2 from D
join C on C.did = D.id
join T on C.tid = T.id
where T.term = K2;

-- 檢索文檔,根據(jù)相關(guān)度排名,返回給PHP
select D.id, 計(jì)算相關(guān)度(TotalD, TotalDK1, TotalDK2, length, count) AS rel
from
(
select D.id, D.length, C.count from D join ... where T.term = K1
union all
select D.id, D.length, C.count from D join ... where T.term = K2
)
group by D.id
order by rel desc;

大致如此,您明白了吧,如果再寫SP3、SP4、……要了命了!

謝謝!

回答
編輯回答
嫑吢丕

為啥用數(shù)據(jù)庫實(shí)現(xiàn),用全文搜索啊,一般都有權(quán)重功能的...

2018年8月2日 12:00