資訊檢索系統不論在設計、研發、運作等各階段,評估均是其中不可或缺的重要環節。透過此程序,研究者能藉以驗證系統效益、比較各種檢索技術的優劣,以作為改進之參考,使資訊檢索系統的運作及效能更臻完善。資訊檢索系統評估的研究發展,自1950年代至今,已有四十年以上的歷史。早期此方面相關的實證研究,大多是在規範化的環境(Laboratory Environment)中進行測試(Test),透過一些量化或質化的準則,衡量不同技術或不同系統間檢索效益之優劣。最早採用此評估模式的是1966年Cleverdon所進行的Cranfield II計劃,它以文件集(Document Set)、查詢問題(Question)及相關判斷(Relevance Judgment)構成一組測試集(Test Collection)作為測試的基礎資料,並訂定一套效益測量準則(Effectiveness Measurement),以評估多種索引方式之優劣。Cranfield研究採用的實驗模型與測試方法,在系統評估的領域中一直廣受仿效與援用,直至今日仍佔有舉足輕重的開創性地位。然而,早期的測試集規模通常不大,與真實檢索環境間存在頗大的差距,因此植基於其上所發展的檢索系統,在實際運作時往往無法達到良好的效益。 |