Meta開源奠基於全球網路內容的AI知識語料庫Sphere

頁: [1]

飛行人3 發表於 2022-7-15 11:55 PM

Meta的AI團隊開源了一個爬梳全球網路內容的AI知識語料庫Sphere，號稱是全球最大的同類型語料庫
Meta的AI團隊本周開源了一個爬梳全球網路內容的AI知識語料庫Sphere，號稱是全球最大的同類型語料庫，並利用Sphere打造了一個Side模型，可用來改善維基百科（Wikipedia）所引用的資訊的關聯性與正確性。
語料庫（Corpus）為知識密集型自然語言處理（Knowledge-Intensive Natural Language Processing，KI-NLP）的基礎，KI-NLP模型爬梳數位檔案來尋求問題的解答或進行事實查核，因此，語料庫的規模愈大，所能解答的問題也愈多。
在現階段的KI-NLP研究領域中，研究人員多半是透過商業搜尋引擎或是Wikipedia來尋找答案，但Meta的研究人員認為，商業搜尋引擎就像是個黑盒子，人們可能不知道自己遺失了哪些重要訊息，而就算Wikipedia相對精確、有良好的格式，而且因為規模小而方便使用，但它畢竟是個眾包平臺，並未容納網路上的所有內容。
而Sphere即是一個奠基在全球開放網路內容的語料庫，它是開源的、通用的、未經組織的、非結構化的知識來源，因此可支援各種KI-NLP任務。它內含1.34億個文件，具備9.06億個段落，每個段落都含有100個標記，比現今最大的知識語料庫多了一個數量級。
Sphere的建置源自於Meta AI所開發的CCNet，CCNet為Common Crawl的變種，把每月固定爬梳全球網路的Common Crawl檔案去蕪存菁而來。
Meta的AI研究人員指出，Sphere與搜尋引擎最大的不同在於它開放研究人員存取完整的語料庫，研究人員不僅能夠檢視並控制語料庫，也能展開不同的實驗來推動檢索技術的發展，另一方面，開源社群也將協助Meta辨識Sphere的檢索盲點。
研究人員將可利用Sphere來訓練檢索器，以處理更廣泛的文件，或者是建置自動化系統來檢查不實資訊、噪音或不連貫的文字。
Meta AI已利用Sphere打造了一個Side模型，可用來協助強化維基百科的引用資訊，因為維基百科的編輯可能無法仔細檢查每一個引用的資訊，或是志願者在撰寫時無意中流露出的偏見。
目前Sphere仍是個研究中的產品，尚未實際應用於Meta自家的平臺上，也未與維基百科合作，只是以Side模型作為示範案例。

...<div class='locked'><em>瀏覽完整內容，請先 <a href='member.php?mod=register'>註冊</a> 或 <a href='javascript:;' onclick="lsSubmit()">登入會員</a></em></div><div></div>

頁: [1]

伊莉討論區's Archiver

Meta開源奠基於全球網路內容的AI知識語料庫Sphere