Title : Improving Web Search through Mining
Speaker: 簡立峰
小龍的隨性筆記
—–
google 是人類的 Memory 的集合 (很有趣的理論!!),
很多人會偷偷覺得他變聰明了?以前 google 還沒有那麼厲害的?
比如說, google nctu 有很多網頁,
哪些網頁是人類最常點選的?那麼以後他就回報給你那個資料 (在 rank 的第一名)
當一個使用者打「台灣大學」之後, 他會做什麼事情? (有趣的使用者動向!!)
有的使用者在輸入之後走「台大醫學院/台大醫院」, 有人往圖書館走…
有一個使用者打「台大醫院」「三軍總醫院」「萬芳醫院」
如果搜尋引擎知道他要找南區的醫院 (好強 :p)
– Deep Web
不要以為沒有 hyperlink 就沒有人找的到你的網頁!!
雖然不做hyperlink, 也可以去中華電信的 proxy, cache 中找,
哪些網頁是使用者很常跑去的… 🙂
– Discovered Knowledge
google 的 algorithm ? (大家都很想知道 🙂
如果是 google 來第一間的廠商, 那麼他賣的一定比較好,
那我要怎麼不付錢去排序在前?google會不會加一點點 random?
很龐大的資料庫只是一個開始, 期待有一天可以完全可以自動!!
– 做自然語言:Web as Corpus
– LiveTrans: Cross language Web Search
跨語言的搜尋 ^^ 好酷
方法很簡單, 效果很好 (忘了申請專利 ^^”)
– LiveClassifier:
Classifying search results into user-defined classification tree
人沒有意願去 training 電腦, 比如說我打任何一個 keyword 丟到 google,
丟回來當作我的一個類別 (又忘了申請專利 (笑))
* Paper Title Categorization
* Taxonomy Generation: 太多的環境裡都有KM的問題:瀏覽這堆東西到底有什麼
(key word 分群 -> 比如說 yahoo 的搜尋類別 )
(老師很得意他有一個學生, programming 很強 :p
以前是 ACM World Final 第二名 ~~~~)
(去賣關鍵詞 :p 常打的關鍵詞效果一定很好, 他用你的紀錄…)
(如果找不到就去 open directory tree 找, 再找不到就隨便丟幾個給你)
-> 概念式搜尋引擎
* google 附近應該蓋一個電廠 :p
* 上海人的捲舌音念英文特別好聽 :p
—
Text Segment
字串分群: 比如說給你一個字串-> 如何建樹?
Challenges (一定要說有很多挑戰, 要不然 paper 不會上 :p)
搜尋引擎的 log 當特徵
比如說一個人要去瘦身/美容 (高度鑑別率又長出現的詞彙),
你的特徵向量很管用又不長, 那就是一個好特徵 🙂
(小龍註:我不知道這段在講什麼 ^^”)
—
全世界的網頁 context, 中文排名第二,
全世界的網路使用者, 中文使用者排名第一!!
所以中文處理技術/中英文互譯技術都很重要
—
google 沒有分群
但是百分之八十的 search 都是 yellow page, 只有第一筆找到就好了
很常查的東西, 可能都偷偷有人去動手腳?! :p
為什麼 google 很快?比我搜尋硬碟還快!!
cache!! 其實我跟 google 要的資料, 也有可能有些是別人查過了, cache 在 local 端
—
我覺得演講內容非常有趣 ^^
雖然我不是做這一方面的, 但卻覺得有興趣了起來 🙂
老師非常可愛 ^_^ 演講到一半還會自己笑出來 :p (好可愛唷 :D~ )
哇塞 ! 都是專門滴詞彙,偶看滴懂沒幾多少 …
不過,大概知道小龍寫程式跟搜尋字眼有關係!!
要把程式寫到搜尋到 , 挨家挨戶 功力不同凡響.
( 不曉得,偶說滴有錯嗎 ? … 雖然只懂滴超連結,代理 … )
小龍若好心點,教偶英文單字吧!! ^____^
By: 小朱^^ on March 31, 2005
at 1:11 am