Posted by: smallonely | March 10, 2005

[speech] Improving Web Search trhough Mining

Title : Improving Web Search through Mining
Speaker: 簡立峰

小龍的隨性筆記

—–

google 是人類的 Memory 的集合 (很有趣的理論!!),
很多人會偷偷覺得他變聰明了?以前 google 還沒有那麼厲害的?
比如說, google nctu 有很多網頁,
哪些網頁是人類最常點選的?那麼以後他就回報給你那個資料 (在 rank 的第一名)

當一個使用者打「台灣大學」之後, 他會做什麼事情? (有趣的使用者動向!!)
有的使用者在輸入之後走「台大醫學院/台大醫院」, 有人往圖書館走…

有一個使用者打「台大醫院」「三軍總醫院」「萬芳醫院」
如果搜尋引擎知道他要找南區的醫院 (好強 :p)

– Deep Web
不要以為沒有 hyperlink 就沒有人找的到你的網頁!!
雖然不做hyperlink, 也可以去中華電信的 proxy, cache 中找,
哪些網頁是使用者很常跑去的… 🙂

– Discovered Knowledge
google 的 algorithm ? (大家都很想知道🙂
如果是 google 來第一間的廠商, 那麼他賣的一定比較好,
那我要怎麼不付錢去排序在前?google會不會加一點點 random?

很龐大的資料庫只是一個開始, 期待有一天可以完全可以自動!!

– 做自然語言:Web as Corpus

– LiveTrans: Cross language Web Search
跨語言的搜尋 ^^ 好酷
方法很簡單, 效果很好 (忘了申請專利 ^^”)

– LiveClassifier:
Classifying search results into user-defined classification tree
人沒有意願去 training 電腦, 比如說我打任何一個 keyword 丟到 google,
丟回來當作我的一個類別 (又忘了申請專利 (笑))

* Paper Title Categorization
* Taxonomy Generation: 太多的環境裡都有KM的問題:瀏覽這堆東西到底有什麼
(key word 分群 -> 比如說 yahoo 的搜尋類別 )
(老師很得意他有一個學生, programming 很強 :p
以前是 ACM World Final 第二名 ~~~~)
(去賣關鍵詞 :p 常打的關鍵詞效果一定很好, 他用你的紀錄…)
(如果找不到就去 open directory tree 找, 再找不到就隨便丟幾個給你)
-> 概念式搜尋引擎

* google 附近應該蓋一個電廠 :p

* 上海人的捲舌音念英文特別好聽 :p


Text Segment
字串分群: 比如說給你一個字串-> 如何建樹?

Challenges (一定要說有很多挑戰, 要不然 paper 不會上 :p)

搜尋引擎的 log 當特徵
比如說一個人要去瘦身/美容 (高度鑑別率又長出現的詞彙),
你的特徵向量很管用又不長, 那就是一個好特徵🙂
(小龍註:我不知道這段在講什麼 ^^”)

全世界的網頁 context, 中文排名第二,
全世界的網路使用者, 中文使用者排名第一!!
所以中文處理技術/中英文互譯技術都很重要


google 沒有分群
但是百分之八十的 search 都是 yellow page, 只有第一筆找到就好了
很常查的東西, 可能都偷偷有人去動手腳?! :p

為什麼 google 很快?比我搜尋硬碟還快!!
cache!! 其實我跟 google 要的資料, 也有可能有些是別人查過了, cache 在 local 端

我覺得演講內容非常有趣 ^^
雖然我不是做這一方面的, 但卻覺得有興趣了起來🙂
老師非常可愛 ^_^ 演講到一半還會自己笑出來 :p (好可愛唷 :D~ )







Responses

  1. 哇塞 ! 都是專門滴詞彙,偶看滴懂沒幾多少 …

    不過,大概知道小龍寫程式跟搜尋字眼有關係!!
    要把程式寫到搜尋到 , 挨家挨戶 功力不同凡響.

    ( 不曉得,偶說滴有錯嗎 ? … 雖然只懂滴超連結,代理 … )

    小龍若好心點,教偶英文單字吧!! ^____^


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Categories

%d bloggers like this: