從資料中挖金礦:找到你的獲利處方籤

從資料中挖金礦:找到你的獲利處方籤
定價:280
NT $ 110 ~ 252
  • 作者:岡(山鳥) 裕史
  • 譯者:李弘元
  • 出版社:經濟新潮社
  • 出版日期:2010-03-12
  • 語言:繁體中文
  • ISBN10:9867889940
  • ISBN13:9789867889942
  • 裝訂:平裝 / 208頁 / 15 x 21 cm / 普通級 / 單色印刷 / 初版
 

內容簡介

為什麼你的網站不賺錢?!
要了解Google、Amazon網站成功的祕密,就在這裡!

  本書以最簡單的方式介紹Data Mining(資料採礦、資料探勘)在資料分析、商業行銷方面的強大威力,也揭露Google、Amazon.com賴以成功的關鍵。

  例如搜尋引擎,其中就使用了資料採礦的技巧。

  資料採礦的目的,就是在龐大的資料中擷取有用的資訊。由於儲存資訊的成本已經降到接近0,資料採礦的可行性也大幅增加,除了可用在商業行銷,也可運用於社會,甚至預測未來。本書用許多日常生活的例子,來解釋資料採礦的觀念和工具,例如:

  .以喝牛奶與身高的關係解釋「迴歸分析」;
  .用青少年約會的例子說明「決策樹」;
  .以機動戰士、天文的分類來說明「群集分析」;
  .「自我組織映射圖」則是舉了戰機和連鎖咖啡店為例;
  .「關聯法則」中則有購物籃、將棋、Amazon網站的例子;
  .最後的「類神經網路」以花粉症為例。

  而且,資料採礦與我們的個人資料、隱私權也息息相關,例如:電信業者來電促銷寬頻產品、銀行來電說有優惠利率或是投資訊息……

  這些都可能是資料採礦延伸出來的「問題」!

  如果不好好管理個人資料,將使自己曝露在沒有隱私、高風險的環境中!

  甚至,企業會比你自己更了解你!

  正如作者在書末所說:

  「……個人對資訊機器或網路的理解程度,會影響個人的社會地位。

  不精通資訊的人,將在毫不知情的情況之下被監視、被榨取資料、被管理。

  相對與此,精通資訊的人,可以利用積存的資訊,使自己處於管理他人的優勢地位,甚至知道如何處身於監視之外……」

  在高度數位化的世界,如何活用、善用資訊,掌握自己的未來,本書將是最好的參考。

作者簡介

岡(山鳥)裕史

  1972年生於日本東京。中央大學總合政策研究所博士。曾任職於富士總合研究所,現擔任關東學院大學經濟學部經營學科情報部門、經濟學研究所副教授、中央大學Web Service Initiative技術部會副部會長。著作有《一星期弄懂——資安管理員的集中專題研究》(日本經濟新聞社)、《個人識別碼為什麼是四位數字?》(光文社新書)、《從郵政與有線電話了解網路的機制》(集英社新書)等。

譯者簡介

李弘元

  日本明治大學管理研究所畢業。曾任職日本丸紅株式會社、台灣丸紅的電子產業部,及台灣三菱電機系統工程師。現任職台灣電子產業。譯作有《你的手機我的夢》、《IT韓潮》、《中國製造》(合譯)、《經略中國,布局大亞洲》(合譯)、《人口減少經濟時代》等。

 

目錄

序言 9

第一章 運用資料採礦,發現隱藏的定律 17
資料採礦不是萬靈丹 / 資料採礦與傳統統計分析的不同 / 儲存資料的成本變低了 / 從龐大的資料中淘金 / 預測未來 / 新手也能上手嗎? / 發現的定律未必有用 / 理解基本原理和構造的必要性 / 定義因人而異

第二章 商業上使用的資料採礦 37
資料倉儲的建構 / 調查商圈 / 了解顧客的傾向 / 捨棄奧客

第三章 資料採礦的步驟 53
先決定想知道什麼 / 資料的蒐集方法 / 某些資料在使用上的困難 / 捨棄不需要的資訊 / 線索在哪裡? / 先從單一資料下手 / 失敗經驗有助於往後的分析 / 下一個屬性 / 異常值的處理 / 根據單一屬性設定假說的極限 / 發現橫跨好幾個屬性的隱藏定律

第四章 尋找妥協點—迴歸分析 75
更貼近正確的分析方法 / 建立假說 / 最小平方法 / 自變數增加會導致複雜化 / 迴歸分析無法順利處理的資料 / 善用不同的分析方法

第五章 快速判斷—決策樹 87
定性的資料 / 過度培育決策樹會造成「過度學習」

第六章 分類就會清楚—群集分析 99
老師教給我們?或是自己思考? / 自己思考沒有教師的分類 / 機動戰士的分類

第七章 複雜的分類—自我組織映射圖 113
模糊程度 / 壓縮多次元資料成為二次元 / 自我組織映射圖

第八章 購物籃裡面的東西是?—關聯法則 125
再談「紙尿布和啤酒」 / 找得到有用的規則嗎? / 關聯性不被認同的規則、已知的規則 / 試作關聯法則 / 諺語中具有很多關聯法則 / 人力資料採礦 / 長尾效應 / 資料是競爭力的泉源

第九章 模仿神經細胞—類神經網路 143
強大的學習能力與並列性 / 模仿神經迴路 / 基本架構非常簡單 / 學習的方法 / 神經細胞之間的結合

第十章 資料採礦與資料管理 155
變質的資料採礦 / 資料採礦的黎明期 / 經由開放化,增加資料流入 / 他人比自己還了解自己 / 如何控管自己的資料 / 無法控管的網路 / 個人資料保護法能夠保障消費者嗎? / 管理本身資料的必要性

第十一章 監視社會與資料採礦 179
監視應運而生 / 曖昧的界線 / 監視的目的改變了 / 人透過資料被認識 / 監視資料的共有與分析 / 方便性的圈套 / 資訊強者壟斷資源

 

  「資料採礦」(data mining)這個詞的出現,已有相當一段時間。當初引發的熱潮,隨著時間的經過,已經完全溶入人們的日常生活當中。在這過程中,使用資料採礦的目的,也產生了質的變化。

  大部分的人在初接觸資料採礦時,都把它當成是行銷的工具。如同「紙尿布和啤酒」(詳見第一章)的傳說所代表的,從中尋找對於促進銷售有效的定律和規則。資料採礦的意義,就被聚焦在這一點上。

  然而,資料採礦究竟是什麼呢?

  資料採礦在執行上,和傳統統計學並沒有明顯的差異。一般人對資料採礦的認識也模糊不清。在非學術的定義上,介紹資料採礦時,會用到許多統計學的相關用語。從這個角度來看,資料採礦只是位於古典統計學的延長線上。

  不過兩者還是被區分開來,這是因為資料採礦和傳統統計學在資料處理的質和量上有著顯著的差異。

  根據「摩爾定律」(半導體性能每兩年提升一倍的定律),儲存資料的成本已下降到近乎零,以往昂貴的「資料」,已便宜到如同空氣般到處被儲存下來。

  統計分析的學問體系是在資料成本很高的時代被建立的。那是一種嘗試以最少的資料量,來探索世界的學問體系。反觀在資訊爆炸的現在,資訊便宜且唾手可得。以往不能或無法當作分析對象的資料都變得可以處理,也就是擴大了可處理對象的範圍,同時,分析的深度也得以增加。

  分析對象無論在質或量上都產生了變化,資料採礦的技術就在這樣的情況下被發展出來。

  資料採礦的應用範圍不該被侷限於行銷領域。在現實社會中,資料採礦已被運用在各個層面。

  例如大家所熟悉的搜尋引擎,其中也使用了資料採礦的技術。如何讓關鍵字的搜尋結果符合使用者的搜尋需求,箇中的專門技術,就是資料採礦的精華所在。

  還有這幾年造成相當話題性的Web 2.0(隨著網路上相互運用、對照性的升高,不特定的多數人可以簡單地提供 / 享受服務的狀態)。一般而言,Web 2.0被認為是網路技術的進步與變遷。但這就像高樓建築技術的進步,如果缺少了電梯的發明,則不論進步得多神速,都將沒有實用的價值。同樣的道理,在Web 2.0中需要資料採礦技術。

  網路的進化增加了資料的相互運用性(interoperability),這使得網路中更加充斥著玉石混淆(水準不一)的資訊。如果挑選「玉」的成本增加,人們將無法享受到網路進化後的便利性。那麼今後資料採礦會以更難理解的型態,滲透到社會上的每個角落。

  本書是概要說明在社會體系的運作中,所不可或缺的資料採礦入門知識。

  第一章 ~ 九章則是模擬執行資料採礦。第三章是資料採礦模擬方法,第四章是迴歸分析,第五章是決策樹,第六章是群集分析,第七章是自我組織映射圖,第八章是關聯法則,第九章則試著操作類神經網路。第十 ~ 十一章是研究至今尚未被注意到的資料採礦使用方式,也討論在管理和監視上,資料採礦的使用方法。

  由於完全排除了數學公式,希望能夠吸引患有「數學公式恐懼症」、或是「想要略知一二」的讀者的目光。閱讀這本書,頭腦不會受到數學公式的困擾,卻可以體驗到處理資料採礦的氣氛。

  另一方面,如果讀者已經「了解最小平方法」、「已經在工作中使用群集分析」,那麼這本書就太簡單了。推薦這些讀者可以去閱讀麥可.裴瑞(Michael J. A. Berry)與戈登.林諾夫(Gordon Linoff)所著的Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management(中譯本《資料採礦理論與實務》數博網資訊出版),或是稍微簡單些的月本洋與松本一教所著的《□□□□確率.情報.□□□□□□□□》(森北出版)。至於對最後一章提到的監視社會有興趣的讀者,大衛.賴恩(David Lyon)所著的《監視社會》(Surveillance Society: Monitoring Everyday Life)則是本值得推薦的好書。

  本書中「資料」、「資訊」等詞彙不斷重複出現。雖然有些情況下,這兩個用語需要嚴格區分,但本書為了易於閱讀,採用了習慣用語的標準。因此本書中提及的這兩個詞,基本上是相同的意思。

  能夠寫作這本書,要特別感謝光文社三宅貴久先生的鼎力相助。另外,也藉此機會謝謝協助校對原稿的勝田直樹先生。

 

內容連載

第二章  商業上使用的資料採礦

資料倉儲的建構
  凡是能夠成為話題、普及的技術,一定都有需求存在。但如果工具或分析技巧只是技術優越、想法有趣,沒有人想去使用,熱度則會消退。資料採礦蓬勃發展至今已經超過十年的歲月,一定存在著相當的期待和需求,它究竟被使用在什麼用途上呢?

  但資料採礦主要的需求來自以CRM(客戶關係管理,也就是企業應用資訊系統,架構與客戶之間長期關係的方法)為主的業務活動、販賣促銷活動。

  資料採礦並不是被侷限於特定領域的分析系統,稍後將介紹它被應用到其他領域的狀況。一般聽到資料採礦,首先應該會想到POS系統(店員在銷售商品的同時,蒐集顧客的性別、年齡、商品名稱、數量、金額等資料,分析運用到經營管理層面的系統)這樣的東西吧。

  日本7-11最先採用的POS系統,劃時代以資料採礦為導向。從一開始導入,就不把POS只當成是高功能的端末,而將其視為統合型的介面(資料往來的媒介機器)。

  這個策略的目的是,藉由嚴格區分暢銷商品和滯銷商品,設法消除不良庫存和缺貨狀況;而為了讓不同立地條件和客層的店舖,都能夠執行有效的分析,因此建構了蒐集項目極多的「資料倉儲」(data warehouse)。藉由網路連結總部、各店舖、資料倉儲,使得商品的管理可以細分到單品的程度。

  POS系統執行的工作當中,金額的計算只佔了很小的一部分。如同圖2-1所示,店員將正在購物的客戶資料:大約幾歲?性別?有無同伴?等資料輸入到POS系統,系統則藉由網路持續地將資料傳送、儲存到資料倉儲。

  建構資料倉儲是資料採礦的第一步。執行資料採礦的大前提是必須有可供分析的資料,但並不是只要有資料就可以。資料必須經過完善的整理,並且維持在隨時可以取用的狀態。符合這個條件的資料儲存系統就是資料倉儲。

  以前有專門負責資料儲存的機構。事實上儲存本身並沒有意義。是否處於能被馬上利用的待機狀態,才是影響分析性高低的主因。

  缺乏策略、雜亂儲存的資訊,無法成為有用的資料,大部分的情形形同積壓的垃圾,假設要被使用也必須重新投入相當的成本。

  當今隨著Web 2.0的普及,雜亂繁多的資訊可以很容易地以低成本再度編輯;才不久前如果要實現這樣的事情,就必須在某個時間點事先建構好資料倉儲。

  另外,資料倉儲的一大特徵是,可以按照時間順序儲存/展開資料。之後展開資訊進行分析時,有無時間軸來進行評斷,會對分析的精準度產生莫大的影響。這是因為觀測連續、持續性資料的傾向,會比只評斷某個時間點的資料,得到更多的訊息。這在日常生活上也是相同的道理。
網路書店 類別 折扣 價格
  1. 二手書
    39
    $110
  2. 二手書
    5
    $140
  3. 新書
    9
    $252