發表文章

目前顯示的是 8月, 2018的文章

Software Survey: Forecasting 2018 [翻譯文章]

今年的調查反映了軟件市場的變化,但它也更加強調實踐預測者的要求。 作者:Robert Fildes,Oliver Schaer和Ivan Svetunkov 來源出處: http://netinfo.takming.edu.tw/tip/register/reg_openlist.php 下面是我用 Google 翻譯 預測一直是OR / MS[鐵雲註: OR/MS Today 是一本雜誌]的重要組成部分,現在正在為快速發展的業務分析領域做出重大貢獻。預測是幾乎所有規劃決策的必要輸入,無論是長期還是短期,但在性能分析和收益優化中也需要預測。因此,預測方法應成為所有大學或從業者分析課程的重要組成部分。 合適的軟件是預測活動的核心,無論是從業者在供應鏈中的需求預測,還是作為企業或政府分析師。有趣的是,預測的歷史在某種程度上是由那些在傳播新方法的早期開發出用戶友好軟件套件的人編寫的。例如,Box-Jenkins ARIMA軟件的早期開發確保了快速採用,而國家空間軟件的缺乏限制了它的採用,直到R開源軟件的開發(Hyndman和Khandakar,2008 [3])。但是預測軟件不是同質的,無論是在實施的方法方面,還是更重要的是,在設想的應用方面,它是一個快速發展的領域。 OR / MS Today多年來一直在調查預測軟件供應商,以概述最新功能和市場趨勢(最近,Fry和Mehrotra,2016 [1])。在最新的調查中,我們試圖確定所有包含時間序列預測的軟件包預測軟件提供商,無論是研究型軟件還是專為運營組織規劃而設計的軟件。當然,只有一部分人在截止日期前回复,任何遲到的提交都將在網上提供:https://bit.ly/2Jpl66p。 預測的核心原則是查看過去的歷史以理解和預測。 Fry和Mehrotra在2016年進行的調查包括一些已經變得多餘的方面,例如靈活的數據輸入和輸出。但現在這很簡單,我們從當前的調查問卷中刪除了這些問題。 Fry和Mehrotra還確定了市場上的一些趨勢:“整合”,其中預測與規劃系統相關聯; “自動化”,其中包括從一系列方法中自動選擇; “可視化”,適用於擴展的圖形範圍; “虛擬化”,供應商的產品通過雲提供,或者在更極端的版本中,供應商從頭到尾虛擬地管理預測過程。我們現在在當前的軟件中看到所有這些功能。 2018年的調查經過重...

如何快速在一個領域中有貢獻

如何快速在一個領域中有貢獻: 1. 先去釐清這個領域要目前要解決前三名重要的問題: 注意此所要處理的問題一定要先弄得清清楚楚,因為這是這領域中技術的起源。而且了解問題後,也讓你有機會提出自己的解法。還有,有些問題是為了解決另外一個問題而產生,而另外的問題,也是因為為了解決另另外一個問題而產生。所以,問題的脈絡要非常清楚。 2. 深入問題: 知道問題的脈絡之後,需要由起源處重頭去深入瞭解問題。所為瞭解問題就是去發掘問題為何會發生? 這是為了知道為何有問題重要的的緣由(原因)。 3. 瞭解相關技術的關係: 一個問題如果是重要問題,通常有一大堆人會提出解決方法或技術。妳可以將這些方法與技術標記在問題脈絡的某處。 4. 選擇一個重要問題脈絡中,妳可以貢獻的地方,快速提出你的解決方案,並證明它是可行的。 5. 將證明與一些領域內重要人士分享與討論,推廣妳的想法或作法。

MCMC 與採樣有何關係?

之前看 MCMC 都有點沒頭腦的,今天看到一文: MCMC随机采样 https://zhuanlan.zhihu.com/p/30003899 清楚許多了! 推薦您有空也可以看看。

Recall 與 Precise 的概念

Recall  和  Precise 的概念可以應用在評量各種方法執行結果的品質。 其中 , Recall 是執行結果中找出的正確目標的數目和樣本中目標的個數之比率。 Precise 是執行結果中找出的正確目標與執行結果的總數的比率。 下面是一個在全文檢索的應用:   從一個大規模資料集合中檢索檔時,可把檔案分成四組:       1. 系統檢索到的相關檔案個數為  a       2. 系統檢索到的不相關檔案個數為  b        3. 相關但是系統沒有檢索到的檔案個數為  c        4. 不相關且沒有被系統檢索到的檔案個數為  d 則 Recall  R 和 Precise  P  的計算公式分別為: ( 1 )Recall 的計算如下:          R = a / ( a + c ) 其中分子為檢索到的相關檔案個數,分母為所有相關檔案的總數。 ( 2 )精度          P = a / ( a + b ) 其中分子為檢索到的相關 檔案 個 數,分母為所有檢索到的 檔案 總數。 所以,您就可能可以體會 Recall 為何稱為 Recall 了! 因為它是衡量在一推目標中,某一方法可以抓到它們當中的多少比率。而 Precise 是衡量用某一方法的結果中,有多少是"正確"的目標。

word2vec 的學習路徑

如果您是有心學習 word2vec,建議您: 首先: Google 一下 word2vec 看個大概 接著: 請仔細看這篇文章: word2vec Parameter Learning Explained( https://arxiv.org/pdf/1411.2738.pdf ) 看完後您可能會有一些問。 最後: 請努力啃這篇:  word2vec 中的數學( https://kexue.fm/usr/uploads/2017/04/2833204610.pdf ) 應該就差不多了!

別放棄,雖然是盡頭我們還是有選擇

在耶穌受魔鬼試煉的時候,因為試煉當時耶穌有很長一段時間沒有進食。 用白話來說,當時耶穌快餓死了。 餓了就吃、累了就睡、高興就笑、難過就哭...人之常情 快餓死了,就想辦法吃點東西,不然沒有體力繼續戰鬥。吃是生命的基本需求。有需要考慮選擇要不要吃嗎? 魔鬼提一個建議給耶穌,叫耶穌將石頭變成麵包來吃,以解決這基本需求。 但耶穌拒絕了魔鬼的建議,耶穌說 " 經上記著說: " 人活著不是單靠食物 , 乃是靠神口 裡所出的一切話。"   我們常常以為我們是單靠 XXX 活著,沒有 XXX 就不行。 XXX  也許是最基本的需求 ,如食物、空氣、水、陽光、也許是最愛的人、事、物, 理所當然的單靠這些才活下去。 但耶穌選擇了"否定魔鬼" -  活著是單靠食物 、選擇依靠了神 -  神口 裡所出的一切話 。 在人看耶穌是快餓死了 ,選擇食物理所當然,然而 雖然是盡頭,耶穌還是見證出來有選擇,選擇將牠的需要是依靠在神口中的話,而非食物。這是真正喫神的意義了。 當喫神或依靠神建立在肉體的需求之上時,牠的意義就真正被堅固了。

多維推薦系統結合層級結構的概念與架構

圖片
在傳統的 OLAP 模型中,層級結構通常定義在各個維度上。例如,在銷售應用程序中,數據 Cube 的各個單元格對應於銷售值,而位置維度可以具有各種層級,例如城市,州,地區等。 人們可以在州,地區或國家層面匯總銷售額。此外,可以通過在特定時間段內累計特定區域中的銷售額來將位置維度與時間維度組合。這種聚合也可以在多維推薦系統中執行。 層級結構在對情境敏感的推薦系統中也很有用,因為它們提供了各種抽象級別,其中可以執行聚合分析。為了執行聚合分析,假設一些或所有維度具有與它們相關聯的層次結構。這些層次結構是推薦系統輸入的一部分。層次結構的性質是依不同領域而異的,它取決於手邊的應用領域。一些例子如下: 1. 位置維度可以具有對應於城市,州,地區,國家等的層級。 2. 如果人口統計信息與用戶相關聯,則人們還可以將人員維度排列在人口統計屬性的層級結構中,例如年齡或職業。諸如年齡之類的維度可以被離散化為各種層次級別的粒度。 3. 項目維度可以使用標準的行業層級結構,例如北美行業分類系統(NAICS)。或者,可以使用各種類型或子類來表示多個不同產品領域中的項目(以電影領域為例)。 4.時間等維度可以用不同的細化層次結構表示,例如小時,天,週,月等。 顯然,用戶需要預先仔細選擇要使用的層級結構,以便可以在給定的應用程序中執行最相關的分析。為手邊的應用選擇最相關的情境維度 D1 ... Dw 也很重要。這個問題與傳統分類和機器學習文獻中的特徵選擇密切相關。或者,這些維度可以由行業中此領域的專家來選擇。 用戶,項目(電影)和時間的可能層次結構示例如上圖所示。用戶按年齡分類,電影按類型分類,時間按時間分類。現在考慮在上圖的示例中,使用這些層次結構的情況。通過這些層次結構,人們現在可以進行更一般的(聚合)查詢,例如                            gR(David,Terminator,Evening), 而不是                        ...

多維推薦問題的表達方式

圖片
傳統典型的二維推薦問題: 在“為誰”(user)維度中,確定在“什麼”(item)維度中特定一組指定值,它的前 k 個可能性。 多維推薦(multi-dimensional recommendations) 定義如下: 換句話說,回應“為誰”的查詢,即是推薦“什麼”維度的組合排序列表。 傳統的二維推薦模型是這種多維向用戶推薦項目情況的特例。 因此,其中項目(items)始終屬於“什麼”類別,用戶(users)始終屬於“為誰”類別。 在多維推薦系統中,使用更通用的框架,其中“什麼”和“為誰”項之間的分段可以是任意的。 例如,可以為每個用戶推薦最佳(項目, 時間)組合,或者可以為每個項目推薦最佳(用戶, 時間)的組合。 或者,可以推薦每個 (用戶,項目) 組合的最佳時間。 請注意,在這種情況下,用戶和項目都屬於 “for who” 類別。 在社交應用中,人們可能希望推薦最佳同伴來觀看特定(用戶, 電影)組合的電影。 請注意,“what” 和 “for whom” 維度的聯集可能是整個 w 維度的適當子集。 例如,考慮 w = 4 的情況,除了用戶和項目維度之外,我們還有時間和位置維度。 而此查詢可能完全忽略時間,僅使用位置來提出推薦。 如在以上描述中所反映的,多維模型特別豐富,並且在決定建議的製定方面允許廣泛的餘地。 實際上,已經開發了一種稱為推薦查詢語言(RQL)的查詢語言,用於在多維推薦系統中製定不同類型的推薦請求。 這種查詢語言對於在查詢過程中選擇“什麼”和“為誰”維度的不同子集,以及開發系統查詢回應方法特別有用。

競品分析可以怎麼做?

這問題很難,因為可能的競品太多了,怎麼選是個大問題,但可以試著去解決。 首先這裡的競品是指你可以收集到的跟此產品可以同樣滿足客戶相同需求的品項。 一般如果是同品牌就稱有蚕食效應,如果是不同品牌即稱品牌轉換效應。 假設目前收集到 C1, C2, ..., Cm 個競品數據(時間序列), 首先,由  m 個競品中選取與品項較有關係的 : 以模型配適後的殘餘進行關聯分析,選取有負相關的品項。假設選取後有 k 個品項。 再來以 principle component 手法,將 k (可能上百個以上)個競品縮減到 p (5 個以下)個 [v1, v2,...vp] 最後將這 p 個變數,放進 ARIMAX 模型中,進行預測。

時間序列中的單位根的直覺解釋

單位根是指時間序列中的隨機趨勢。 讓我用一個簡單的例子來解釋這一點:時間序列是一個過程,它可以寫在包含“根”的部件中。 例如: v(t)=c +a * v(t − 1) +  ϵ( t)  係數  a   是根,您可以將這個過程 / 公式解釋為‘今天的值取決於昨天的值和一些我們無法預測的隨機性’。我們期望這個過程總是收斂到 c 的值。試試這個示例:假設 c=0 和 a  =0.5 。如果昨天 v(t − 1) 的值是 100 ,那麼我們預計今天的值將在 50 左右。明天,我們預計值為 25 ,依此類推。您可以看到,這個系列將“回到家”,這意味著它將收斂到 c 的值。當其中一個根是一個單位,即等於 1( 在這個例子中,當  a =1) ,那麼這個系列將不會恢復到它的原點。通過使用上面給出的示例可以看到這一點。這就是為什麼單元根和單元根測試的概念是有用的:它為我們提供了時間序列是否會恢復到預期值的洞見。如果不是這樣的話,那麼這個過程就很容易受到衝擊,很難預測和控制。

推薦一下許小年的博客

由基本面出發進行分析的人,被我看到就會推薦一下,這是個人品味無關乎好壞。 許小年的博客: http://blog.sina.com.cn/u/1730508265

二分法是一種可以簡單被理解求解的方法

圖片
求 f(x)  = 0   的解,二分法是一種可以簡單被理解求解 的方法: 二分法要求起始間隔 [a , b] ,使 f(A) 和 f(B) 具有不同的符號。這保證在此間隔內至少有一個根。在每次反覆運算中,函數在 a 和 b 之間的中間點 m 求值,且函數的符號在 a 和 m 處不同,然後為下一次反覆運算選擇新的區間 [a , b=m] 。否則,下一次反覆運算將選擇區間 [a=m , b] 。這保證了在每次反覆運算中,函數在區間的兩個端點都有不同的符號,而在每次反覆運算中,區間被減半,從而收斂到方程的一個根。

淺談最佳化

圖片
一般來說,最佳化是從一組可行的候選人中尋找和選擇最佳元素的過程。在數學最佳化中,這個問題通常被表述為確定給定區域的函數的極值。極值或最佳值可以指函數的最小值或最大值,這取決於應用程式和特定問題。 數學最佳化的應用多種多樣,解決最佳化問題所必須採用的方法和演算法也是多種多樣的。由於最佳化是一個普遍重要的數學工具,它已經在科學和工程的許多領域中得到了發展和應用,而用於描述最佳化問題的 術語在不同的領域之間也各不相同。 舉幾個例子, 例如,最佳化 的數學函數可以稱為成本函數、損失函數、能量函數或目標函數。在這裡,我們使用了通用術語“目標函數”。 最佳化 與方程的求解密切相關,因為在一個函數的最佳值時,它的導數或多變數情況下的梯度為零。相反,並不一定是正確的,但解決最佳化問題的方法是求解導數或梯度的零點,並檢驗結果的最佳性。但是,這種方法並不總是可行的,而且通常需要採取其他的數值方法,其中許多方法與 根查找數值方法密切相關。 在這裡,我們的注意力限制在一個或多個因變數的實值函數的數學最佳化上 .  許多數學最佳化問題都可以用這種方式來表述,但一個值得注意的例外,是離散變數上的函數最佳化,例如整數。 我們考慮的一般最佳化問題可化為一個極小化問題: min f(x) ,它在 m 個等式約束    g(x)=0  和 p  個不等式約束  h(x) <= 0  的條件下。這裡    f(x) 是    x  的實數值函數,它可以是純量函數,也可以是向量    x=t(x1,x2,…,xn) ,而   g(x)  和  h(x)  可以是向量值函數: f : R^n -> R , g : R^n -> R^m  和     h : R^n -> R^p 。請注意,最大化    f(x)  等價於極小 - f(x) ,因此在不失去一般性的情況下,只考慮極小化問題就足夠了。 根據目標函數 f(x) 的性質以及等式和不等式約束 g(x) 和 h(x) 的性質,該式子包含了豐...