導言
2013年開年,如果讓視頻行業業內人士提名當前視頻行業內最熱的劇集,《紙牌屋 (House Of Cards)》一定會榜上有名。該劇一經發布,立刻在全球引起熱烈討論,視頻行業關注的重點是:
* 制片方是一匹黑馬,既不是電視臺,也不是傳統的電影公司,而是Netflix - 北美最大的付費視頻訂閱網站;
* Netflix宣稱,《紙牌屋》是其大數據分析的第一次戰略應用;
* 整部劇集是Netflix一次性在網站發布,供訂閱者觀看,完全顛覆了傳統的劇集發布(每周一集)的模式。Netflix之所以有底氣這樣做,是因為其基于3100萬訂閱用戶(北美)的收視行為,通過大數據分析,發現了如下規律:
* 熱播三要素:凱文.史派西;大衛.芬奇和BBC出品三者結合,就可以吸引大量用戶訂購;
* 收視行為模式變更:越來越多的人不再像30年前那樣,在固定晚上的固定時刻守在電視機前,等著收看電視劇的最新劇集,而是“攢”起來,直到整季劇情全部播放完畢之后,才選一個自己方便的時間段和地點,在方便的設備,多數是網絡設備,如電腦、iPad上一次性觀看。
* 這應該是歷史上大數據技術在視頻行業里首次顛覆性的應用。在Netflix之后,Amazon也不甘人后,開始了通過利用大數據技術,制作自制劇的過程。
從國內視頻行業來看,2013年最為火爆的關鍵詞就是:大數據,OTT,多屏,也有人聲稱2013年是“大數據元年”。似乎一夜之間,發言時不提到“大數據”就落伍了。
那么大數據到底是什么,它能夠給視頻行業帶來哪些變化,筆者將在下文嘗試對此進行初步的分析和描述。
大數據簡介
伴隨著云計算的持續高熱,大數據也成為ICT行業的必備詞匯。它究竟為何方神圣,具備哪些特點,下文將嘗試闡述。
大數據定義
對于“大數據”(Big Data),業內并沒有統一的定義,更多代表了一種新的思維方式,商業機會,未來趨勢,其核心是“數據化”。
研究機構Gartner給出了這樣的定義:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,“大數據”指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統處理方法的數據集。
最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。” “大數據”在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。
而最近最為經典的著作《大數據時代》(維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫)中,提到了進入大數據時代最大的思維轉變是,放棄對因果關系的渴求,而取而代之關注相關關系。也就是說更多關注知道“是什么”,而不僅僅知道“為什么”。這就顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰。
大數據的3個“V”,或者說特點有三個層面,業界將其歸納為3個“V” - Volume,Variety,Velocity:第一,數據體量巨大。從TB級別,躍升到PB級別。第二,數據類型繁多。互聯網常提到的網絡日志、視頻、圖片、地理位置信息等等。第三,處理速度快,即吸入、處理和產生價值的快速度,最后這一點也是和傳統的數據挖掘技術有著本質的不同。這三者缺一不可,綜合在一起才能稱之為“大數據”。
對于其他一些文章中提到的第四個V(Value或Veracity),筆者并未在本文中討論。
大數據處理
為了應對大數據的特性,在數據的處理方式中,必然會具備不同的手段和特征,同時這些特征會與大數據的特性相對應:
數據存儲(Volume and Variety)
所謂數據存儲,并不是指要關注底層存儲細節,只需要數據存儲和讀取方便快捷即可。為了更好的處理海量數據的存儲,首先要了解多樣性中的一個分類:結構化和非結構化的數據。事實上信息里的“結構”是永遠存在的,只不過結構尚未被發現,或結構變化無定(半結構化或多結構化),或者結構存在但機器卻處理不了。就像最典型的非結構化數據—文本,它有語言學意義上的結構(語法和語義),又有敘事意義上的結構(三段式、先破后立等),還具有結構化的元數據(作者、標題、發布時間等),但文本一直是非結構化數據的典型。
對于非結構化數據,文件系統是主流的存儲選擇,但是在存取、索引以及元數據管理上不是最優。而結構化數據主要依靠關系型數據庫,主要問題是結構變化時太折騰,當數據在TB級是也太慢。NoSQL數據庫應時而生,一是能支持靈活的結構(schema)和非結構化數據,二是針對大數據體量可擴展性更好。同時,文件系統也得到了發展,與對象存儲相映生輝,不僅在效率上提升(如Facebook Haystack對小圖片文件),也能更好地支持管理和分析(如支持SQL-like語言來操作)。
數據處理(Velocity)
大數據的處理,應用傳統的數據處理方式已然捉襟見肘,需要新的技術以有效的處理海量的數據,目前業內最常用的分布式并行處理框架 – Hadoop就是其中的代表。數據處理又可以分為兩個階段:
數據準備,數據處理前會有大量的時間做數據準備(到達80%),涉及到抽取、清洗、轉換和集成
數據計算,對于完成準備的數據,數據計算可以通過“分而治之”的手段描述出相關數據的特征。事實上Hadoop的設計宗旨就是基于此。
在云計算和大數據大行其道的今天,Hadoop及其相關技術起到了非常重要的作用,是這個時代不容忽視的一個技術平臺。事實上,由于其開源、低成本和和前所未有的擴展性,Hadoop正成為新一代的數據處理平臺。
Hadoop是基于Java語言構建的一套分布式數據處理框架, 框架中最核心的設計就是:MapReduce和HDFS。MapReduce的思想是由Google的一篇論文所提及而被廣為流傳的,簡單的一句話解釋MapReduce就是“任務的分解與結果的匯總”。HDFS是Hadoop分布式文件系統(Hadoop Distributed File System)的縮寫,為分布式計算存儲提供了底層支持。
MapReduce從它名字上來看就大致可以看出個緣由,兩個動詞Map和Reduce,“Map(展開)”就是將一個任務分解成為多個任務,“Reduce”就是將分解后多任務處理的結果匯總起來,得出最后的分析結果。
大數據價值
通過大數據分析掘金,發現價值,這是大數據應用的最重要目標:尋找相關性,通過對歷史的分析,輔助對未來的預測。
相關性不是因果,相關搞成了因果,差不多和“迷信”就沒有區別了。商業應用上,其實不太需要拼命挖掘因果。相關性是因果的前提,但是不等于因果。
大數據尋求的是海量數據,即全樣本。全樣本和抽樣顯然是不同的。過去的研究,由于操作性的關系,很難做到全樣本,需要去抽樣。大數據首先不是抽樣,它獲得的數據是全體樣本數據,其次它不是在讓用戶回答問題,而是實打實地去獲取用戶的“行為”。最重要的一點,大數據分析和抽樣分析的核心區別在于:前者是動態的,后者是靜態的。一個隨機抽樣所形成的結論,其實是靜態的,它只能說明在做那次調研時的一些相關性。當有新的用戶(樣本)加入時,很難再說明過去的相關性是否能夠成立 — 除非你能找到真正的排除了各種隱形變量后的因果關系。但大數據的分析卻是動態的,每秒都有可能產生一個新的結論。
大數據+視頻 = 模式創新
筆者認為:大數據時代,視頻行業的業務型態不會有大的變化,整個產業鏈的合作模式將會出現新的變化,產業鏈中的上下游界限將會變得模糊,重新洗牌的機會出現。
視頻行業產業鏈

圖 1 視頻行業產業鏈構成
目前國內,整個視頻產業鏈,可以大致認為由下列角色構成:
內容制作:視頻內容的生產者,例如工作室,傳媒公司、各大電視臺等等,以及互聯網UGC,和最近兩年興起的視頻網站自制內容;
內容集成:視頻內容的集成和銷售者,例如各大電視臺、視頻網站等等;
內容分發:視頻內容的傳播者,例如各大網絡運營商(包括有線運營商),通過有線,IPTV,OTT等方式傳播;
用戶:視頻內容的消費者,通過多屏和在線,實現“隨時、隨地、隨心”的“互動”和“個性化”視頻體驗,而不再是傳統的“觀看”
廣告主:傳統電視臺的“金主”,在新的環境下,廣告投放策略在逐漸由粗放的大面積覆蓋轉向更“精確”和“定向”營銷
第三方機構:典型機構如Nielsen,多年專業收視率統計機構(抽樣調查方式),最近開始引入twitter的社交網絡信息綜合評價視頻熱度
內容監管:內容消費的監督者,確保內容合法、有效等,例如國家新聞廣播電影電視總局。
大數據給視頻行業帶來的影響
首先,在視頻行業可能包含大數據的領域包括:
用戶行為和反饋:目前全國有1.5億有線數字電視用戶,2000萬IPTV用戶,4億多網絡視頻用戶,數億智能終端。如果將其收視行為和反饋都采集下來并進行分析,其體量必然十分巨大,理所當然是大數據的范疇,非常適合用于提供個性化服務,如相關推薦,定向廣告;同時結合社交網絡中的海量信息分析和引導,還可以用于內容制作和推廣,票房預測,收視率統計和預測
內容分析和監管:國內目前每年有上萬集電視劇投放,近十萬小時電視節目上線和上千部電影進入市場。對上述內容的健康監管也是需要重點考慮大數據的應用。尤其是從“數字化”到“數據化”的轉變,通過圖像和語音識別,使得關注點不再僅僅是視頻內容本身,而是其中蘊含的“信息”,從而挖掘其中“數據”帶來的“價值”;另外,傳統針對“內容”的監管是建立在單向傳播的基礎上,而結合用戶行為,社交網絡,甚至位置信息的新一代“輿情監控和引導”才是符合現在需求的。
網絡優化:視頻在網絡中傳播,尤其是隨著移動互聯網的飛速發展,經常會發生擁塞或者對網絡傳輸能力帶來巨大的沖擊;跉v史數據,預先規劃網絡路由也是大數據和SDN相結合的應用型態。
大數據對視頻行業的可能影響包括:
內容:上下游角色的融合
伴隨著大數據分析能力的普及,產業鏈中的不同角色的融合變成了趨勢,自制劇被視為提高收視、降低版權費用的必由之路。目前看來,筆者認為有兩種趨勢:
類似于Netflix的OTT視頻網站,他們掌握了大量的用戶數據,以此為基礎,自己投資生產內容;
內容生產的眾籌,視頻行業的參與者,通過對未來趨勢的預測,打通潛在訂閱者和創作者(編劇/導演/演員)的通道,實現內容制作的成本/收益/風險在參與者中共同分擔。
監管:全媒體內容監管
內容監管一向是我國文化產業的基本政策,針對海量內容,實現全媒體的內容監控一直是個難題。隨著大數據技術的應用,視頻內容的采集和分析成為可能,模式識別/機器學習等大數據技術的延伸能夠有效的降低內容監管的人力要求和可靠程度;
網絡:智能優化的網絡傳輸
伴隨著SDN在網絡中的開始普及,利用大數據分析網絡的歷史利用數據,可以有效的預測網絡中擁塞節點和時間點的出現和概率,提升用戶體驗。可以認為未來的視頻分發者的網絡越智能,他/她才會更受產業上游的青睞。
廣告主:效果是核心,營銷是重點
廣告業一直有一種說法:“我們知道至少浪費了一半的預算,但不知道是哪一半”,這是典型在單向傳播時代的情況。而在現在,通過用戶行為分析,已經可以做到“定向廣告”;更為重要的是,更多的廣告目的不是“品牌宣傳”,而是“營銷”,這時基于用戶行為分析的“精確營銷”能夠幫助提高購買行為轉化率,更受到廣告主的歡迎
第三方機構:不能再僅僅依靠采樣數據
一直以來,尼爾森是電視節目收視率的權威機構——它能統計美國2.5萬戶家庭的收視行為。雖然近年來尼爾森的影響力日漸式微,但是它仍然是一個權威的信息渠道:它能統計出通過傳統電視機播放的節目的收視率。但是在這個OTT和多屏的時代,人們通過更多電視之外的終端,收看非直播類內容,同時在社交網絡(如twitter)上分享著看法。這些信息對于內容的傳播效果評估非常重要,同時對于廣告主也非常重要。最終,nielson宣布和twitter展開合作,以便更全面的開展收視調查。
大數據在視頻行業的應用
大數據在視頻行業還在初期應用階段,目前還集中在互聯網視頻領域
推薦引擎
目前相對最成熟的應用,netflix據稱75%的觀看來自推薦,其個性化和推薦算法也曾獲得大獎,而國內視頻網站也都會有相關推薦。雖然算法各異,目的只有一個,通過推薦與用戶相關的內容,提高用戶觀看時長和黏度。
收視情況分析
Nielson與twitter合作的收視調查,優酷土豆的“優酷指數”逐步演進為“中國網絡視頻指數”,“數據邦”基于微博粉絲行為的收視熱點分析,這些都是比較好的應用嘗試
內容制作
本文開頭提到《紙牌屋》的故事現在廣為人知,“大數據”確實起到重要的作用,但在一定時期內,“人”仍然應該是主要因素。同樣,已經出現通過“大數據”預測票房,而減少前期制作風險的案例,也還在非常早期應用
定向廣告
“定向廣告”和“精確營銷”已經提了很多年,但在視頻領域還在初期階段,筆者目前還沒見到成熟應用。
音視頻內容分析
通過音頻和視頻識別技術,將內容的“數字化”轉為“數據化”,可檢索,可分析,便于后續價值挖掘。目前還只是在專業領域應用,如廣告插播偵測,內容監看
目前,“大數據”在各個行業,尤其是互聯網行業,開始發揮出重要的作用,經典例子如google預測流感,機票價格預測,DNA排序等等。“大數據”自身也在不斷發展,也許若干年后,我們會認為現在的“大”是如此的“小”,就像現在我們回首20多年前PC硬件配置一樣。“大數據”的核心是一種尊重“數據”的思維,最重要的價值是是對于未來的預測!
在視頻行業,大數據才剛剛開始嶄露頭角,作用和應用還需要進一步的發掘, 會隨著互聯網與視頻這個傳統行業的結合而發揮重要作用!與此同時,筆者認為,我們相信大數據的價值,但不要迷信,盲目跟風,套用“大數據”概念;而是應該從積累數據,整理數據,分析數據開始,逐步根據視頻行業的特點和需求挖掘出真正的“金礦”!
本節的最后,借用《大數據時代》的話:“大數據提供的不是最終答案,只是參考答案,為我們提供暫時的幫助,一邊等待更好的方法和答案出現。這也提醒我們在使用這個工具的時候,應當懷有謙恭之心,銘記人性之本!”
愛立信的價值
愛立信 - 視頻領域領導者
愛立信公司成立于1896年,是目前全球最大的通信設備和應用服務供應商,總部位于瑞典的斯德哥爾摩。愛立信公司提供通信網絡、電信服務和多媒體解決方案,幫助世界各地的人們更加便捷地溝通。愛立信提供的網絡承載著全球40%以上的移動業務;愛立信為運營商提供支持的網絡正在為超過25億用戶提供服務。
愛立信的電視解決方案事業部業務遍及全球,在英國、美國、中國等地設有研發機構。通過不斷的技術研發,業務拓展,和一些重要的并購,如Tandberg Television(視頻壓縮,互動電視后臺),Hyc TV(視頻產業咨詢),Technicolor(廣播管理服務),微軟Mediaroom(全球IPTV市場份額第一),Redbee(媒體服務提供),愛立信已經成為電視和媒體(TV&Media)領域領導者,能夠為業內提供完整的端到端整體解決方案和服務。

愛立信 – 端到端解決方案

愛立信的端到端解決方案主要包含如下組件:
視頻壓縮:業內最領先的視頻壓縮產品
內容管理:以CMS為核心的方案,工作流調度,面向新媒體需求
多屏業務管理平臺:面向多屏時代需求,統一的后臺管理和多屏門戶方案
媒體分發網絡(MDN):滿足OTT需求,統一面向移動和固定網絡的方案
愛立信 – 客戶參考案例
愛立信在全球有超過2000多個視頻行業客戶案例,在國內與CCTV,中國電信,各地有線網絡均已有多年合作。

[1] [2] 下一頁