1樓:無雅詩
資料清洗需要清理的資料,是輸入資料後需要對資料進行預處理,只有處理得當的資料才能進到資料探勘的步驟。而處理資料包括對資料數量和質量的處理。
包括對缺失的資料有添補或刪除相關行列方法,具體步驟自己判斷,如果資料量本來就很少還堅持刪除,那就是自己的問題了。
添補:常用拉格朗日插值或牛頓插值法,也蠻好理解,屬於數理基礎知識。(pandas庫裡自帶拉格朗日插值函式,而且這個好處是還可以在插值前對資料進行異常值檢測,如果異常那麼該資料就也被視為需要進行插值的物件)。
刪除:這個也好理解,就是對結果分析沒有直接影響的資料刪除。
異常值這個是否剔除需要視情況而定
像問題1中視為缺失值重新插值
刪除含有異常值的記錄(可能會造成樣本量不足,改變原有分佈)
平均值修正(用前後兩個觀測值平均值)
綜上,還是方案一靠譜。
人生苦短,學好python
3 資料量太多,有三種方法:整合,規約,變換
(1)資料是分散的時,這個就是指要從多個分散的資料倉儲中抽取資料,此時可能會造成冗餘的情況。此時要做的是【資料整合】。
資料整合有兩方面內容:
①冗餘屬性識別②矛盾實體識別
屬性:對於冗餘屬性個人理解是具有相關性的屬性分別從不同的倉庫中被調出整合到新表中,而新表中由於屬性太多造成冗餘,這時可以靠相關性分析來分析屬性a和屬性b的相關係數,來度量一個屬性在多大程度上蘊含另一個屬性。等等。
資料清洗時預處理階段主要做兩件事情:
一是將資料匯入處理工具。通常來說,建議使用資料庫,單機跑數搭建mysql環境即可。如果資料量大(千萬級以上),可以使用文字檔案儲存+python操作的方式。
二是看資料。這裡包含兩個部分:一是看後設資料,包括欄位解釋、資料**、**表等等一切描述資料的資訊;二是抽取一部分資料,使用人工檢視方式,對資料本身有一個直觀的瞭解,並且初步發現一些問題,為之後的處理做準備。
資料清洗是整個資料分析過程中不可缺少的一個環節,其結果質量直接關係到模型效果和最終結論。在實際操作中,資料清洗通常會佔據分析過程的50%—80%的時間。
2樓:逍遙楚客
資料清洗是指發現並糾正資料檔案中可識別的錯誤的最後一道程式,包括檢查資料一致性,處理無效值和缺失值等。
大資料清洗需要清洗哪些資料
3樓:無雅詩
資料清洗過程包括遺漏資料處理,噪聲資料處理,以及不一致資料處理。
 資料清洗的主要處理方法。
遺漏資料處理
假設在分析一個商場銷售資料時,發現有多個記錄中的屬性值為空,如顧客的收入屬性,則對於為空的屬性值,可以採用以下方法進行遺漏資料處理。
忽略該條記錄
若一條記錄中有屬性值被遺漏了,則將此條記錄排除,尤其是沒有類別屬性值而又要進行分類資料探勘時。
當然,這種方法並不很有效,尤其是在每個屬性的遺漏值的記錄比例相差較大時。
手工填補遺漏值
一般這種方法比較耗時,而且對於存在許多遺漏情況的大規模資料集而言,顯然可行性較差。
利用預設值填補遺漏值
對一個屬性的所有遺漏的值均利用一個事先確定好的值來填補,如都用「ok」來填補。但當一個屬性的遺漏值較多時,若採用這種方法,就可能誤導挖掘程序。
因此這種方法雖然簡單,但並不推薦使用,或使用時需要仔細分析填補後的情況,以儘量避免對最終挖掘結果產生較大誤差。
利用均值填補遺漏值
計算一個屬性值的平均值,並用此值填補該屬性所有遺漏的值。例如,若顧客的平均收入為 10000 元,則用此值填補「顧客收入」屬性中所有被遺漏的值。
利用同類別均值填補遺漏值
這種方法尤其適合在進行分類挖掘時使用。
例如,若要對商場顧客按信用風險進行分類挖掘時,就可以用在同一信用風險類別(如良好)下的「顧客收入」屬性的平均值,來填補所有在同一信用風險類別下「顧客收入」屬性的遺漏值。
最後利用最可能的值填補遺漏值
可以利用迴歸分析、貝葉斯計算公式或決策樹推斷出該條記錄特定屬性的最大可能的取值。
例如,利用資料集中其他顧客的屬性值,可以構造一個決策樹來**「顧客收入」屬性的遺漏值。
最後一種方法是一種較常用的方法,與其他方法相比,它最大程度地利用了當前資料所包含的資訊來幫助**所遺漏的資料。
大資料中常見的清洗方法主要是按照資料清洗規則對資料記錄進行清洗,然後,再經過清洗演算法對資料進一步清洗,削減髒資料量,提高資料質量,為將來的分析和總結提供了有力的資料基礎與理論依據。
資料清洗經驗分享:什麼是資料清洗 如何做好
4樓:微策略中國
如何去整理分析資料,其中一個很重要的工作就是資料清洗。資料清洗是指對「髒」資料進行對應方式的處理,髒在這裡意味著資料的質量不夠好,會掩蓋資料的價值,更會對其後的資料分析帶來不同程度的影響。有調查稱,一個相關專案的進展,80%的時間都可能會花費在這個工作上面。
因為清洗必然意味著要對資料有一定的理解,而這個工作是自動化或者說計算機所解決不了的難題,只能靠人腦對資料進行重新審查和校驗,找到問題所在,並通過一些方法去對對應的資料來源進行重新整理。
清洗資料的方式大概可以分為以下幾類,篩選、清除、補充、糾正,例如:
去除不需要的欄位:簡單,直接刪除即可。但要記得備份。
填充缺失內容:以業務知識或經驗推測填充缺失值;以同一指標的計算結果(均值、中位數、眾數等)填充缺失值;以不同指標的計算結果填充缺失值。
格式不一致:時間、日期、數值、全半形等顯示格式不一致,這種問題通常與輸入端有關,在整合多**資料時也有可能遇到,將其處理成一致的某種格式即可。例如一列當中儲存的是時間戳,某些跨國公司的不同部門在時間的格式上有可能存在差別,比如2019-01-12,2019/01/12等,這時候需要將其轉換成統一格式。
內容中有不需要的字元:某些情況使得有些資料中包含不需要的字元。例如從網路爬到的資料會包含一些編碼解碼的字元如%22,這種情況下,需要以半自動校驗半人工方式來找出可能存在的問題,並去除不需要的字元。
資料提取:例如咱們只有使用者身份證的資訊,但是需要使用者生日一列,這時候我們可以直接從身份證號中按照一定規律將生日資訊提取出來。
5樓:暖神格格
1. 獲取:主要**包括——自有(關聯式資料庫同步)、自採(探針/爬蟲等手段)、外購(合法的白色資料、非法的灰色資料、違法的黑色資料);涉及的關鍵點:
資料的維度定義;探針節點的選擇及採集方式(依據具體業務而定,一般無非是部署在資料產生者隨路式或者資料產生者必經路徑上蹲點式兩種,各有優劣);外購資料來源的選擇及價值識別(可信度等)。資料**兩種,移動式(某德地圖、某度地圖這一類)和定點式(測速攝像頭、監控攝像頭),假定都是未分析的原始資料。
2. 清洗入庫:對資料來源進行清洗及其他所需的預處理入庫。本文的重點,見正文。
3. 分析、給資料打標籤以用於後續的挖掘:基於業務需求選擇所需的欄位並分析,比如哪些路段擁堵、擁堵程度如何。
4. 挖掘:這就看開腦洞的程度了,比如紅綠燈時長優化**、車輛流向優化(禁左、禁右、單行等)效果**這種相對簡單的的以及未來突發交通熱點**等等各種複雜的。
什麼是大資料,大資料時代有哪些趨勢?
大資料是英文big data直譯而來的一個詞彙,也稱巨量資料或者巨量資料。根據麥肯錫公司2011年5月釋出的 大資料 下一個創新 競爭和生產力的前沿 報告 大資料是指其大小超過典型資料庫軟體的採集 儲存 管理和分析能力的資料集。該定義有兩方面的內涵 一是符合大資料標準的資料集大小是變化的,會隨著時間...
學習如何大資料,大資料需要學習哪些內容?
大資料需要學習哪些內容?大資料 big data 指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。大資料的5v特點 ibm提出 volume 大量 velocity 高速 varie...
大資料需要掌握哪些技能,從事大資料開發需要具備哪些技能?
尚矽谷 大資料學什麼 大資料需要掌握的內容包括8個方面,你可以根據這個路線圖的順序學習,選擇培訓機構的時候重點關注機構的口碑,希望你早日學有所成。 杭州千峰 想學習大資料技術,是不是首先要知道大資料技術有哪些呢?也好知道自己未來應該往哪個方向發展,應該重點學習哪些知識?抽象而言,各種大資料技術無外乎...