高級數據操作工具,將數據存儲為dataframe的數據結構。
注:將brics.csv文件放到D:/Documents下。
列的獲取
添加咧
行的獲取
元素的獲取
數據可視化
1.折線圖
2.散點圖
3.直方圖
4.軸的標簽
5.標題
6.刻度
7.加入歷史數據
Spark1.6.2.2.3
PCA
算法介紹:
主成分分析是一種統計學方法,它使用正交轉換從一系列可能相關的變量中提取線性無關變量集,提取出的變量集中的元素稱為主成分。使用PCA方法可以對變量集合進行降維。下面的示例將會展示如何將5維特征向量轉換為3維主成分向量。
scala代碼
import org.apache.spark.ml.feature.PCA import org.apache.spark.ml.linalg.Vectors val data = Array( Vectors.sparse(5, Seq((1, 1.0), (3, 7.0))), Vectors.dense(2.0, 0.0, 3.0, 4.0, 5.0), Vectors.dense(4.0, 0.0, 0.0, 6.0, 7.0) ) val df = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features") val pca = new PCA() .setInputCol("features") .setOutputCol("pcaFeatures") .setK(3) .fit(df) val pcaDF = pca.transform(df) val result = pcaDF.select("pcaFeatures") result.show()
由于是spark1.6.2。api有些不能用。
OneHotEncoder
算法介紹:
獨熱編碼將標簽指標映射為二值向量,其中最多一個單值。這種編碼被用于將種類特征使用到需要連續特征的算法,如邏輯回歸等。
scala代碼
import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer} val df = spark.createDataFrame(Seq( (0, "a"), (1, "b"), (2, "c"), (3, "a"), (4, "a"), (5, "c") )).toDF("id", "category") val indexer = new StringIndexer() .setInputCol("category") .setOutputCol("categoryIndex") .fit(df) val indexed = indexer.transform(df) val encoder = new OneHotEncoder() .setInputCol("categoryIndex") .setOutputCol("categoryVec") val encoded = encoder.transform(indexed) encoded.select("id", "categoryVec").show()
Python List
numpy array
numpy數組:元素只有一種類型,否則會轉換成字符串。
不同的類型,不同的行為
numpy的構造子集
二維numpy數組
ndarray=n維數組
新聞熱點
疑難解答