【問題描述】
近日需要做一些數據倉庫的內容,發現數據庫搭好了以后,所有的數據文件都是Excel存儲的。然而數據又是及其繁雜,所以在創建好了事實表和維度表以后,準備自己寫一個代碼將Excel中多維的數據導入到數據庫中。Excel表的部分數據如下圖所示
所以需要對數據進行處理,處理之后添加到數據庫中。
【準備工作】
首先需要找到從Excel讀取數據的代碼。參考網址:http://www.jb51.net/article/34096.htm。代碼如下:
(1)頁面上的代碼
<div> <%-- 文件上傳控件 用于將要讀取的文件上傳 并通過此控件獲取文件的信息--%> <asp:FileUpload ID="fileSelect" runat="server" /> <%-- 點擊此按鈕執行讀取方法--%> <asp:Button ID="btnRead" runat="server" Text="ReadStart" /></div> (2)后臺處理代碼//聲明變量(屬性) string currFilePath = string.Empty; //待讀取文件的全路徑 string currFileExtension = string.Empty; //文件的擴展名 //Page_Load事件 注冊按鈕單擊事件 PRotected void Page_Load(object sender,EventArgs e) { } //按鈕單擊事件 //里面的3個方法將在下面給出 protected void btnRead_Click(object sender,EventArgs e) { Upload(); //上傳文件方法 if(this.currFileExtension ==".xlsx" || this.currFileExtension ==".xls") { DataTable dt = ReadExcelToTable(currFilePath); //讀取Excel文件(.xls和.xlsx格式) } else if(this.currFileExtension == ".csv") { DataTable dt = ReadExcelWidthStream(currFilePath); //讀取.csv格式文件 } }///<summary>///上傳文件到臨時目錄中 ///</ummary>private void Upload(){HttpPostedFile file = this.fileSelect.PostedFile;string fileName = file.FileName;string tempPath = System.IO.Path.GetTempPath(); //獲取系統臨時文件路徑fileName = System.IO.Path.GetFileName(fileName); //獲取文件名(不帶路徑)this.currFileExtension = System.IO.Path.GetExtension(fileName); //獲取文件的擴展名this.currFilePath = tempPath + fileName; //獲取上傳后的文件路徑 記錄到前面聲明的全局變量file.SaveAs(this.currFilePath); //上傳}///<summary>///讀取xls/xlsx格式的Excel文件的方法 ///</ummary>///<param name="path">待讀取Excel的全路徑</param>///<returns></returns>private DataTable ReadExcelToTable(string path){//連接字符串string connstring = "Provider=Microsoft.ACE.OLEDB.12.0;Data Source=" + path + ";Extended Properties='Excel 8.0;HDR=NO;IMEX=1';"; // Office 07及以上版本 不能出現多余的空格 而且分號注意//string connstring = Provider=Microsoft.JET.OLEDB.4.0;Data Source=" + path + ";Extended Properties='Excel 8.0;HDR=NO;IMEX=1';"; //Office 07以下版本 因為本人用Office2010 所以沒有用到這個連接字符串 可根據自己的情況選擇 或者程序判斷要用哪一個連接字符串using(OleDbConnection conn = new OleDbConnection(connstring)){conn.Open();DataTable sheetsName = conn.GetOleDbSchemaTable(OleDbSchemaGuid.Tables,new object[]{null,null,null,"Table"}); //得到所有sheet的名字string firstSheetName = sheetsName.Rows[0][2].ToString(); //得到第一個sheet的名字string sql = string.Format("SELECT * FROM [{0}],firstSheetName); //查詢字符串OleDbDataAdapter ada =new OleDbDataAdapter(sql,connstring);DataSet set = new DataSet();ada.Fill(set);return set.Tables[0];}}///<summary>///讀取csv格式的Excel文件的方法 ///</ummary>///<param name="path">待讀取Excel的全路徑</param>///<returns></returns>private DataTable ReadExcelWithStream(string path){DataTable dt = new DataTable();bool isDtHasColumn = false; //標記DataTable 是否已經生成了列StreamReader reader = new StreamReader(path,System.Text.Encoding.Default); //數據流while(!reader.EndOfStream){string meaage = reader.ReadLine();string[] splitResult = message.Split(new char[]{','},StringSplitOption.None); //讀取一行 以逗號分隔 存入數組DataRow row = dt.NewRow();for(int i = 0;i<splitResult.Length;i++){if(!isDtHasColumn) //如果還沒有生成列{dt.Columns.Add("column" + i,typeof(string));}row[i] = splitResult[i];}dt.Rows.Add(row); //添加行isDtHasColumn = true; //讀取第一行后 就標記已經存在列 再讀取以后的行時,就不再生成列}return dt;}【后續工作】將Excel表存入到DataTable對象中,可以將讀取到的表格數據轉存到數據庫的事實表中。將所需要的時間、地域以及品種的ID值讀取以后,開始與Excel表中的數據一起存放到數據庫中。部分代碼如下所示
int i, j; int region = 0; //獲取作物ID值 cropnumber = int.Parse(CropID.Text.ToString()); //獲得更新數據庫類型 if (mianji.Checked == true) //遇到播種面積時新增數據庫條目 { for(i=2;i<40;i++) //省份 { if (i == 3 || i == 9 || i == 13 || i == 21 || i == 28 || i == 34) //跳過空白區域 continue; //讀取地域ID值 string proname = exceldt.Rows[i][0].ToString().Replace(" ", ""); string sqlstr = "select Region_ID from [DimRegion] where Province_Name='" + proname + "'"; DataTable dt = new DataTable(); dt = BaseClass1.ReadTable(sqlstr); region = int.Parse(dt.Rows[0][0].ToString()); for(j=1;j<60;j++) //時間 { float area = float.Parse(exceldt.Rows[i][j].ToString()); string str = "insert into[FactCropProducts](Time_ID,Region_ID,Croptype_ID,Area) values(" + j + "," + region + "," + cropnumber + "," + area + ")"; BaseClass1.execsql(str); } } }【后記】這樣寫一個程序讀取Excel中的數據,大大節省了時間。但是還有幾個未解決的問題:
(1)如果Excel表第一個sheet的名字為中文名,第二個sheet為Sheet1。則使用上面的代碼雖然是讀取第一個sheet的名稱,但是實際卻讀到的是Sheet1的內容。
(2)如果數據量巨大,需要的品種又多,這個代碼就會有很大缺陷。就要一個一個輸入品種ID,然后一個一個Excel表進行導入。浪費了人力也浪費了時間,所以這個代碼的改進點還是不少的。
新聞熱點
疑難解答
圖片精選