文本數據
出自 MBA智库百科(https://wiki.mbalib.com/)
文本數據(Textual Data)
目錄 |
什麼是文本數據[1]
文本數據是指不能參與算術運算的任何字元,也稱為字元型數據。如英文字母、漢字、不作為數值使用的數字(以單引號開頭)和其他可輸入的字元。
文本數據的特點[2]
文本數據不同於傳統資料庫中的數據,它具有自己的特點。
1、半結構化
文本數據既不是完全無結構的也不是完全結構化的。例如文本可能包含結構欄位,如標題、作者、出版日期、長度、分類等,也可能包含大量的非結構化的數據,如摘要和內容。
2、高維
文本向量的維數一般都可以高達上萬維,一般的數據挖掘、數據檢索的方法由於計算量過大或代價高昂而不具有可行性。
3、高數據量
一般的文本庫中都會存在最少數千個文本樣本,對這些文本進行預處理、編碼、挖掘等處理的工作量是非常龐大的,因而手工方法一般是不可行的。
4、語義性
文本數據中存在著一詞多義、多詞一義,在時間和空間上的上下文相關等情況。
文本數據的類型[3]
1、Char(字元)
Char類型的數據用來表示單個符號,它以0~65535之間的數的形式存儲。為瞭解決世界上各種語言文字的電腦存儲問題而不單單是存儲英文字母,人們採用一些標準的方式給這些字元提供標準值,其中常用的就是國際標準碼Unicode。Unicode剋服了不同編碼系統存在的問題,它與語言、平臺以及程式無關。
當給Char型的變數賦值時應按下麵的格式進行。在雙引號的後面要用C來表示這是一個Char數據,而不是String數據。例如:
Dim Mychar as Char
Mychar=“B”C 實際存儲的是“B”字元的ASCII碼66
2、String(字元串)
String類型用於表示字元串數據,它存儲的是一個字元序列。在程式代碼中,使用一對用英文雙引號括起來的一串字元或漢字來表示一個字元串。1個字元占1個位元組,1個漢字占2個位元組。字元串的最大長度可達20億個。例如,下列都是合法的字元串。
“How do you do!”
“百尺竿頭,更進一步”