全球专业中文经管百科,由121,994位网友共同编写而成,共计436,015个条目

文本數據

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

文本數據(Textual Data)

目錄

什麼是文本數據[1]

  文本數據是指不能參與算術運算的任何字元,也稱為字元型數據。如英文字母、漢字、不作為數值使用的數字(以單引號開頭)和其他可輸入的字元。

文本數據的特點[2]

  文本數據不同於傳統資料庫中的數據,它具有自己的特點。

  1、半結構化

  文本數據既不是完全無結構的也不是完全結構化的。例如文本可能包含結構欄位,如標題、作者、出版日期、長度、分類等,也可能包含大量的非結構化的數據,如摘要和內容。

  2、高維

  文本向量的維數一般都可以高達上萬維,一般的數據挖掘、數據檢索的方法由於計算量過大或代價高昂而不具有可行性。

  3、高數據量

  一般的文本庫中都會存在最少數千個文本樣本,對這些文本進行預處理、編碼、挖掘等處理的工作量是非常龐大的,因而手工方法一般是不可行的。

  4、語義性

  文本數據中存在著一詞多義、多詞一義,在時間和空間上的上下文相關等情況。

文本數據的類型[3]

  1、Char(字元)

  Char類型的數據用來表示單個符號,它以0~65535之間的數的形式存儲。為瞭解決世界上各種語言文字的電腦存儲問題而不單單是存儲英文字母,人們採用一些標準的方式給這些字元提供標準值,其中常用的就是國際標準碼Unicode。Unicode剋服了不同編碼系統存在的問題,它與語言、平臺以及程式無關。

  當給Char型的變數賦值時應按下麵的格式進行。在雙引號的後面要用C來表示這是一個Char數據,而不是String數據。例如:

  Dim Mychar as Char

  Mychar=“B”C  實際存儲的是“B”字元的ASCII碼66

  2、String(字元串)

  String類型用於表示字元串數據,它存儲的是一個字元序列。在程式代碼中,使用一對用英文雙引號括起來的一串字元或漢字來表示一個字元串。1個字元占1個位元組,1個漢字占2個位元組。字元串的最大長度可達20億個。例如,下列都是合法的字元串。

  “How do you do!”

  “百尺竿頭,更進一步”

參考文獻

  1. 左喜林,曹霞,何欣,許寧編著.第5章 電子錶格處理軟體Excel 2003應用 電腦應用基礎與上機指導.清華出版社,2010.06.
  2. 張興會等編著.第11章 複雜結構數據挖掘 數據倉庫與數據挖掘技術.清華大學出版社,2011.06.
  3. 張增良編著.ASP.NET 2.0程式設計精編教程.西安交通大學出版社,2008.8.
本條目對我有幫助5
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

方小莉.

評論(共0條)

提示:評論內容為網友針對條目"文本數據"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

下载APP

闽公网安备 35020302032707号