1樓:
在網頁剛流行起來的時候,提取html中的文字有一個簡單的方法,就是將html文字(包含標記)中的所有以“<”符號開頭到以“>”符號之間的內容去掉即可。
但對於現在複雜的網頁而言,用這種方法提取出來的文字會有大量的空格、空行、script段落、還有一些html轉義字元,效果很差。
下面用正規表示式來提取html中的文字,
**的實現的思路是:
a、先將html文字中的所有空格、換行符去掉(因為html中的空格和換行是被忽略的)
b、將)", string.empty, regexoptions.ignorecase);
result = regex.replace(result, @"<( )*script([^>])*>", ")", string.empty, regexoptions.
ignorecase);
//remove all styles
result = regex.replace(result, @"<( )*style([^>])*>", ")", string.empty, regexoptions.
ignorecase);
//insert tabs in spaces of tags
result = regex.replace(result, @"<( )*td([^>])*>", " ", regexoptions.ignorecase);
//insert line breaks in places of
and tags
result = regex.replace(result, @"<( )*br( )*>", "\r", regexoptions.ignorecase);
result = regex.replace(result, @"<( )*li( )*>", "\r", regexoptions.ignorecase);
//insert line paragraphs in places of and tags
result = regex.replace(result, @"<( )*tr([^>])*>", "\r\r", regexoptions.ignorecase);
result = regex.replace(result, @"<( )*p([^>])*>", "\r\r", regexoptions.ignorecase);
//remove anything thats enclosed inside < >
result = regex.replace(result, @"<[^>]*>", string.empty, regexoptions.ignorecase);
//replace special characters:
result = regex.replace(result, @"&", "&", regexoptions.ignorecase);
result = regex.replace(result, @" ", " ", regexoptions.ignorecase);
result = regex.replace(result, @"<", "<", regexoptions.ignorecase);
result = regex.replace(result, @">", ">", regexoptions.ignorecase);
result = regex.replace(result, @"&(.);", string.empty, regexoptions.ignorecase);
//remove extra line breaks and tabs
result = regex.replace(result, @" ( )+", " ");
result = regex.replace(result, "(\r)( )+(\r)", "\r\r");
result = regex.replace(result, @"(\r\r)+", "\r\n");
return result;
}}//end class
}//end namespace
2樓:匿名使用者
迴圈替換所有html標記,如果是程式設計就簡單一些,如果是手動的話就是機械操作
3樓:
一種方法
$str=preg_replace('~<.*?>~','',$str);
但這種可能會誤刪除 文字本來的<>
還有一種方法 用 php 自帶的函式
$str=strip_tags($str);
這個是自帶的函式 會有什麼意想不到的事情 就不清楚了
4樓:匿名使用者
直接拼到頁面上就行了
5樓:
可以註釋
//代表註釋一行 或是 /* */代表註釋一段
html 顯示純文字,標籤也顯示出來 15
6樓:郭某人來此
不知道這個用的著不!
在網頁剛流行起來的時候,提取html中的文字有一個簡單的方法,就是將html文字(包含標記)中的所有以“<”符號開頭到以“>”符號之間的內容去掉即可。
但對於現在複雜的網頁而言,用這種方法提取出來的文字會有大量的空格、空行、script段落、還有一些html轉義字元,效果很差。
下面用正規表示式來提取html中的文字,
**的實現的思路是:
a、先將html文字中的所有空格、換行符去掉(因為html中的空格和換行是被忽略的)
b、將)", string.empty, regexoptions.ignorecase);
result = regex.replace(result, @"<( )*script([^>])*>", ")", string.empty, regexoptions.
ignorecase);
//remove all styles
result = regex.replace(result, @"<( )*style([^>])*>", ")", string.empty, regexoptions.
ignorecase);
//insert tabs in spaces of tags
result = regex.replace(result, @"<( )*td([^>])*>", " ", regexoptions.ignorecase);
//insert line breaks in places of
and tags
result = regex.replace(result, @"<( )*br( )*>", "\r", regexoptions.ignorecase);
result = regex.replace(result, @"<( )*li( )*>", "\r", regexoptions.ignorecase);
//insert line paragraphs in places of and tags
result = regex.replace(result, @"<( )*tr([^>])*>", "\r\r", regexoptions.ignorecase);
result = regex.replace(result, @"<( )*p([^>])*>", "\r\r", regexoptions.ignorecase);
//remove anything thats enclosed inside < >
result = regex.replace(result, @"<[^>]*>", string.empty, regexoptions.ignorecase);
//replace special characters:
result = regex.replace(result, @"&", "&", regexoptions.ignorecase);
result = regex.replace(result, @" ", " ", regexoptions.ignorecase);
result = regex.replace(result, @"<", "<", regexoptions.ignorecase);
result = regex.replace(result, @">", ">", regexoptions.ignorecase);
result = regex.replace(result, @"&(.);", string.empty, regexoptions.ignorecase);
//remove extra line breaks and tabs
result = regex.replace(result, @" ( )+", " ");
result = regex.replace(result, "(\r)( )+(\r)", "\r\r");
result = regex.replace(result, @"(\r\r)+", "\r\n");
return result;
}}//end class
}//end namespace
7樓:匿名使用者
因為html解析是< 和 >這兩個尖括號,所以不管你用什麼方法帶尖括號的都是顯示不出來的,但是隻要html頁面載入時找不到<,>符號就可以用,但是實現不了你的需求。
舉例:不可識別,div是可以識別的,呵呵:)
希望幫到你:)
html中如何設定文字框的大小,HTML中如何設定文字框的大小
你說的文字框的大小是指邊框的大小嗎?如果是指邊框的大小,可以使用css樣式控制,如 你也可以使用文字框自己的屬性,定義文字框的行和列控制大小,如 一騎當後 輸入框的大小不知是指顯示長度或最多能輸入的字元數?如文字框可以這樣控制 其中,size 12 是設定文字框的顯示長度為12個字元,而maxlen...
如何去除中的背景文字,如何去除WORD中的背景文字?
由於工作或學習的需要,我們需要從網頁複製一些內容到word後進行編輯,但一些網頁設定了灰色背景,我們複製的時候連灰色背景也一起復制過來,雖然從螢幕上看起來不明顯,但列印出來就很明顯了,從 格式 背景 進行操作是無法清除的,如圖 解決辦法其實也很簡,方法如下 1 先選擇有灰色背景的文字。2 從工具欄的...
如何設定文字在網頁中的位置,html如何調整文字位置
海南特產大全 因為.a1與.a2並沒有包含 學生列表 和 編輯視窗 這兩個元素,所以你設定的margin left 400 的位移也就不包括 學生列表 和 編輯視窗 你可以使用段落標籤來實現整體位移 學生列表 張三 李四 然後對p進行css樣式設定 時間有限,就幫你改到這,經過測試,是可以得到你想要...