討論區快速選單
知識庫快速選單
想要資料分析就學Python 討論區最近新進100則主題 傑米的攝影旅遊筆記
[ 回上頁 ] [ 討論區發言規則 ]
如何分析網頁文字技巧
更改我的閱讀文章字型大小
作者 : logichom(Alex)
[ 貼文 37 | 人氣 0 | 評價 0 | 評價/貼文 0 | 送出評價 1 次 ] 
[ 給個讚 ]  [ 給個讚 ]  [ 回應本文 ]  [ 發表新文 ]  [ 回上頁 ] [ 回討論區列表 ] [ 回知識入口 ]
2013/10/29 上午 09:57:50
perl語言有正規表達式可以做字串的分析
但是HTML上面呢?個人初學網頁語言才2個月
想請教如何分析網頁上的文字?
以下假設是我從網站撈回來的資料
現在我要分析他然後取出我要的部份
這個部份就需要做分析
但是分析網頁的技巧小弟真的沒有頭緒啊...
撈回來的資料:
timestamp,hostaddressl,hostaddressh,xoutpkts,inoctets,outpkts,xinoctets,outoctets,xinpkts,xoutoctets,inpkts,
20120312 15:59:59,3232235709,0,1891089,1009469583,932080,1651338766,138816909,1807102,263557162,1074623,
20120312 15:59:59,3232235611,0,675810,332923855,353401,578865511,105984732,745071,204130112,436221,
20120312 15:59:59,3232235647,0,619755,13011083,310289,25706849,227835584,167860,456907888,80508,

小弟想取出每筆資料中的hostaddressl欄位
作者 : ozzy123(ozzy) 資訊類作業求救卓越專家C++卓越專家貼文超過4000則人氣指數超過30000點
[ 貼文 4466 | 人氣 37262 | 評價 10860 | 評價/貼文 2.43 | 送出評價 49 次 ] 
[ 給個讚 ]  [ 給個讚 ]  [ 回應本文 ]  [ 發表新文 ]  [ 回上頁 ] [ 回討論區列表 ] [ 回知識入口 ]
2013/10/29 上午 10:42:09
may i ask you ?
what is the file's format ? I mean its suffix is .html or .xml ?
作者 : ozzy123(ozzy) 資訊類作業求救卓越專家C++卓越專家貼文超過4000則人氣指數超過30000點
[ 貼文 4466 | 人氣 37262 | 評價 10860 | 評價/貼文 2.43 | 送出評價 49 次 ] 
[ 給個讚 ]  [ 給個讚 ]  [ 回應本文 ]  [ 發表新文 ]  [ 回上頁 ] [ 回討論區列表 ] [ 回知識入口 ]
2013/10/29 上午 10:47:28
http://htmlparser.sourceforge.net/
a html praser in java
作者 : logichom(Alex)
[ 貼文 37 | 人氣 0 | 評價 0 | 評價/貼文 0 | 送出評價 1 次 ] 
[ 給個讚 ]  [ 給個讚 ]  [ 回應本文 ]  [ 發表新文 ]  [ 回上頁 ] [ 回討論區列表 ] [ 回知識入口 ]
2013/10/29 下午 12:06:45
格式嗎?這個部份就是我最頭痛的地方
因為簡單來說這是從某個網管軟體返回的資料
利用URL參數向軟體撈資料
軟體後面有接網路設備
撈回來的資料就是呈現在那個URL參數的頁面上
他不是一個網站只是利用URL方式呈現
URL參數長這樣:
http://X.X.X.X:80/viewReportUtil?deviceip=X.X.X.X&protype=nlpro&lid=link6&startDate=2013-10-10 09:00:00&endDate=2013-10-12 15:11:00
網頁呈現的資料長這樣:
timestamp,alapp,xoutpkts,inoctets,outpkts
20120312 07:59:59,others_udp,10809,9125963,10808
20120312 07:59:59,http-browse,7768,5691759,7767
作者 : ozzy123(ozzy) 資訊類作業求救卓越專家C++卓越專家貼文超過4000則人氣指數超過30000點
[ 貼文 4466 | 人氣 37262 | 評價 10860 | 評價/貼文 2.43 | 送出評價 49 次 ] 
[ 給個讚 ]  [ 給個讚 ]  [ 回應本文 ]  [ 發表新文 ]  [ 回上頁 ] [ 回討論區列表 ] [ 回知識入口 ]
2013/10/29 下午 12:48:13
timestamp,alapp,xoutpkts,inoctets,outpkts
20120312 07:59:59,others_udp,10809,9125963,10808
20120312 07:59:59,http-browse,7768,5691759,7767

above is the contents of url ? I means once browser has been contacted the url , it display the upper data ?
作者 : logichom(Alex)
[ 貼文 37 | 人氣 0 | 評價 0 | 評價/貼文 0 | 送出評價 1 次 ] 
[ 給個讚 ]  [ 給個讚 ]  [ 回應本文 ]  [ 發表新文 ]  [ 回上頁 ] [ 回討論區列表 ] [ 回知識入口 ]
2013/10/29 下午 02:39:21
就是上面這些資料
請不要把它當作網頁來看待
設備吐出來的資料就是這樣
經由軟體再把這些資料傳回來
因為透過下URL參數的方式才能跟軟體要資料
要到的資料以網頁方式呈現但是他不是一個網站!
不知道有沒有解決你的疑問?
作者 : ozzy123(ozzy) 資訊類作業求救卓越專家C++卓越專家貼文超過4000則人氣指數超過30000點
[ 貼文 4466 | 人氣 37262 | 評價 10860 | 評價/貼文 2.43 | 送出評價 49 次 ] 
[ 給個讚 ]  [ 給個讚 ]  [ 回應本文 ]  [ 發表新文 ]  [ 回上頁 ] [ 回討論區列表 ] [ 回知識入口 ]
2013/10/29 下午 03:09:13

>要到的資料以網頁方式呈現但是他不是一個網站!
---- so upper data was display in a .html format ? if so , you may handle the file.

作者 : ozzy123(ozzy) 資訊類作業求救卓越專家C++卓越專家貼文超過4000則人氣指數超過30000點
[ 貼文 4466 | 人氣 37262 | 評價 10860 | 評價/貼文 2.43 | 送出評價 49 次 ] 
[ 給個讚 ]  [ 給個讚 ]  [ 回應本文 ]  [ 發表新文 ]  [ 回上頁 ] [ 回討論區列表 ] [ 回知識入口 ]
2013/10/29 下午 03:20:31
if you can get the file , it can be handled .
作者 : logichom(Alex)
[ 貼文 37 | 人氣 0 | 評價 0 | 評價/貼文 0 | 送出評價 1 次 ] 
[ 給個讚 ]  [ 給個讚 ]  [ 回應本文 ]  [ 發表新文 ]  [ 回上頁 ] [ 回討論區列表 ] [ 回知識入口 ]
2013/10/29 下午 03:38:19
個人在撈資料是用PHP的curl來撈

$curl = curl_init($url);
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, TRUE);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 10);
curl_setopt($curl, CURLOPT_HEADER, false);
$content = curl_exec($curl);

其中$url=http://X.X.X.X:80/viewReportUtil?deviceip=X.X.X.X&lid=link2&startDate=2013-10-10 01:00:00&endDate=2013-10-14 17:11:00
所以$conten=網頁的資料
所以要再怎麼利用分析的技巧來取的我要的資料?
不過這好像就是用PHP的方式來做了
發錯版了?
作者 : ozzy123(ozzy) 資訊類作業求救卓越專家C++卓越專家貼文超過4000則人氣指數超過30000點
[ 貼文 4466 | 人氣 37262 | 評價 10860 | 評價/貼文 2.43 | 送出評價 49 次 ] 
[ 給個讚 ]  [ 給個讚 ]  [ 回應本文 ]  [ 發表新文 ]  [ 回上頁 ] [ 回討論區列表 ] [ 回知識入口 ]
2013/10/29 下午 06:32:13
>$content = curl_exec($curl);

--- Now ,you have been got contents of the page ( it was put in the variable $content )
again , you start writing them into a html file . the way likes this :

    $file = fopen("data.html", 'w'); // create & open a file.
    fwrite($file, $data); // write the data into the file
    fclose($file); // close file

you have been generated a html file , and handle it via some parser , such as http://simplehtmldom.sourceforge.net/ .
or others .

 板主 : Clark
 > HTML/DHTML - 討論區
 - 最近熱門問答精華集
 - 全部歷史問答精華集
 - HTML/DHTML - 知識庫
  ■ 全站最新Post列表
  ■ 我的文章收藏
  ■ 我最愛的作者
  ■ 全站文章收藏排行榜
  ■ 全站最愛作者排行榜
  ■  月熱門主題
  ■  季熱門主題
  ■  熱門主題Top 20
  ■  本區Post排行榜
  ■  本區評價排行榜
  ■  全站專家名人榜
  ■  全站Post排行榜
  ■  全站評價排行榜
  ■  全站人氣排行榜
 請輸入關鍵字 
  開始搜尋
 
Top 10
評價排行
HTML/DHTML
1 BK. 220 
2 小P 210 
3 玩家 170 
4 foolface 130 
5 羅蘋 130 
6 阿戊 120 
7 nick 100 
8 EllyChen 80 
9 picard 70 
10 rt-55 70 
HTML/DHTML
  專家等級 評價  
  一代宗師 10000  
  曠世奇才 5000  
  頂尖高手 3000  
  卓越專家 1500  
  優秀好手 750  
Microsoft Internet Explorer 6.0. Screen 1024x768 pixel. High Color (16 bit).
2000-2018 程式設計俱樂部 http://www.programmer-club.com.tw/
0.046875