develog

[java] html tag 제거 본문

Dev/Java

[java] html tag 제거

냐옴 2013. 5. 26. 22:14

code

// remove style block
str = str.replaceAll("<style[^>]*>[^<]*</style>","");

// remove script block
str = str.replaceAll("<script[^>]*>[^<]*</script>","");

// remove html tag
str = str.replaceAll("<[^>]*>","");

// remove html entity
str = str.replaceAll("&[^;]+;","");

before

<a href="javascript:void(0);" onclick="skip_navigation('content');">
    <span>본문 영역으로 바로가기</span>
</a>

after

본문 영역으로 바로가기

'Dev > Java' 카테고리의 다른 글

[Java] log4j, add appender in source code  (0) 2013.05.29
정규표현식 #1  (0) 2013.05.26
Collection List<Map> sort  (0) 2013.05.16
Web scraper open source  (0) 2013.05.16
Collection List<Map> sort  (0) 2013.05.16
Comments