Синтаксический анализатор HTML jsoup пример, показывающий, как анализировать и получать все HTML-гиперссылки с веб-страницы:
org.jsoup jsoup 1.12.1
package com.mkyong; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; import java.util.HashSet; import java.util.Set; public class JsoupFindLinkSample { public static void main(String[] args) throws IOException { for (String link : findLinks("https://google.com")) { System.out.println(link); } } private static SetfindLinks(String url) throws IOException { Set links = new HashSet<>(); Document doc = Jsoup.connect(url) .data("query", "Java") .userAgent("Mozilla") .cookie("auth", "token") .timeout(3000) .get(); Elements elements = doc.select("a[href]"); for (Element element : elements) { links.add(element.attr("href")); } return links; } }
Выход
https://play.google.com/?hl=en&tab=w8 https://www.google.com/calendar?tab=wc /intl/en/about.html https://photos.google.com/?tab=wq&pageId=none https://drive.google.com/?tab=wo //...
Рекомендации
- синтаксический анализатор HTML jsoup примеры hello world
- спуп: Синтаксический анализатор Java HTML
Оригинал: “https://mkyong.com/java/java-how-to-get-all-links-from-a-web-page/”