Initial commit

2023-03-29 20:17:29 +02:00 · 2023-03-29 20:17:29 +02:00 · 8cb7237439
commit 8cb7237439
8 changed files with 551762 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1 @@
+/target
--- a/Cargo.lock
+++ b/Cargo.lock
--- a/Cargo.toml
+++ b/Cargo.toml
@ -0,0 +1,17 @@
+[package]
+name = "mlet"
+version = "0.1.0"
+edition = "2021"
+
+# See more keys and their definitions at https://doc.rust-lang.org/cargo/reference/manifest.html
+
+[dependencies]
+once_cell = "1.17.1"
+percent-encoding = "2.2.0"
+rand = "0.8.5"
+reqwest = { version = "0.11.16", features = ["blocking", "brotli", "deflate", "gzip"] }
+tide = { version = "0.16.0", default-features = false, features = ["h1-server", "logger"] }
+tokio = { version = "1.27.0", features = ["full"] }
+#roxmltree = { version = "0.18.0", default-features = false, features = ["std"] }
+#rxml = "0.9.1"
+#rxml = { path = "/home/tuxmain/Téléchargements/rxml/rxml" }
--- a/README.md
+++ b/README.md
@ -0,0 +1,4 @@
+https://dumps.wikimedia.org/frwiktionary/latest/
+
+problème:
+* rxml ne supporte pas les erreurs UTF-8
--- a/lefff-3.4.mlex
+++ b/lefff-3.4.mlex
--- a/rustfmt.toml
+++ b/rustfmt.toml
@ -0,0 +1,8 @@
+hard_tabs = true
+newline_style = "unix"
+
+unstable_features = true
+format_code_in_doc_comments = true
+format_macro_bodies = true
+format_macro_matchers = true
+format_strings = true
--- a/src/main.bak.rs
+++ b/src/main.bak.rs
@ -0,0 +1,96 @@
+use rxml::{EventRead, parser::ResolvedEvent, PullParser};
+
+fn next_event<T: std::io::BufRead>(parser: &mut PullParser<T>, nb_errors: &mut usize) -> Option<ResolvedEvent> {
+	loop {
+		match parser.read() {
+			Ok(event) =>
+			return event,
+			Err(e) => println!("error {nb_errors}: {e:?}"),
+		}
+		*nb_errors += 1;
+	}
+}
+
+fn main() {
+	let file = std::fs::File::open("frwiktionary-latest-pages-articles.xml").unwrap();
+	//let file = std::fs::File::open("/tmp/test.xml").unwrap();
+	let mut file_reader = std::io::BufReader::new(file);
+	
+	let mut parser = PullParser::new(&mut file_reader);
+	
+	/*parser.read_all(|d| {
+		dbg!(d);
+	}).unwrap();
+	return;*/
+	
+	let mut i = 0usize;
+	let mut nb_errors = 0usize;
+	while let Some(event) = next_event(&mut parser, &mut nb_errors) {
+		match event {
+			ResolvedEvent::StartElement(_, (_, name), _) => {
+				if name == "page" {
+					parse_page(&mut parser, &mut nb_errors);
+				}
+			},
+			_ => {}
+		}
+		i += 1;
+		if i > 1000 {
+			println!("limit");
+			break
+		}
+	}
+	println!("nb: {i}");
+	println!("Errors: {nb_errors}");
+}
+
+enum ParsePageCtx {
+	Nothing,
+	Title,
+	Ns,
+	Text,
+}
+
+fn parse_page<T: std::io::BufRead>(parser: &mut PullParser<T>, nb_errors: &mut usize) {
+	let mut title = None;
+	let mut text = None;
+	let mut ctx = ParsePageCtx::Nothing;
+	let mut level = 1usize;
+	while let Some(event) = next_event(parser, nb_errors) {
+		match event {
+			ResolvedEvent::StartElement(_, (_, name), _) => {
+				level += 1;
+				match name.as_str() {
+					"title" => ctx = ParsePageCtx::Title,
+					"ns" => ctx = ParsePageCtx::Ns,
+					"text" => ctx = ParsePageCtx::Text,
+					_ => {}
+				}
+			},
+			ResolvedEvent::Text(_, data) => {
+				match ctx {
+					ParsePageCtx::Title => title = Some(data.as_str().to_string()),
+					ParsePageCtx::Ns => if data.as_str() != "4" {
+						//dbg!(data.as_str());
+						return
+					},
+					ParsePageCtx::Text => text = Some(data.as_str().to_string()),
+					ParsePageCtx::Nothing => {}
+				}
+				ctx = ParsePageCtx::Nothing;
+			},
+			ResolvedEvent::EndElement(_) => {
+				level -= 1;
+				ctx = ParsePageCtx::Nothing;
+			}
+			_ => {}
+		}
+		if level == 0 {
+			break
+		}
+	}
+	let (Some(title), Some(text)) = (title, text) else {
+		return
+	};
+	println!("{title}:\n{text}\n\n");
+}
--- a/src/main.rs
+++ b/src/main.rs
@ -0,0 +1,128 @@
+use std::io::BufRead;
+use rand::seq::SliceRandom;
+use once_cell::sync::Lazy;
+
+static FONTS: &'static [&'static str] = &[
+	"Albura-Regular.ttf",
+	"AmaticSC-Bold.ttf",
+	"Exo-Regular.otf",
+	"EBGaramond08-Regular.otf",
+	"Gidole-Regular.ttf",
+	"LondrinaBook-Regular.otf",
+	"PlayenSans-Regular.otf",
+	"Playfulist.otf",
+	"ProzaLibre-Regular.ttf",
+];
+
+static WORDS: Lazy<Vec<String>> = Lazy::new(|| {
+	let file = std::fs::File::open("lefff-3.4.mlex").unwrap();
+	let file_buf = std::io::BufReader::new(file);
+	
+	let mut words = Vec::new();
+	for line in file_buf.lines() {
+		let line = line.unwrap();
+		if line.as_bytes().get(0) != Some(&b't') {
+			continue
+		}
+		let mut cols = line.split('\t');
+		let Some(word) = cols.next() else {
+			continue
+		};
+		let class = cols.next();
+		match class {
+			Some("nc") => {}
+			Some("adj") => {
+				let Some(flex) = cols.nth(1) else {
+					continue
+				};
+				if flex.contains('p') || flex.contains('m') {
+					continue
+				}
+			}
+			_ => continue
+		}
+		let mut capitalized = String::from("T");
+		capitalized.push_str(&word[1..]);
+		words.push(capitalized);
+	}
+	//eprintln!("Words: {}", words.len());
+	words
+});
+
+#[tokio::main]
+async fn main() {
+	Lazy::force(&WORDS);
+	
+	tide::log::start();
+	let mut app = tide::new();
+	
+	app.at("/").get(
+		move |req: tide::Request<()>| {
+			handle_request(
+				req
+			)
+		}
+	);
+	
+	app.listen(std::net::SocketAddr::new(std::net::IpAddr::V4(std::net::Ipv4Addr::new(127, 0, 0, 1)), 8137)).await.unwrap();
+}
+
+async fn handle_request<'a>(_req: tide::Request<()>) -> tide::Result<tide::Response> {
+	let mut rng = rand::thread_rng();
+	let word = WORDS.choose(&mut rng).unwrap();
+	
+	let client = reqwest::blocking::Client::builder()
+    .user_agent("Mozilla/5.0 (X11; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/111.0")
+    .build().unwrap();
+	
+	let resp = client.get(format!("https://www.bing.com/images/search?q={word}&FORM=HDRSC3")).send().unwrap();
+	assert!(resp.status().is_success());
+	let page = resp.text().unwrap();
+	
+	let pattern = r#"mediaurl="#;
+	let url_start = page.find(pattern).unwrap() + pattern.len();
+	let url_len = page[url_start..].find('&').unwrap();
+	if url_len > 1024 {
+		panic!("url too long ({url_len})");
+	}
+	let img_url_encoded = &page[url_start..url_start+url_len];
+	let img_url = percent_encoding::percent_decode_str(img_url_encoded).decode_utf8().unwrap();
+	if img_url.contains('"') {
+		panic!("url contains quotes");
+	}
+	let font = *FONTS.choose(&mut rng).unwrap();
+	
+	Ok(tide::Response::builder(200)
+		.header("Access-Control-Allow-Origin", "*")
+		.header("Access-Control-Allow-Headers", "*")
+		.content_type(tide::http::mime::HTML)
+		.body(format!(r#"<!doctype html>
+<html lang="fr">
+	<head>
+		<meta charset="utf-8"/>
+		<title>MLeTomatic</title>
+		<style type="text/css">
+@font-face {{
+	font-family: CustomFont;
+	src: url("//txmn.tk/fonts/{font}");
+}}
+body {{
+	text-align: center;
+}}
+h1 {{
+	font-family: CustomFont;
+	font-weight: normal;
+}}
+#img {{
+	max-width: 100%;
+	max-height: 100vh;
+}}
+</style>
+	</head>
+	<body>
+		<h1>Monnaie Libre et {word}</h1>
+		<img id="img" alt="{word}" src="{img_url}"/>
+	</body>
+</html>"#))
+		.build())
+}