source.html ```html<div class="snippet-clipboard-content notransl

Sure, I just filed <a class="issue-link js-issue-link" data-error-text="Failed to load

I was able to fix it this way: <div class="highlight highlight-source-diff notrans

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

Try it for spotify <a href="https://www.spotify.com/in-en/legal/privacy-policy/" rel="

List element inside a table is lost about trafilatura HOT 5 OPEN

mikhainin commented on June 14, 2024

List element inside a table is lost

from trafilatura.

Comments (5)

mikhainin commented on June 14, 2024 1

Sure, I just filed #534

from trafilatura.

mikhainin commented on June 14, 2024

I was able to fix it this way:

diff --git a/trafilatura/core.py b/trafilatura/core.py
index 63699a4..1970c25 100644
--- a/trafilatura/core.py
+++ b/trafilatura/core.py
@@ -397,7 +397,7 @@ def handle_table(table_elem, potential_tags, options):
                     # add child element to processed_element
                     if processed_subchild is not None:
                         subchildelem = SubElement(newchildelem, processed_subchild.tag)
-                        subchildelem.text, subchildelem.tail = processed_subchild.text, processed_subchild.tail
+                        subchildelem.text, subchildelem.tail = ''.join(processed_subchild.itertext()), processed_subchild.tail
                     child.tag = 'done'
             # add to tree
             if newchildelem.text or len(newchildelem) > 0:

But not sure if this is the correct solution

from trafilatura.