tika-dev mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From "Subramanian (JIRA)" <j...@apache.org>
Subject [jira] [Updated] (TIKA-2803) Apache Tika not properly extracting text from PDF for Indian languages
Date Tue, 01 Jan 2019 06:22:00 GMT

     [ https://issues.apache.org/jira/browse/TIKA-2803?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel
]

Subramanian updated TIKA-2803:
------------------------------
    Description: 
I tried to extract text from PDF, it is working fine for English but not for Indian languages
like Hindi, Tamil, Malayalam etc... See the sample below, all the bold text in the extracted
content is not correct. Does Tika work with non English languages?

*Original Text :*

மக்களுக்குப் புத்தாண்டு பரிசாக, எல்இடி
டிவி, சினிமா டிக்கெட், கம்ப்யூட்டர்
மானிட்டர், மாற்றுத்திறனாளிகளுக்கான
உதிரிப்பாகங்கள் உள்ளிட்ட 23 வகை பொருட்கள்,
சேவைகளின் குறைக்கப்பட்ட ஜிஎஸ்டி
வரி இன்று முதல் அமலுக்கு வந்தது.

*Extracted Text :*

*மக்களக்கப் பத்தாண்ட* பரிசாக, *எல்இடடவ*,
சனிமா *டக்ககட,் கம்ப்யட்டர்*மானிட்டர,்

*மாற்றத்தறனாளிகளக்கானஉதரிப்பாகங்கள்* உள்ளிட்ட
23
 *வகககபாரடக்ள், சசகவகளின்*

*ககறக்கப்படட் ஜஎஸ்ட* வரி *இன்றமதல்
அமலக்கவந்தத*.

  was:
I tried to extract text from PDF, it is working fine for English but not for Indian languages
like Hindi, Tamil, Malayalam etc... See the sample below, all the bold text in the extracted
content is not correct. Does Tika works with non English languages?

*Original Text :*

மக்களுக்குப் புத்தாண்டு பரிசாக, எல்இடி
டிவி, சினிமா டிக்கெட், கம்ப்யூட்டர்
மானிட்டர், மாற்றுத்திறனாளிகளுக்கான
உதிரிப்பாகங்கள் உள்ளிட்ட 23 வகை பொருட்கள்,
சேவைகளின் குறைக்கப்பட்ட ஜிஎஸ்டி
வரி இன்று முதல் அமலுக்கு வந்தது.

*Extracted Text :*

*மக்களக்கப் பத்தாண்ட* பரிசாக, *எல்இடடவ*,
சனிமா *டக்ககட,் கம்ப்யட்டர்*மானிட்டர,்

*மாற்றத்தறனாளிகளக்கானஉதரிப்பாகங்கள்* உள்ளிட்ட
23
*வகககபாரடக்ள், சசகவகளின்*

*ககறக்கப்படட் ஜஎஸ்ட* வரி *இன்றமதல்
அமலக்கவந்தத*.


> Apache Tika not properly extracting text from PDF for Indian languages
> ----------------------------------------------------------------------
>
>                 Key: TIKA-2803
>                 URL: https://issues.apache.org/jira/browse/TIKA-2803
>             Project: Tika
>          Issue Type: Bug
>          Components: parser
>            Reporter: Subramanian
>            Priority: Major
>
> I tried to extract text from PDF, it is working fine for English but not for Indian languages
like Hindi, Tamil, Malayalam etc... See the sample below, all the bold text in the extracted
content is not correct. Does Tika work with non English languages?
> *Original Text :*
> மக்களுக்குப் புத்தாண்டு பரிசாக,
எல்இடி டிவி, சினிமா டிக்கெட், கம்ப்யூட்டர்
மானிட்டர், மாற்றுத்திறனாளிகளுக்கான
உதிரிப்பாகங்கள் உள்ளிட்ட 23 வகை பொருட்கள்,
சேவைகளின் குறைக்கப்பட்ட ஜிஎஸ்டி
வரி இன்று முதல் அமலுக்கு வந்தது.
> *Extracted Text :*
> *மக்களக்கப் பத்தாண்ட* பரிசாக, *எல்இடடவ*,
சனிமா *டக்ககட,் கம்ப்யட்டர்*மானிட்டர,்
> *மாற்றத்தறனாளிகளக்கானஉதரிப்பாகங்கள்* உள்ளிட்ட
23
>  *வகககபாரடக்ள், சசகவகளின்*
> *ககறக்கப்படட் ஜஎஸ்ட* வரி *இன்றமதல்
அமலக்கவந்தத*.



--
This message was sent by Atlassian JIRA
(v7.6.3#76005)
Mime
View raw message