求pdf文字提取出來的方式,求PDF文字提取出來的方式

時間 2022-02-01 18:56:33

1樓:匿名使用者

批量處理是有辦法的

一、「選擇文字工具,選好了貼到word裡」

如果你的pdf檔案是用文字製做而不是**製做的,可以「在adobe acrobat 7.0中有選擇文字的工具,可以選好了貼到word裡」。但是根據你介紹的情況,你的pdf檔案是用**做的,所以不能用這種方法。

二、批量截圖

截圖的辦法對於不是很清楚的**來說,並不可取,因為它要麼會損失資訊,要麼會如樓主所說加大工作量。

我建議你先用adobe acrobat中的匯出功能,將這個檔案匯出為影象。做法:在上面選單上選檔案》匯出》提取影象為》jpeg檔案(其他二種也行,jpeg檔案比較小),再按提示,選擇一個適當的資料夾,儲存影象 。

這種方法儲存下來的一張張**,比你一頁頁截圖省力多了,而且保留了原檔案的全部資訊。不過500頁可不一個小數,會很慢,但至少不用你親自動手干預了。

三、批量識別

如果你想進行編輯,就必須進行ocr識別。關鍵在於你如何能夠批量進行這個工作。

好一點的ocr軟體都可以一次匯入多幅**進行識別,然後輸出。不過,好像500頁的確有點多了,我從來也沒有超過50頁的記錄,通常也就是

二、三十頁。就算50頁,也比一頁一頁強,是吧?

我用過不少ocr軟體,覺得漢王文字王、清華紫光th比較好用。它們的識別率都非常高,還可以識別**、繁體字、英文、豎排文字等;輸出方式也很靈活,可以只輸出文字,也可以按原稿排版格式輸出word檔案;使用起來也都不復雜。 不知你用的是什麼版本的漢王,識別率會那麼低。

我有的時候識別質量很次的報紙上的文章,它的識別率也還是可以接受的。

四、提高識別率

如果你的底圖質量非常差的話,建議你先在**處理軟體中將匯出的**進行放大、去點、銳化等處理,然後再送到ocr中識別。

我估計,你可能還是送入ocr的**損失了部分原文的資訊,造成識別率下降。因為你既然能放大,放大後截圖的識別率還可以,那就說明原圖的資訊足夠ocr識別了。只是你在操作過程中損失了部分東西。

所以,我建議你:

1)先將你的pdf檔案匯出5-10頁**出來

2)用漢王等ocr軟體進行批量識別(識別中注意將不規則的部分框除)

3)輸出成word文件

如果它們能很順利地被識別出來,那後面的事就不用我說了。如果不行,那就真的是你的底圖的問題了,這就需要對匯出的**進行批量修正處理。

2樓:匿名使用者

adobe acrobat軟體直接轉換成word文件。就文字而言轉換後的正確率還是蠻高的,對於文字和**混版的,排版方面就需要自己調整。謝謝。

清朝中期提取的黃金純度是多少,古人提取出來的黃金純度是多少?

大路五點一刻 清朝41.4 那時 金子論斤賞賜,買賣用金子交易,甚至交罰款用的都是 雖然古籍中的 金 並不一定指 因受戰亂等因素影響,產量一度進入低谷。晚清之際,東北及內外蒙古金礦產量比重大增,1888 1890年,晚清時期年平均產量達13.5噸左右 但至 1901年逐年下滑至4.51噸,僅及前期峰...

北京住房公積金怎麼可以提取出來?離職的呢?

根據 住房公積金管理條例 第24條的規定,職工有下列情形之一的,可以提取職工住房公積金賬戶內的儲存餘額 1.購買 建造 翻建 大修自住住房的 2.離休 退休的 3.完全喪失勞動能力,並與單位終止勞動關係的 4.出境定居的 5.償還購房貸款本息的 6.房租超出家庭工資收入的規定比例的。總結 該條例第2...

怎麼把CAD中塊的屬性提取出來,cad裡面怎麼把一個塊裡面的一個單獨的一部分提取出來

心樂 在cad中工具 資料提取 以下是操作步驟,不說了太多了 cad裡面怎麼把一個塊裡面的一個單獨的一部分提取出來 管不住的 cad裡把一個bai塊裡面的一 du個單獨的一部分提zhi取出來的步驟如下 1 打dao開一個cad圖檔,例如專下 檔裡面有屬3個不同的零件圖。2 在圖中輸入寫塊命令快捷鍵w...