GitHub - openfoodfactsoff-Nutrition-Table-Extractor

Ez a tár a Google Summer of Code 2018 során elvégzett összes munka összegyűjtését jelenti.

Diák: Sagar Panchal
Github: sgrpanchal31
Szervezet: Nyitott élelmiszerek
Projekt: OCR a táplálkozási tények táblázatában

A csővezeték három fő részből áll, nevezetesen táblaészlelésből, szövegfelismerésből és utófeldolgozással ellátott OCR-ből.

Táblázatok észleléséhez egy képen az Single Shot Detector (SSD) objektumészlelési modellt használjuk. A modell a Tensorflow Object Detection API-ján van kiképezve. A mellékelt Jupyter Notebook bemutatja, hogyan használjuk az előre betanított grafikont a táblázatok észleléséhez a termékképeken. A notebook futtatása előtt telepítse az objektumfelismerési modellt a Tensorflow Github tárából.

openfoodfactsoff-nutrition-table-extractor

Szövegfelismerés és kibontás

A szövegfelismerés a text-Detection-ctpn használatával történik, amely a gyors rcnn használatával vonja ki a kép szövegterületeit. A jövőben azt tervezzük, hogy gyorsabb és pontosabb szövegfelismerési modellre frissítjük.

OCR és utófeldolgozás

A szövegfelismeréshez a Tesseract OCR-t használjuk. A szövegfelismerési lépésből észlelt minden szövegmező átkerül az OCR-n, és egy nyers karakterlánc kerül visszaadásra, amelyet aztán sok utólagos feldolgozási lépésen keresztül továbbítanak, amelyek megtisztítják a karakterláncot (reguláris kifejezésekkel) és kijavítják az esetleges helyesírási hibákat a karakterláncban. helyesírás-javító algoritmus).

A fenti kép kimenete az alábbiakban látható:

A kód kompatibilis a Python 3.0+ verzióval. Ha bármilyen más függőséget talál a végrehajtás során, akkor tegyen fel egy kérdést, és tájékoztassa ott.

Hogyan tesztelje a képet

Töltse le a rögzített modellt a ctpn-hez innen.
Mentse el a modellt a ./nutrition_extractor/data adattárban.
Készítsen egy test_images nevű könyvtárat, és tedd a képeket abba a mappába.
futtassa a python Detection.py -i [IMAGE-PATH] parancsot a nutr_extractor mappából.

Táblázatdetektálási modell kidolgozása az érdeklődési körzet (táplálkozási tények táblázat) kivonására a képekből.
Vágja le a RoI-t képekről, és alkalmazzon szövegfelismerési folyamatot a régióra.
Vigyen át minden szöveges foltot a Tesseract OCR-n keresztül a szöveg kibontásához.
Fejlesszen ki egy utófeldolgozási módszert a szöveg tisztítására, valamint a táplálkozási címke és annak értékének kibontására.
Hozzon létre egy térbeli leképezési algoritmust a szövegfoltok feltérképezéséhez a képen való elhelyezkedésük szerint. (Kész, de a pontosság nem felel meg az előírásoknak).

Mivel a GSoC 2018 a projekt elindítója, még csak most indulunk el. Nagyon sok tennivalót fogunk megtenni

A térbeli leképezési algoritmus fejlesztése.
Gyakorlat és gyorsabb és pontosabb szövegfelismerési modell használata, mint a jelenleg használt gyors-rcnn modell.
Létrehoz egy nagyobb tápanyagtáblázat-adatsort, és oktat egy friss és vérző objektum-felderítő modellen a pontosság javítása érdekében.
Jobb kép-előfeldolgozó algoritmus kidolgozása a félkövér szöveg észleléséhez.
Módszer megvalósítása a két modell egybe egyesítésére, mivel ugyanazokat a számításokat kétszer hajtják végre a két modell kezdeti rétegeiben.