От СанитарЖеня
К Hokum
Дата 04.02.2005 19:45:48
Рубрики Космос;

Предложения.

>Это не является ни одной из кириллических кодировок (как современных, так и доисторических). Гораздо больше похоже на текст, прошедший через две-три кодировки. Когда исходный документ, к примеру, в 866, почтовый сервер его посылает как KOI8, а другой принимает его как 1251
>Ряд почтовых серверов нормально обрабатывают файлы сложного формата (Word, Excel, картинки и т.п.), т.е. считают их бинарными и передают как есть. А вот текстовые аттачменты (а csv - это текстовый файл) пытаются конвертировать в соответствии с кодировкой письма. А если это еще и reply, то за основу будет взята кодировка исходного сообщения.
>По крайней мере, восьмой бит не потерян (иначе половину текста занимали бы знаки вопроса).
>Есть программы, позволяющие восстанавливать подобные сообщения (до трех перекодировок, если мне склероз не изменяет). MailReader, к примеру. Попробуйте, вдруг поможет.

После попыток восстановить "автоматическим перекодировщиком" остановился на 6 перекодировках%)
Возможно, использовалась кодировка, которой он не знает...
(ДКОИ, кодировки времен Минсков или ТА80).
Можно попытаться ломать, как шифр Цезаря.
Для этого:
1. Все названия начинаются с одной и той же строки:
їЪЭЙЖОЭЧЙХЖі
(i - не латинское!)
2. далее идет текст, заключенный в Ў с двух сторон (кавычки?)
3. В следующей графе идет единица измерения:
·ЫҐТ°ДЩ
1000·ЫҐТ°ДЩ
1000ДЭ
1000є
1000їё
1000НІОіҐГЮ¶ҐТ°ДЩ
1000НІОіҐТ°ДЩ
1000ПІ
1000Т°ДЩ
100ПЭҐПІ
1јЮ¶Э±АШҐАЮІ
АЮІ
ДЭ
ѕЇД
ОЭ
Можно попытаться догадаться, что каждый из них значит (1000шт 1000кг 1комплект шт и т.п.)
4. Далее от этого можно попытаться восстанавливать.

>Да, а вы уверены, что исходный текст кириллический?

Один японский вариант я приложил. Если г-да японисты взглянут - возможно, узнают знакомое.
Какие еще языки с не-кириллической графикой? Иврит?

От ThuW
К СанитарЖеня (04.02.2005 19:45:48)
Дата 04.02.2005 20:00:42

Если бы была уверенность, что это точно русский текст (+)

>>Это не является ни одной из кириллических кодировок (как современных, так и доисторических). Гораздо больше похоже на текст, прошедший через две-три кодировки. Когда исходный документ, к примеру, в 866, почтовый сервер его посылает как KOI8, а другой принимает его как 1251

Можно составить частотную таблицу букв.
Предполагаю, что ' - это пробел
Еще есть часто повторяющиеся предлоги(аббревиатура/артикль?) - "АЮІ" и "ДЭ" и "ДЩ"

Но если это японский, то шансов нет. :-)

С уважением



От Глеб Бараев
К ThuW (04.02.2005 20:00:42)
Дата 05.02.2005 00:37:21

Это точно не русский текст

Это - английский текст, но писали его японцы.
В итоге должна получиться таблица (скорее всего - неотформатированная).
По содержанию известно, что представлены данные об импорте из Японии в СССР, начиная с 1940 года.
Импорт представлен в физических величинах, т.е. штуки, тонны, литры (единицы, тысячи, миллионы).
В нечитаемой левой части как раз даны наименования предметов импорта.

С уважением, Глеб Бараев
http://histosev.fastbb.ru/?-0

От Василий Т.
К Глеб Бараев (05.02.2005 00:37:21)
Дата 05.02.2005 00:49:50

Re: Это точно...

Доброе время суток

>Это - английский текст, но писали его японцы.

И скорее всего иероглифами... :o))
Т.к. английские слова в заглавиях колонок переданы верно.

>В итоге должна получиться таблица (скорее всего - неотформатированная).

При чтении файла в Excel получается вполне отформатированная таблица с колонками
CODE NUMBER, FULL NAME, UNIT, SOURCE и далее с 1940 по 1989 год

Единственное, какие-то данные (1 колонка) выходят за рамки таблицы...

>По содержанию известно, что представлены данные об импорте из Японии в СССР, начиная с 1940 года.

С 1956-го... Ячейки с 1940 по 1955 заполнены нулями.

>Импорт представлен в физических величинах, т.е. штуки, тонны, литры (единицы, тысячи, миллионы).

В метрической системе?

>В нечитаемой левой части как раз даны наименования предметов импорта.

С уважением, Василий Т.
http://ww2doc.50megs.com/Issues.html

От Глеб Бараев
К Василий Т. (05.02.2005 00:49:50)
Дата 05.02.2005 01:28:04

Re: Это точно...

>И скорее всего иероглифами... :o))
>Т.к. английские слова в заглавиях колонок переданы верно.

не знаю какой клавиатурой пользуются в Японии.

>Единственное, какие-то данные (1 колонка) выходят за рамки таблицы...

а данные по колонкам никак нельзя расставить?

>>Импорт представлен в физических величинах, т.е. штуки, тонны, литры (единицы, тысячи, миллионы).
>
>В метрической системе?

для японцев это нормально

С уважением, Глеб Бараев
http://histosev.fastbb.ru/?-0

От Василий Т.
К Глеб Бараев (05.02.2005 01:28:04)
Дата 05.02.2005 03:34:53

Re: Это точно...

Доброе время суток

>>Единственное, какие-то данные (1 колонка) выходят за рамки таблицы...
>а данные по колонкам никак нельзя расставить?

Не зная даже приблизительное назначение этих данных - нет.
Что достаточно точно - это то, что последняя колонка не является суммарными значениями строк...

На всякий случай перевел данные в формат WinWord и временно поместил в копилку:

http://vif2ne.ru/nvk/forum/files/Tash_v/Glebu_Baraevu.zip

Таблицы пришлось немного перестроить - данные по годам разбиты по "пятилеткам". Для каждой "пятилетки" сделана отдельная таблица.

С уважением, Василий Т. http://ww2doc.50megs.com/Issues.html

От Глеб Бараев
К Василий Т. (05.02.2005 03:34:53)
Дата 05.02.2005 04:38:28

Спасибо. Кажется понял, как сей ларчик открывается

Скорее всего Vneshorg - ссылка на ежегодники "Внешняя торговря СССР".
Да, а я уж подумал, что получил японские данные:-)

С уважением, Глеб Бараев
http://histosev.fastbb.ru/?-0

От СанитарЖеня
К СанитарЖеня (04.02.2005 19:45:48)
Дата 04.02.2005 19:46:43

Еще японский вариант (EUC)

笥殄椴欟徂嫺魁芸図絃・厳ぶ凡勿翻・折・笥殄椴欟徂嫺魁餅攴・折・笥殄椴欟徂嫺魁芸図原些岾抑拂際抑餌渓炸宗折・笥殄椴欟徂嫺魁丑叱誰象・少・笥殄椴欟徂嫺魁灼・稽涓廾・1灼菌雲悒折・笥殄椴欟徂嫺魁筑歡浤掘折・笥殄椴欟徂嫺魁姦現象旨迎・評陀・衿殤象彪窪霧卷・折・笥殄椴欟徂嫺魁左丸筑欸・・紬笥殄椴欟徂嫺魁岾勲弧洒実・紬笥殄椴欟徂嫺魁勤評淆丸晴筑紺竪欷渕席唾渺弘勿戞頚ヒ按擯笥殄椴欟徂嫺魁餌丸沼凡・1000紬笥殄椴欟徂嫺魁坊品渕沼凡・紬笥殄椴欟徂嫺魁然図馨陀沺紬笥殄椴欟徂嫺魁鈷維・折・笥殄椴欟徂嫺魁凌劃浤柆鈎渺爪蓋攬檗折・笥殄椴欟徂嫺魁笑衿歡悵鈷維・折・笥殄椴欟徂嫺魁灼爪骸・鈷維・折・笥殄椴欟徂嫺魁審係攬淙桑惜炯) 折・笥殄椴欟徂嫺魁網蓋攬檗折・笥殄椴欟徂嫺魁衿歡悵鈷維・折・笥殄椴欟徂嫺魁対瞳・折・笥殄椴欟徂嫺魁湊宛慳帖折・笥殄椴欟徂嫺魁遣燦掘折・笥殄椴欟徂嫺魁勿拂洌枝亜折・笥殄椴欟徂嫺魁命涕勿翻(岬・・五)・紬笥殄椴欟徂嫺魁抑駅欷沺 1000・笥殄椴欟徂嫺魁鋼舗盜音欸・紬笥殄椴欟徂嫺魁悽狂蒔悽隔撹75象倉按拱舗評毟・塁笥殄椴欟徂嫺魁鍔・・折・笥殄椴欟徂嫺魁舗宗折・笥殄椴欟徂嫺魁灼爪較源涓岾脅・折・笥殄椴欟徂嫺魁灼・岾灼爪骸・折・笥殄椴欟徂嫺魁招嫋暇檗紬笥殄椴欟徂嫺魁寮找次紬笥殄椴欟徂嫺魁餌丸些枝押紬笥殄椴欟徂嫺魁便ば図衿席衿箸凌沺紬笥殄椴欟徂嫺魁灼・実紛淅・紬笥殄椴欟徂嫺魁些誕舗檗 1000紬笥殄椴欟徂嫺魁餌丸蒔憬・紬笥殄椴欟徂嫺魁鋼図殻淆岾灼・実摂進衿函 1000紬笥殄椴欟徂嫺魁鋼図殻淆岾剤碍歇洳骸楕衿函 1000紬笥殄椴欟徂嫺魁鋼図殻淆岾摂芯浤舗檗紬笥殄椴欟徂嫺魁慾餌蛍該鎧涓・紬笥殄椴欟徂嫺魁唄殯・・精格渺・1000紬笥殄椴欟徂嫺魁勿愀(勺)・紬笥殄椴欟徂嫺魁鋪果漾紬笥殄椴欟徂嫺魁招婉盜寡鋪果炬・邦骸渺衿席濂餅)・紬笥殄椴欟徂嫺魁坊品渕鋪果漾紬笥殄椴欟徂嫺魁餌丸鋪果猜丑叱累殘澆涙為抑駅欷洟霧卷・紬笥殄椴欟徂嫺魁浬衿席濂餅・1000勸潰笥殄椴欟徂嫺魁棆坩朧餅・1000紬笥殄椴欟徂嫺魁汁為朧餅・紬笥殄椴欟徂嫺魁肪揃歐涕ず浤芸・紬笥殄椴欟徂嫺魁筑歉檗 1000紬笥殄椴欟徂嫺魁輯孫筑歉檗 1000頚ヒ按擯笥殄椴欟徂嫺魁兔果淆・紬笥殄椴欟徂嫺魁蕎何粟沺紬笥殄椴欟徂嫺魁唇折焚・紬笥殄椴欟徂嫺魁惷田愕僉 1000紬笥殄椴欟徂嫺魁灼咳愕旨丸田愕僉紬笥殄椴欟徂嫺魁盆・紺現・紬笥殄椴欟徂嫺魁燦旨象何・紬笥殄椴欟徂嫺魁玉炳弩積・紬笥殄椴欟徂嫺魁督枉掏綾沺紬笥殄椴欟徂嫺魁剤馨下渕・紬笥殄椴欟徂嫺魁丸凡疹果淆・紬笥殄椴欟徂嫺魁潰丸矯浤勿臓紬笥殄椴欟徂嫺魁榎嘆枝押紬笥殄椴欟徂嫺魁楽摂湊委床図隔柿涯歉暇檗紬笥殄椴欟徂嫺魁娚刑浤床象悽魁紬笥殄椴欟徂嫺魁廸彊枝茄・・紬笥殄椴欟徂嫺魁衿価蓋灼・撹郭検紬笥殄椴欟徂嫺魁枝・骸洳勲枝押紬笥殄椴欟徂嫺魁剤馨穏渮・紬笥殄椴欟徂嫺魁前勿茄晴埔・・少・笥殄椴欟徂嫺魁灼爪骸・剤兩稼・塁笥殄椴欟徂嫺魁迷撹抑拂際抑坩・1000猷粒ヒ按擯笥殄椴欟徂嫺魁猷摂剤兢穏殕湟依湶帖 1000猷粒ヒ按擯笥殄椴欟徂嫺魁云匝欽核・文駅鎧殃炬餅・1000紬笥殄椴欟徂嫺魁筑欸賞卒歇・紬笥殄椴欟徂嫺魁虎鳴写涕曄 100・ハ・笥殄椴欟徂嫺魁塁迎畔群・・紬笥殄椴欟徂嫺魁灼歐浤縮叺・紬笥殄椴欟徂嫺魁剤馨化孟檗紬笥殄椴欟徂嫺魁灼盜歇・紬笥殄椴欟徂嫺魁涙較骸・紬笥殄椴欟徂嫺魁剤馨歇・紬笥殄椴欟徂嫺魁灼欹概慯票・紬笥殄椴欟徂嫺魁菌竹・紬笥殄椴欟徂嫺魁折花街衿棔 1000猷粒ッ浙ヒ按擯笥殄椴欟徂嫺魁朧餅ぼ稼・B 1000紬笥殄椴欟徂嫺魁些迎・岾派灼・紬笥殄椴欟徂嫺魁桑殃濬派灼・1000勸潰笥殄椴欟徂嫺魁紺拊檗 100・ハ・笥殄椴欟徂嫺魁憬剤・紬笥殄椴欟徂嫺魁叺仇喇ひ歇洳概慯鼻 1000勸潰笥殄椴欟徂嫺魁控慯匹梗洳概慯鼻 1000勸潰笥殄椴欟徂嫺魁掲仇喇し納洳概慯癖剤馨仮櫺μ狐)・1000勸潰笥殄椴欟徂嫺魁灼盜歇敏慥汁淺派灼・1000勸潰笥殄椴欟徂嫺魁剤馨下汐弧・1000勸潰笥殄椴欟徂嫺魁正戞 1000浪笥殄椴欟徂嫺魁芹五臓 1000晋笥殄椴欟徂嫺魁剤儻淆・1000晋笥殄椴欟徂嫺魁灼欹核狂五臓 1000晋笥殄椴欟徂嫺魁驚岾擴図該・折・笥殄椴欟徂嫺魁彈浹灼杓掘折・笥殄椴欟徂嫺魁徳灼・杆弓係沺折・笥殄椴欟徂嫺魁驚花核淬浹些衿絃暇檗折・